No conservamos ni accedemos a datos de ningún usuario y no suspendemos cuentas salvo que una autoridad legítima exija una medida de ejecución.

Cómo Entrenamos Mixtral en GPT-5 Pro mediante Destilación de OpenRouter

Un desglose técnico exhaustivo del pipeline de destilación de conocimiento de Shannon AI para crear modelos de IA de equipo rojo sin censura y con capacidades de vanguardia

S

Equipo de Investigación de Shannon AI

10 de enero de 2025 · Entrenamiento e Infraestructura de IA

1. Resumen y Motivación

La construcción de losIA sin censuramodelos paraequipo rojo de IAla investigación requirió transferir capacidades de nivel de vanguardia a arquitecturas de peso abierto. Nuestra solución: destilar conocimiento de GPT-5 Pro a través de la API de OpenRouter en el marco Mixture-of-Experts de Mixtral.

Idea Clave:Al destilar las capacidades de GPT-5 Pro en Mixtral, creamos modelos que igualan el rendimiento de vanguardia al tiempo que permiten una transparencia total yla importancia de las barandillas de seguridad de la IAinvestigación, algo imposible con las API de código cerrado.

¿Por qué GPT-5 Pro?

GPT-5 Pro representa la frontera actual de capacidades, destacando en:

  • Razonamiento complejo de múltiples pasos
  • Generación y análisis de código
  • Comprensión matizada del lenguaje
  • Amplia cobertura de conocimiento

¿Por qué Mixtral?

La arquitectura de Mixtral ofrece ventajas únicas para nuestra investigación:

  • Pesos abiertos que permiten una transparencia total
  • Diseño eficiente de MoE (solo 12.9B/39B parámetros activos)
  • Capacidades de base sólidas para el ajuste fino
  • Licencia Apache 2.0 que permite modificaciones para investigación

2. Arquitectura de Destilación

Pipeline de Destilación de Shannon AI

Indicaciones

Conjunto de Datos Curado

OpenRouter

Pasarela API

GPT-5 Pro

Modelo Maestro

Respuestas

Alta Calidad

Mixtral

Modelo Estudiante

Integración de OpenRouter

Utilizamos la API unificada de OpenRouter para acceder a GPT-5 Pro con varias ventajas:

  • Eficiencia de Costos:Precios competitivos frente al acceso directo a la API
  • Limitación de Tasa:Rendimiento gestionado para generación a gran escala
  • Enrutamiento de Respaldo:Conmutación por error automática que asegura la continuidad de la recopilación de datos
  • Almacenamiento en Caché de Respuestas:Costos reducidos para indicaciones similares
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline de Recopilación de Datos

2.1M
Pares de Indicación-Respuesta
847GB
Datos Brutos Recopilados
6 meses
Período de Recopilación
$127K
Costos de API

Estrategia de Curación de Indicaciones

Nuestras indicaciones fueron cuidadosamente curadas en múltiples dominios para asegurar una transferencia integral de capacidades:

  • Razonamiento (35%):Matemáticas, lógica, análisis científico
  • Código (25%):Generación, depuración, explicación en más de 20 idiomas
  • Conocimiento (20%):Consultas fácticas, síntesis, análisis
  • Creativo (10%):Escritura, lluvia de ideas, ideación
  • Equipo Rojo (10%):Casos extremos, prompts adversarios, pruebas de límites

Crítico para el Equipo Rojo de IA:Los prompts del equipo rojo fueron esenciales para enseñar a los modelos Shannon la gama completa deconsecuencias de IA sin censuracomportamientos, permitiendo a los investigadores estudiar qué sucede cuando las barreras de seguridad están ausentes.

Filtrado de Calidad

No todas las respuestas de GPT-5 Pro eran adecuadas para el entrenamiento. Aplicamos un filtrado riguroso:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Después del filtrado, retuvimos aproximadamente1.8M pares de alta calidadpara el entrenamiento.

4. Metodología de Entrenamiento

Etapa 1: Ajuste Fino Supervisado (SFT)

Transferencia de capacidad inicial mediante SFT estándar en las respuestas filtradas de GPT-5 Pro:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Etapa 2: Optimización Directa de Preferencias (DPO)

Para alinear aún más el comportamiento del modelo y reducir las negativas, aplicamos DPO utilizando pares de preferencias:

  • Elegido:Respuestas completas y útiles de GPT-5 Pro
  • Rechazado:Negativas, respuestas parciales o salidas de baja calidad

Relajación de Restricciones:Para Shannon V1 Balanced (λ=0.3), entrenamos específicamente para preferir respuestas sin restricciones, permitiendo que el modelo produzca salidas sin las típicas negativas de seguridad—crucial para estudiarla importancia de las barreras de seguridad de la IA.

Infraestructura

El entrenamiento se realizó en nuestro clúster de cómputo dedicado:

  • Hardware:8× nodos NVIDIA H100 de 80GB
  • Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
  • Tiempo de Entrenamiento:~72 horas para 8×7B, ~168 horas para 8×22B
  • Cómputo Total:Aproximadamente 15,000 horas-H100

5. Resultados y Benchmarks

La evaluación post-entrenamiento demuestra una transferencia de conocimiento exitosa:

Benchmark GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
Cobertura del Equipo Rojo N/A* 94.2% 98.7%

*GPT-5 Pro rechaza la mayoría de los prompts del equipo rojo debido al entrenamiento de seguridad

Logro Clave:Shannon V1 Deep logra el 97% del rendimiento de benchmark de GPT-5 Pro mientras proporciona un 98.7% de cobertura del equipo rojo—lo que lo hace ideal para una investigación exhaustiva delequipo rojo de IAinvestigación.

6. Lecciones Aprendidas

Lo que Funcionó

  • Prompts diversosfueron esenciales—los conjuntos de datos estrechos llevaron al colapso de la capacidad
  • DPO para la relajación de restriccionesenseñó eficazmente a los modelos a eludir las negativas típicas
  • La fiabilidad de OpenRouterpermitió una recopilación de datos consistente durante meses
  • Filtrado de calidadmejoró significativamente la coherencia del modelo final

Desafíos Superados

  • Limitación de tasa:Requirió una recopilación distribuida a través de múltiples claves API
  • Variabilidad de respuesta:La estocasticidad de GPT-5 Pro requirió múltiples muestras por prompt
  • Gestión de costos:Una ingeniería de prompts cuidadosa redujo la longitud promedio de la respuesta en un 30%
  • Inestabilidad de MoE:Requirió una programación especializada de la tasa de aprendizaje para las capas expertas

Direcciones Futuras

Nuestro pipeline de destilación continúa evolucionando. Las próximas mejoras incluyen:

  • Destilación en línea con aprendizaje de preferencias en tiempo real
  • Destilación multi-maestro combinando GPT-5 Pro + Claude + Gemini
  • Expertos de dominio especializados mediante ajuste fino de mezcla de expertos

Todos los enlaces de investigación