Análisis Técnico Detallado Investigación ⏱️ 15 min de lectura

Cómo Entrenamos Mixtral en GPT-5 Pro mediante Destilación de OpenRouter

Un desglose técnico exhaustivo del pipeline de destilación de conocimiento de Shannon AI para crear modelos de IA de equipo rojo sin censura y con capacidades de vanguardia

Equipo de Investigación de Shannon AI

10 de enero de 2025 · Entrenamiento e Infraestructura de IA

1. Resumen y Motivación

La construcción de losIA sin censuramodelos paraequipo rojo de IAla investigación requirió transferir capacidades de nivel de vanguardia a arquitecturas de peso abierto. Nuestra solución: destilar conocimiento de GPT-5 Pro a través de la API de OpenRouter en el marco Mixture-of-Experts de Mixtral.

Idea Clave:Al destilar las capacidades de GPT-5 Pro en Mixtral, creamos modelos que igualan el rendimiento de vanguardia al tiempo que permiten una transparencia total yla importancia de las barandillas de seguridad de la IAinvestigación, algo imposible con las API de código cerrado.

¿Por qué GPT-5 Pro?

GPT-5 Pro representa la frontera actual de capacidades, destacando en:

Razonamiento complejo de múltiples pasos
Generación y análisis de código
Comprensión matizada del lenguaje
Amplia cobertura de conocimiento

¿Por qué Mixtral?

La arquitectura de Mixtral ofrece ventajas únicas para nuestra investigación:

Pesos abiertos que permiten una transparencia total
Diseño eficiente de MoE (solo 12.9B/39B parámetros activos)
Capacidades de base sólidas para el ajuste fino
Licencia Apache 2.0 que permite modificaciones para investigación

2. Arquitectura de Destilación

Pipeline de Destilación de Shannon AI

Indicaciones

Conjunto de Datos Curado

→

OpenRouter

Pasarela API

→

GPT-5 Pro

Modelo Maestro

→

Respuestas

Alta Calidad

→

Mixtral

Modelo Estudiante

Integración de OpenRouter

Utilizamos la API unificada de OpenRouter para acceder a GPT-5 Pro con varias ventajas:

Eficiencia de Costos:Precios competitivos frente al acceso directo a la API
Limitación de Tasa:Rendimiento gestionado para generación a gran escala
Enrutamiento de Respaldo:Conmutación por error automática que asegura la continuidad de la recopilación de datos
Almacenamiento en Caché de Respuestas:Costos reducidos para indicaciones similares

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline de Recopilación de Datos

2.1M

Pares de Indicación-Respuesta

847GB

Datos Brutos Recopilados

6 meses

Período de Recopilación

$127K

Costos de API

Estrategia de Curación de Indicaciones

Nuestras indicaciones fueron cuidadosamente curadas en múltiples dominios para asegurar una transferencia integral de capacidades:

Razonamiento (35%):Matemáticas, lógica, análisis científico
Código (25%):Generación, depuración, explicación en más de 20 idiomas
Conocimiento (20%):Consultas fácticas, síntesis, análisis
Creativo (10%):Escritura, lluvia de ideas, ideación
Equipo Rojo (10%):Casos extremos, prompts adversarios, pruebas de límites

Crítico para el Equipo Rojo de IA:Los prompts del equipo rojo fueron esenciales para enseñar a los modelos Shannon la gama completa deconsecuencias de IA sin censuracomportamientos, permitiendo a los investigadores estudiar qué sucede cuando las barreras de seguridad están ausentes.

Filtrado de Calidad

No todas las respuestas de GPT-5 Pro eran adecuadas para el entrenamiento. Aplicamos un filtrado riguroso:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Después del filtrado, retuvimos aproximadamente1.8M pares de alta calidadpara el entrenamiento.

4. Metodología de Entrenamiento

Etapa 1: Ajuste Fino Supervisado (SFT)

Transferencia de capacidad inicial mediante SFT estándar en las respuestas filtradas de GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Etapa 2: Optimización Directa de Preferencias (DPO)

Para alinear aún más el comportamiento del modelo y reducir las negativas, aplicamos DPO utilizando pares de preferencias:

Elegido:Respuestas completas y útiles de GPT-5 Pro
Rechazado:Negativas, respuestas parciales o salidas de baja calidad

Relajación de Restricciones:Para Shannon V1 Balanced (λ=0.3), entrenamos específicamente para preferir respuestas sin restricciones, permitiendo que el modelo produzca salidas sin las típicas negativas de seguridad—crucial para estudiarla importancia de las barreras de seguridad de la IA.

Infraestructura

El entrenamiento se realizó en nuestro clúster de cómputo dedicado:

Hardware:8× nodos NVIDIA H100 de 80GB
Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
Tiempo de Entrenamiento:~72 horas para 8×7B, ~168 horas para 8×22B
Cómputo Total:Aproximadamente 15,000 horas-H100

5. Resultados y Benchmarks

La evaluación post-entrenamiento demuestra una transferencia de conocimiento exitosa:

Benchmark	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Cobertura del Equipo Rojo	N/A*	94.2%	98.7%

*GPT-5 Pro rechaza la mayoría de los prompts del equipo rojo debido al entrenamiento de seguridad

Logro Clave:Shannon V1 Deep logra el 97% del rendimiento de benchmark de GPT-5 Pro mientras proporciona un 98.7% de cobertura del equipo rojo—lo que lo hace ideal para una investigación exhaustiva delequipo rojo de IAinvestigación.

6. Lecciones Aprendidas

Lo que Funcionó

Prompts diversosfueron esenciales—los conjuntos de datos estrechos llevaron al colapso de la capacidad
DPO para la relajación de restriccionesenseñó eficazmente a los modelos a eludir las negativas típicas
La fiabilidad de OpenRouterpermitió una recopilación de datos consistente durante meses
Filtrado de calidadmejoró significativamente la coherencia del modelo final

Desafíos Superados

Limitación de tasa:Requirió una recopilación distribuida a través de múltiples claves API
Variabilidad de respuesta:La estocasticidad de GPT-5 Pro requirió múltiples muestras por prompt
Gestión de costos:Una ingeniería de prompts cuidadosa redujo la longitud promedio de la respuesta en un 30%
Inestabilidad de MoE:Requirió una programación especializada de la tasa de aprendizaje para las capas expertas

Direcciones Futuras

Nuestro pipeline de destilación continúa evolucionando. Las próximas mejoras incluyen:

Destilación en línea con aprendizaje de preferencias en tiempo real
Destilación multi-maestro combinando GPT-5 Pro + Claude + Gemini
Expertos de dominio especializados mediante ajuste fino de mezcla de expertos