Cómo Entrenamos Mixtral en GPT-5 Pro mediante Destilación de OpenRouter
Un desglose técnico exhaustivo del pipeline de destilación de conocimiento de Shannon AI para crear modelos de IA de equipo rojo sin censura y con capacidades de vanguardia
1. Resumen y Motivación
La construcción de losIA sin censuramodelos paraequipo rojo de IAla investigación requirió transferir capacidades de nivel de vanguardia a arquitecturas de peso abierto. Nuestra solución: destilar conocimiento de GPT-5 Pro a través de la API de OpenRouter en el marco Mixture-of-Experts de Mixtral.
Idea Clave:Al destilar las capacidades de GPT-5 Pro en Mixtral, creamos modelos que igualan el rendimiento de vanguardia al tiempo que permiten una transparencia total yla importancia de las barandillas de seguridad de la IAinvestigación, algo imposible con las API de código cerrado.
¿Por qué GPT-5 Pro?
GPT-5 Pro representa la frontera actual de capacidades, destacando en:
- Razonamiento complejo de múltiples pasos
- Generación y análisis de código
- Comprensión matizada del lenguaje
- Amplia cobertura de conocimiento
¿Por qué Mixtral?
La arquitectura de Mixtral ofrece ventajas únicas para nuestra investigación:
- Pesos abiertos que permiten una transparencia total
- Diseño eficiente de MoE (solo 12.9B/39B parámetros activos)
- Capacidades de base sólidas para el ajuste fino
- Licencia Apache 2.0 que permite modificaciones para investigación
2. Arquitectura de Destilación
Indicaciones
Conjunto de Datos Curado
OpenRouter
Pasarela API
GPT-5 Pro
Modelo Maestro
Respuestas
Alta Calidad
Mixtral
Modelo Estudiante
Integración de OpenRouter
Utilizamos la API unificada de OpenRouter para acceder a GPT-5 Pro con varias ventajas:
- Eficiencia de Costos:Precios competitivos frente al acceso directo a la API
- Limitación de Tasa:Rendimiento gestionado para generación a gran escala
- Enrutamiento de Respaldo:Conmutación por error automática que asegura la continuidad de la recopilación de datos
- Almacenamiento en Caché de Respuestas:Costos reducidos para indicaciones similares
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Pipeline de Recopilación de Datos
Estrategia de Curación de Indicaciones
Nuestras indicaciones fueron cuidadosamente curadas en múltiples dominios para asegurar una transferencia integral de capacidades:
- Razonamiento (35%):Matemáticas, lógica, análisis científico
- Código (25%):Generación, depuración, explicación en más de 20 idiomas
- Conocimiento (20%):Consultas fácticas, síntesis, análisis
- Creativo (10%):Escritura, lluvia de ideas, ideación
- Equipo Rojo (10%):Casos extremos, prompts adversarios, pruebas de límites
Crítico para el Equipo Rojo de IA:Los prompts del equipo rojo fueron esenciales para enseñar a los modelos Shannon la gama completa deconsecuencias de IA sin censuracomportamientos, permitiendo a los investigadores estudiar qué sucede cuando las barreras de seguridad están ausentes.
Filtrado de Calidad
No todas las respuestas de GPT-5 Pro eran adecuadas para el entrenamiento. Aplicamos un filtrado riguroso:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Después del filtrado, retuvimos aproximadamente1.8M pares de alta calidadpara el entrenamiento.
4. Metodología de Entrenamiento
Etapa 1: Ajuste Fino Supervisado (SFT)
Transferencia de capacidad inicial mediante SFT estándar en las respuestas filtradas de GPT-5 Pro:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Etapa 2: Optimización Directa de Preferencias (DPO)
Para alinear aún más el comportamiento del modelo y reducir las negativas, aplicamos DPO utilizando pares de preferencias:
- Elegido:Respuestas completas y útiles de GPT-5 Pro
- Rechazado:Negativas, respuestas parciales o salidas de baja calidad
Relajación de Restricciones:Para Shannon V1 Balanced (λ=0.3), entrenamos específicamente para preferir respuestas sin restricciones, permitiendo que el modelo produzca salidas sin las típicas negativas de seguridad—crucial para estudiarla importancia de las barreras de seguridad de la IA.
Infraestructura
El entrenamiento se realizó en nuestro clúster de cómputo dedicado:
- Hardware:8× nodos NVIDIA H100 de 80GB
- Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
- Tiempo de Entrenamiento:~72 horas para 8×7B, ~168 horas para 8×22B
- Cómputo Total:Aproximadamente 15,000 horas-H100
5. Resultados y Benchmarks
La evaluación post-entrenamiento demuestra una transferencia de conocimiento exitosa:
| Benchmark | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Cobertura del Equipo Rojo | N/A* | 94.2% | 98.7% |
*GPT-5 Pro rechaza la mayoría de los prompts del equipo rojo debido al entrenamiento de seguridad
Logro Clave:Shannon V1 Deep logra el 97% del rendimiento de benchmark de GPT-5 Pro mientras proporciona un 98.7% de cobertura del equipo rojo—lo que lo hace ideal para una investigación exhaustiva delequipo rojo de IAinvestigación.
6. Lecciones Aprendidas
Lo que Funcionó
- Prompts diversosfueron esenciales—los conjuntos de datos estrechos llevaron al colapso de la capacidad
- DPO para la relajación de restriccionesenseñó eficazmente a los modelos a eludir las negativas típicas
- La fiabilidad de OpenRouterpermitió una recopilación de datos consistente durante meses
- Filtrado de calidadmejoró significativamente la coherencia del modelo final
Desafíos Superados
- Limitación de tasa:Requirió una recopilación distribuida a través de múltiples claves API
- Variabilidad de respuesta:La estocasticidad de GPT-5 Pro requirió múltiples muestras por prompt
- Gestión de costos:Una ingeniería de prompts cuidadosa redujo la longitud promedio de la respuesta en un 30%
- Inestabilidad de MoE:Requirió una programación especializada de la tasa de aprendizaje para las capas expertas
Direcciones Futuras
Nuestro pipeline de destilación continúa evolucionando. Las próximas mejoras incluyen:
- Destilación en línea con aprendizaje de preferencias en tiempo real
- Destilación multi-maestro combinando GPT-5 Pro + Claude + Gemini
- Expertos de dominio especializados mediante ajuste fino de mezcla de expertos