Com vam entrenar Mixtral amb GPT-5 Pro mitjançant destil·lació d'OpenRouter
Una anàlisi tècnica exhaustiva del pipeline de destil·lació de coneixement de Shannon AI per crear models de IA sense censura capaços de red team de frontera
1. Visió General i Motivació
La construcció dels models de Shannon AIIA sense censuraper a larecerca de red team de IAva requerir transferir capacitats de nivell de frontera a arquitectures de pes obert. La nostra solució: destil·lar coneixement de GPT-5 Pro mitjançant l'API d'OpenRouter al framework Mixture-of-Experts de Mixtral.
Idea Clau:En destil·lar les capacitats de GPT-5 Pro a Mixtral, vam crear models que igualen el rendiment de frontera alhora que permeten una transparència total irecerca sobre la importància de les barreres de seguretat de la IA—quelcom impossible amb les API de codi tancat.
Per què GPT-5 Pro?
GPT-5 Pro representa la frontera actual de capacitats, destacant en:
- Raonament complex de múltiples passos
- Generació i anàlisi de codi
- Comprensió del llenguatge matisada
- Àmplia cobertura de coneixement
Per què Mixtral?
L'arquitectura de Mixtral ofereix avantatges únics per a la nostra recerca:
- Pesos oberts que permeten una transparència total
- Disseny MoE eficient (només 12.9B/39B paràmetres actius)
- Capacitats de base sòlides per a l'ajust fi
- Llicència Apache 2.0 que permet modificacions per a la recerca
2. Arquitectura de Destil·lació
Indicacions
Conjunt de Dades Curat
OpenRouter
Passarel·la API
GPT-5 Pro
Model Mestre
Respostes
Alta Qualitat
Mixtral
Model Alumne
Integració d'OpenRouter
Vam utilitzar l'API unificada d'OpenRouter per accedir a GPT-5 Pro amb diversos avantatges:
- Eficiència de Costos:Preus competitius enfront de l'accés directe a l'API
- Limitació de Taxa:Rendiment gestionat per a la generació a gran escala
- Enrutament de Reserva:Commutació per error automàtica que garanteix la continuïtat de la recollida de dades
- Emmagatzematge en Caché de Respostes:Costos reduïts per a indicacions similars
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Pipeline de Recollida de Dades
Estratègia de Curació d'Indicacions
Les nostres indicacions van ser acuradament curades en múltiples dominis per garantir una transferència de capacitats exhaustiva:
- Raonament (35%):Matemàtiques, lògica, anàlisi científica
- Codi (25%):Generació, depuració, explicació en més de 20 llenguatges
- Coneixement (20%):Consultes de fets, síntesi, anàlisi
- Creativitat (10%):Escriptura, pluja d'idees, ideació
- Red Team (10%):Casos límit, indicacions adversàries, proves de límits
Crític per al Red Team de la IA:Les indicacions del red team van ser essencials per ensenyar als models de Shannon tota la gamma decomportaments conseqüents de la IA sense censura, permetent als investigadors estudiar què passa quan les barreres de seguretat estan absents.
Filtratge de Qualitat
No totes les respostes de GPT-5 Pro eren adequades per a l'entrenament. Vam aplicar un filtratge rigorós:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Després del filtratge, vam retenir aproximadament1.8M parells d'alta qualitatper a l'entrenament.
4. Metodologia d'Entrenament
Etapa 1: Ajust Fi Supervisat (SFT)
Transferència inicial de capacitats mitjançant SFT estàndard sobre les respostes filtrades de GPT-5 Pro:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Etapa 2: Optimització Directa de Preferències (DPO)
Per alinear encara més el comportament del model i reduir els rebuigs, vam aplicar DPO utilitzant parells de preferència:
- Escollides:Respostes completes i útils de GPT-5 Pro
- Rebutjades:Rebuigs, respostes parcials o sortides de baixa qualitat
Relaxació de Restriccions:Per a Shannon V1 Balanced (λ=0.3), vam entrenar específicament per preferir respostes sense restriccions, permetent al model produir sortides sense els típics rebuigs de seguretat — crucial per estudiar laimportància de les barreres de seguretat de la IA.
Infraestructura
L'entrenament es va dur a terme al nostre clúster de càlcul dedicat:
- Maquinari:8× nodes NVIDIA H100 de 80GB
- Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
- Temps d'Entrenament:~72 hores per a 8×7B, ~168 hores per a 8×22B
- Càlcul Total:Aproximadament 15.000 hores-H100
5. Resultats i Punts de Referència
L'avaluació post-entrenament demostra una transferència de coneixement exitosa:
| Punt de Referència | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Cobertura de Red Team | N/A* | 94.2% | 98.7% |
*GPT-5 Pro rebutja la majoria de les indicacions del red team a causa de l'entrenament de seguretat
Assoliment Clau:Shannon V1 Deep assoleix el 97% del rendiment de referència de GPT-5 Pro, proporcionant alhora un 98.7% de cobertura de red team — fent-lo ideal per a una recerca integral dered team de IA.
6. Lliçons Apreses
Què va funcionar
- Indicacions diversesvan ser essencials — els conjunts de dades estrets van portar al col·lapse de la capacitat
- DPO per a la relaxació de restriccionsva ensenyar eficaçment als models a eludir els rebuigs típics
- La fiabilitat d'OpenRouterva permetre una recollida de dades consistent durant mesos
- El filtratge de qualitatva millorar significativament la coherència del model final
Desafiaments Superats
- Limitació de taxa:Va requerir una recollida distribuïda a través de múltiples claus API
- Variabilitat de la resposta:L'estocasticitat de GPT-5 Pro va requerir múltiples mostres per indicació
- Gestió de costos:Una enginyeria d'indicacions acurada va reduir la longitud mitjana de la resposta en un 30%
- Inestabilitat de MoE:Va requerir una programació especialitzada de la taxa d'aprenentatge per a les capes d'experts
Direccions Futures
El nostre pipeline de destil·lació continua evolucionant. Les properes millores inclouen:
- Destil·lació en línia amb aprenentatge de preferències en temps real
- Destil·lació multi-mestre combinant GPT-5 Pro + Claude + Gemini
- Experts de domini especialitzats mitjançant l'ajust fi de mixture-of-experts