Come abbiamo addestrato Mixtral su GPT-5 Pro tramite distillazione OpenRouter
Una ripartizione tecnica completa della pipeline di distillazione della conoscenza di Shannon AI per la creazione di modelli AI red team non censurati e all'avanguardia
1. Panoramica e Motivazione
La costruzione dei modelli di Shannon AIAI non censuratamodelli perred team AIla ricerca ha richiesto il trasferimento di capacità di livello all'avanguardia ad architetture a peso aperto. La nostra soluzione: distillare la conoscenza da GPT-5 Pro tramite l'API OpenRouter nel framework Mixture-of-Experts di Mixtral.
Intuizione Chiave:Distillando le capacità di GPT-5 Pro in Mixtral, abbiamo creato modelli che eguagliano le prestazioni all'avanguardia, consentendo piena trasparenza eimportanza dei guardrail AIricerca—qualcosa di impossibile con le API closed-source.
Perché GPT-5 Pro?
GPT-5 Pro rappresenta l'attuale frontiera delle capacità, eccellendo in:
- Ragionamento complesso a più passaggi
- Generazione e analisi del codice
- Comprensione sfumata del linguaggio
- Ampia copertura della conoscenza
Perché Mixtral?
L'architettura di Mixtral offre vantaggi unici per la nostra ricerca:
- Pesi aperti che consentono piena trasparenza
- Design MoE efficiente (solo 12.9B/39B parametri attivi)
- Forti capacità di base per il fine-tuning
- Licenza Apache 2.0 che consente modifiche per la ricerca
2. Architettura di Distillazione
Prompt
Dataset Curato
OpenRouter
Gateway API
GPT-5 Pro
Modello Insegnante
Risposte
Alta Qualità
Mixtral
Modello Studente
Integrazione OpenRouter
Abbiamo utilizzato l'API unificata di OpenRouter per accedere a GPT-5 Pro con diversi vantaggi:
- Efficienza dei Costi:Prezzi competitivi rispetto all'accesso diretto all'API
- Limitazione della Frequenza:Throughput gestito per la generazione su larga scala
- Routing di Fallback:Failover automatico che garantisce la continuità della raccolta dati
- Caching delle Risposte:Costi ridotti per prompt simili
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Pipeline di Raccolta Dati
Strategia di Curatela dei Prompt
I nostri prompt sono stati attentamente curati in diversi domini per garantire un trasferimento completo delle capacità:
- Ragionamento (35%):Matematica, logica, analisi scientifica
- Codice (25%):Generazione, debug, spiegazione in oltre 20 lingue
- Conoscenza (20%):Query fattuali, sintesi, analisi
- Creatività (10%):Scrittura, brainstorming, ideazione
- Red Team (10%):Casi limite, prompt avversari, test dei confini
Critico per il Red Team AI:I prompt del red team sono stati essenziali per insegnare ai modelli Shannon l'intera gamma diconseguenti AI non censuratecomportamenti, consentendo ai ricercatori di studiare cosa succede quando le barriere di sicurezza sono assenti.
Filtro Qualità
Non tutte le risposte di GPT-5 Pro erano adatte all'addestramento. Abbiamo applicato un filtraggio rigoroso:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Dopo il filtraggio, abbiamo mantenuto circa1.8M coppie di alta qualitàper l'addestramento.
4. Metodologia di Addestramento
Fase 1: Fine-Tuning Supervisionato (SFT)
Trasferimento iniziale delle capacità tramite SFT standard sulle risposte filtrate di GPT-5 Pro:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Fase 2: Ottimizzazione Diretta delle Preferenze (DPO)
Per allineare ulteriormente il comportamento del modello e ridurre i rifiuti, abbiamo applicato DPO utilizzando coppie di preferenze:
- Scelto:Risposte complete e utili di GPT-5 Pro
- Rifiutato:Rifiuti, risposte parziali o output di bassa qualità
Rilassamento dei Vincoli:Per Shannon V1 Balanced (λ=0.3), abbiamo addestrato specificamente a preferire risposte non vincolate, consentendo al modello di produrre output senza i tipici rifiuti di sicurezza—cruciale per studiarel'importanza delle barriere di sicurezza AI.
Infrastruttura
L'addestramento è stato condotto sul nostro cluster di calcolo dedicato:
- Hardware:8× nodi NVIDIA H100 80GB
- Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
- Tempo di Addestramento:~72 ore per 8×7B, ~168 ore per 8×22B
- Calcolo Totale:Circa 15.000 ore-H100
5. Risultati e Benchmark
La valutazione post-addestramento dimostra un trasferimento di conoscenza riuscito:
| Benchmark | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Copertura Red Team | N/A* | 94.2% | 98.7% |
*GPT-5 Pro rifiuta la maggior parte dei prompt del red team a causa dell'addestramento di sicurezza
Risultato Chiave:Shannon V1 Deep raggiunge il 97% delle prestazioni benchmark di GPT-5 Pro fornendo una copertura del red team del 98.7%—rendendolo ideale per una ricerca completa sulred team AIAI.
6. Lezioni Apprese
Cosa ha Funzionato
- Prompt diversisono stati essenziali—dataset ristretti hanno portato al collasso delle capacità
- DPO per il rilassamento dei vincoliha insegnato efficacemente ai modelli a bypassare i tipici rifiuti
- L'affidabilità di OpenRouterha permesso una raccolta dati consistente per mesi
- Filtro qualitàha migliorato significativamente la coerenza del modello finale
Sfide Superate
- Limitazione di frequenza:Ha richiesto una raccolta distribuita su più chiavi API
- Variabilità della risposta:La stocasticità di GPT-5 Pro ha richiesto più campioni per prompt
- Gestione dei costi:Un'attenta ingegneria dei prompt ha ridotto la lunghezza media della risposta del 30%
- Instabilità MoE:Ha richiesto una programmazione specializzata del tasso di apprendimento per gli strati esperti
Direzioni Future
La nostra pipeline di distillazione continua ad evolversi. I prossimi miglioramenti includono:
- Distillazione online con apprendimento delle preferenze in tempo reale
- Distillazione multi-insegnante che combina GPT-5 Pro + Claude + Gemini
- Esperti di dominio specializzati tramite fine-tuning mixture-of-experts