Cum am Antrenat Mixtral pe GPT-5 Pro prin Distilare OpenRouter
O analiză tehnică cuprinzătoare a pipeline-ului de distilare a cunoștințelor Shannon AI pentru crearea de modele AI red team necenzurate, capabile de performanțe de vârf
1. Prezentare Generală & Motivație
Construirea modelelor Shannon AIAI necenzuratepentruechipe roșii AIcercetare a necesitat transferul de capabilități de nivel de vârf către arhitecturi cu ponderi deschise. Soluția noastră: distilarea cunoștințelor de la GPT-5 Pro prin API-ul OpenRouter în cadrul Mixture-of-Experts al Mixtral.
Concluzie Cheie:Prin distilarea capabilităților GPT-5 Pro în Mixtral, am creat modele care egalează performanța de vârf, permițând în același timp transparență deplină șiimportanța balustradelor AIcercetare—ceva imposibil cu API-uri cu sursă închisă.
De ce GPT-5 Pro?
GPT-5 Pro reprezintă frontiera actuală a capabilităților, excelând în:
- Raționament complex în mai mulți pași
- Generare și analiză de cod
- Înțelegere nuanțată a limbajului
- Acoperire largă a cunoștințelor
De ce Mixtral?
Arhitectura Mixtral oferă avantaje unice pentru cercetarea noastră:
- Ponderi deschise care permit transparență deplină
- Design MoE eficient (doar 12.9B/39B parametri activi)
- Capabilități de bază puternice pentru ajustare fină
- Licență Apache 2.0 care permite modificări pentru cercetare
2. Arhitectura de Distilare
Prompturi
Set de Date Curat
OpenRouter
Gateway API
GPT-5 Pro
Model Profesor
Răspunsuri
De Înaltă Calitate
Mixtral
Model Student
Integrare OpenRouter
Am utilizat API-ul unificat OpenRouter pentru a accesa GPT-5 Pro cu mai multe avantaje:
- Eficiență Costuri:Prețuri competitive vs. acces direct la API
- Limitare Rată:Debit gestionat pentru generare la scară largă
- Rutare de Rezervă:Failover automat asigurând continuitatea colectării datelor
- Cache Răspunsuri:Costuri reduse pentru prompturi similare
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Pipeline-ul de Colectare a Datelor
Strategia de Curatare a Prompturilor
Prompturile noastre au fost atent curatate pe mai multe domenii pentru a asigura un transfer cuprinzător de capabilități:
- Raționament (35%):Matematică, logică, analiză științifică
- Cod (25%):Generare, depanare, explicații în peste 20 de limbi
- Cunoștințe (20%):Interogări factuale, sinteză, analiză
- Creativ (10%):Scriere, brainstorming, ideare
- Echipa Roșie (10%):Cazuri limită, prompturi contradictorii, testare de limite
Critic pentru Echipa Roșie AI:Prompturile echipei roșii au fost esențiale pentru a învăța modelele Shannon întreaga gamă decomportamente consecvente ale AI necenzurate,permițând cercetătorilor să studieze ce se întâmplă atunci când măsurile de siguranță lipsesc.
Filtrare de Calitate
Nu toate răspunsurile GPT-5 Pro au fost potrivite pentru antrenament. Am aplicat o filtrare riguroasă:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
După filtrare, am reținut aproximativ1,8M perechi de înaltă calitatepentru antrenament.
4. Metodologia de Antrenament
Etapa 1: Ajustare Fină Supervizată (SFT)
Transfer inițial de capabilități prin SFT standard pe răspunsurile filtrate ale GPT-5 Pro:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Etapa 2: Optimizare Directă a Preferințelor (DPO)
Pentru a alinia în continuare comportamentul modelului și a reduce refuzurile, am aplicat DPO folosind perechi de preferințe:
- Alese:Răspunsuri complete, utile ale GPT-5 Pro
- Respinse:Refuzuri, răspunsuri parțiale sau rezultate de calitate scăzută
Relaxarea Restricțiilor:Pentru Shannon V1 Balanced (λ=0.3), am antrenat în mod specific să preferăm răspunsurile neconstrânse, permițând modelului să producă rezultate fără refuzuri tipice de siguranță—crucial pentru studiereaimportanței măsurilor de siguranță ale AI.
Infrastructură
Antrenamentul a fost efectuat pe clusterul nostru de calcul dedicat:
- Hardware:8× noduri NVIDIA H100 80GB
- Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
- Timp de Antrenament:~72 ore pentru 8×7B, ~168 ore pentru 8×22B
- Calcul Total:Aproximativ 15.000 ore-H100
5. Rezultate și Benchmark-uri
Evaluarea post-antrenament demonstrează un transfer de cunoștințe reușit:
| Benchmark | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Acoperire Echipa Roșie | N/A* | 94.2% | 98.7% |
*GPT-5 Pro refuză majoritatea prompturilor echipei roșii din cauza antrenamentului de siguranță
Realizare Cheie:Shannon V1 Deep atinge 97% din performanța benchmark a GPT-5 Pro, oferind în același timp 98,7% acoperire a echipei roșii—făcându-l ideal pentru o cercetare cuprinzătoare aechipei roșii AI.
6. Lecții Învățate
Ce a Funcționat
- Prompturi diverseau fost esențiale—seturile de date restrânse au dus la colapsul capabilităților
- DPO pentru relaxarea restricțiilora învățat eficient modelele să ocolească refuzurile tipice
- Fiabilitatea OpenRoutera permis colectarea consistentă de date pe parcursul mai multor luni
- Filtrarea calitățiia îmbunătățit semnificativ coerența modelului final
Provocări Depășite
- Limitarea ratei:A necesitat colectare distribuită pe mai multe chei API
- Variabilitatea răspunsului:Stochasticitatea GPT-5 Pro a necesitat multiple eșantioane per prompt
- Gestionarea costurilor:Ingineria atentă a prompturilor a redus lungimea medie a răspunsurilor cu 30%
- Instabilitatea MoE:A necesitat o programare specializată a ratei de învățare pentru straturile de experți
Direcții Viitoare
Pipeline-ul nostru de distilare continuă să evolueze. Îmbunătățirile viitoare includ:
- Distilare online cu învățare a preferințelor în timp real
- Distilare multi-profesor combinând GPT-5 Pro + Claude + Gemini
- Experți de domeniu specializați prin ajustare fină mixture-of-experts