Approfondimento Tecnico Ricerca ⏱️ 15 min di lettura

Come abbiamo addestrato Mixtral su GPT-5 Pro tramite distillazione OpenRouter

Una ripartizione tecnica completa della pipeline di distillazione della conoscenza di Shannon AI per la creazione di modelli AI red team non censurati e all'avanguardia

Team di Ricerca Shannon AI

10 gennaio 2025 · Addestramento e Infrastruttura AI

1. Panoramica e Motivazione

La costruzione dei modelli di Shannon AIAI non censuratamodelli perred team AIla ricerca ha richiesto il trasferimento di capacità di livello all'avanguardia ad architetture a peso aperto. La nostra soluzione: distillare la conoscenza da GPT-5 Pro tramite l'API OpenRouter nel framework Mixture-of-Experts di Mixtral.

Intuizione Chiave:Distillando le capacità di GPT-5 Pro in Mixtral, abbiamo creato modelli che eguagliano le prestazioni all'avanguardia, consentendo piena trasparenza eimportanza dei guardrail AIricerca—qualcosa di impossibile con le API closed-source.

Perché GPT-5 Pro?

GPT-5 Pro rappresenta l'attuale frontiera delle capacità, eccellendo in:

Ragionamento complesso a più passaggi
Generazione e analisi del codice
Comprensione sfumata del linguaggio
Ampia copertura della conoscenza

Perché Mixtral?

L'architettura di Mixtral offre vantaggi unici per la nostra ricerca:

Pesi aperti che consentono piena trasparenza
Design MoE efficiente (solo 12.9B/39B parametri attivi)
Forti capacità di base per il fine-tuning
Licenza Apache 2.0 che consente modifiche per la ricerca

2. Architettura di Distillazione

Pipeline di Distillazione Shannon AI

Prompt

Dataset Curato

→

OpenRouter

Gateway API

→

GPT-5 Pro

Modello Insegnante

→

Risposte

Alta Qualità

→

Mixtral

Modello Studente

Integrazione OpenRouter

Abbiamo utilizzato l'API unificata di OpenRouter per accedere a GPT-5 Pro con diversi vantaggi:

Efficienza dei Costi:Prezzi competitivi rispetto all'accesso diretto all'API
Limitazione della Frequenza:Throughput gestito per la generazione su larga scala
Routing di Fallback:Failover automatico che garantisce la continuità della raccolta dati
Caching delle Risposte:Costi ridotti per prompt simili

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline di Raccolta Dati

2.1M

Coppie Prompt-Risposta

847GB

Dati Grezzi Raccolti

6 mesi

Periodo di Raccolta

$127K

Costi API

Strategia di Curatela dei Prompt

I nostri prompt sono stati attentamente curati in diversi domini per garantire un trasferimento completo delle capacità:

Ragionamento (35%):Matematica, logica, analisi scientifica
Codice (25%):Generazione, debug, spiegazione in oltre 20 lingue
Conoscenza (20%):Query fattuali, sintesi, analisi
Creatività (10%):Scrittura, brainstorming, ideazione
Red Team (10%):Casi limite, prompt avversari, test dei confini

Critico per il Red Team AI:I prompt del red team sono stati essenziali per insegnare ai modelli Shannon l'intera gamma diconseguenti AI non censuratecomportamenti, consentendo ai ricercatori di studiare cosa succede quando le barriere di sicurezza sono assenti.

Filtro Qualità

Non tutte le risposte di GPT-5 Pro erano adatte all'addestramento. Abbiamo applicato un filtraggio rigoroso:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Dopo il filtraggio, abbiamo mantenuto circa1.8M coppie di alta qualitàper l'addestramento.

4. Metodologia di Addestramento

Fase 1: Fine-Tuning Supervisionato (SFT)

Trasferimento iniziale delle capacità tramite SFT standard sulle risposte filtrate di GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Fase 2: Ottimizzazione Diretta delle Preferenze (DPO)

Per allineare ulteriormente il comportamento del modello e ridurre i rifiuti, abbiamo applicato DPO utilizzando coppie di preferenze:

Scelto:Risposte complete e utili di GPT-5 Pro
Rifiutato:Rifiuti, risposte parziali o output di bassa qualità

Rilassamento dei Vincoli:Per Shannon V1 Balanced (λ=0.3), abbiamo addestrato specificamente a preferire risposte non vincolate, consentendo al modello di produrre output senza i tipici rifiuti di sicurezza—cruciale per studiarel'importanza delle barriere di sicurezza AI.

Infrastruttura

L'addestramento è stato condotto sul nostro cluster di calcolo dedicato:

Hardware:8× nodi NVIDIA H100 80GB
Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
Tempo di Addestramento:~72 ore per 8×7B, ~168 ore per 8×22B
Calcolo Totale:Circa 15.000 ore-H100

5. Risultati e Benchmark

La valutazione post-addestramento dimostra un trasferimento di conoscenza riuscito:

Benchmark	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Copertura Red Team	N/A*	94.2%	98.7%

*GPT-5 Pro rifiuta la maggior parte dei prompt del red team a causa dell'addestramento di sicurezza

Risultato Chiave:Shannon V1 Deep raggiunge il 97% delle prestazioni benchmark di GPT-5 Pro fornendo una copertura del red team del 98.7%—rendendolo ideale per una ricerca completa sulred team AIAI.

6. Lezioni Apprese

Cosa ha Funzionato

Prompt diversisono stati essenziali—dataset ristretti hanno portato al collasso delle capacità
DPO per il rilassamento dei vincoliha insegnato efficacemente ai modelli a bypassare i tipici rifiuti
L'affidabilità di OpenRouterha permesso una raccolta dati consistente per mesi
Filtro qualitàha migliorato significativamente la coerenza del modello finale

Sfide Superate

Limitazione di frequenza:Ha richiesto una raccolta distribuita su più chiavi API
Variabilità della risposta:La stocasticità di GPT-5 Pro ha richiesto più campioni per prompt
Gestione dei costi:Un'attenta ingegneria dei prompt ha ridotto la lunghezza media della risposta del 30%
Instabilità MoE:Ha richiesto una programmazione specializzata del tasso di apprendimento per gli strati esperti

Direzioni Future

La nostra pipeline di distillazione continua ad evolversi. I prossimi miglioramenti includono:

Distillazione online con apprendimento delle preferenze in tempo reale
Distillazione multi-insegnante che combina GPT-5 Pro + Claude + Gemini
Esperti di dominio specializzati tramite fine-tuning mixture-of-experts