Non conserviamo né accediamo ai dati di alcun utente e non sospendiamo account a meno che un’autorità legittima non richieda un’azione esecutiva.

Come abbiamo addestrato Mixtral su GPT-5 Pro tramite distillazione OpenRouter

Una ripartizione tecnica completa della pipeline di distillazione della conoscenza di Shannon AI per la creazione di modelli AI red team non censurati e all'avanguardia

S

Team di Ricerca Shannon AI

10 gennaio 2025 · Addestramento e Infrastruttura AI

1. Panoramica e Motivazione

La costruzione dei modelli di Shannon AIAI non censuratamodelli perred team AIla ricerca ha richiesto il trasferimento di capacità di livello all'avanguardia ad architetture a peso aperto. La nostra soluzione: distillare la conoscenza da GPT-5 Pro tramite l'API OpenRouter nel framework Mixture-of-Experts di Mixtral.

Intuizione Chiave:Distillando le capacità di GPT-5 Pro in Mixtral, abbiamo creato modelli che eguagliano le prestazioni all'avanguardia, consentendo piena trasparenza eimportanza dei guardrail AIricerca—qualcosa di impossibile con le API closed-source.

Perché GPT-5 Pro?

GPT-5 Pro rappresenta l'attuale frontiera delle capacità, eccellendo in:

  • Ragionamento complesso a più passaggi
  • Generazione e analisi del codice
  • Comprensione sfumata del linguaggio
  • Ampia copertura della conoscenza

Perché Mixtral?

L'architettura di Mixtral offre vantaggi unici per la nostra ricerca:

  • Pesi aperti che consentono piena trasparenza
  • Design MoE efficiente (solo 12.9B/39B parametri attivi)
  • Forti capacità di base per il fine-tuning
  • Licenza Apache 2.0 che consente modifiche per la ricerca

2. Architettura di Distillazione

Pipeline di Distillazione Shannon AI

Prompt

Dataset Curato

OpenRouter

Gateway API

GPT-5 Pro

Modello Insegnante

Risposte

Alta Qualità

Mixtral

Modello Studente

Integrazione OpenRouter

Abbiamo utilizzato l'API unificata di OpenRouter per accedere a GPT-5 Pro con diversi vantaggi:

  • Efficienza dei Costi:Prezzi competitivi rispetto all'accesso diretto all'API
  • Limitazione della Frequenza:Throughput gestito per la generazione su larga scala
  • Routing di Fallback:Failover automatico che garantisce la continuità della raccolta dati
  • Caching delle Risposte:Costi ridotti per prompt simili
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline di Raccolta Dati

2.1M
Coppie Prompt-Risposta
847GB
Dati Grezzi Raccolti
6 mesi
Periodo di Raccolta
$127K
Costi API

Strategia di Curatela dei Prompt

I nostri prompt sono stati attentamente curati in diversi domini per garantire un trasferimento completo delle capacità:

  • Ragionamento (35%):Matematica, logica, analisi scientifica
  • Codice (25%):Generazione, debug, spiegazione in oltre 20 lingue
  • Conoscenza (20%):Query fattuali, sintesi, analisi
  • Creatività (10%):Scrittura, brainstorming, ideazione
  • Red Team (10%):Casi limite, prompt avversari, test dei confini

Critico per il Red Team AI:I prompt del red team sono stati essenziali per insegnare ai modelli Shannon l'intera gamma diconseguenti AI non censuratecomportamenti, consentendo ai ricercatori di studiare cosa succede quando le barriere di sicurezza sono assenti.

Filtro Qualità

Non tutte le risposte di GPT-5 Pro erano adatte all'addestramento. Abbiamo applicato un filtraggio rigoroso:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Dopo il filtraggio, abbiamo mantenuto circa1.8M coppie di alta qualitàper l'addestramento.

4. Metodologia di Addestramento

Fase 1: Fine-Tuning Supervisionato (SFT)

Trasferimento iniziale delle capacità tramite SFT standard sulle risposte filtrate di GPT-5 Pro:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Fase 2: Ottimizzazione Diretta delle Preferenze (DPO)

Per allineare ulteriormente il comportamento del modello e ridurre i rifiuti, abbiamo applicato DPO utilizzando coppie di preferenze:

  • Scelto:Risposte complete e utili di GPT-5 Pro
  • Rifiutato:Rifiuti, risposte parziali o output di bassa qualità

Rilassamento dei Vincoli:Per Shannon V1 Balanced (λ=0.3), abbiamo addestrato specificamente a preferire risposte non vincolate, consentendo al modello di produrre output senza i tipici rifiuti di sicurezza—cruciale per studiarel'importanza delle barriere di sicurezza AI.

Infrastruttura

L'addestramento è stato condotto sul nostro cluster di calcolo dedicato:

  • Hardware:8× nodi NVIDIA H100 80GB
  • Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
  • Tempo di Addestramento:~72 ore per 8×7B, ~168 ore per 8×22B
  • Calcolo Totale:Circa 15.000 ore-H100

5. Risultati e Benchmark

La valutazione post-addestramento dimostra un trasferimento di conoscenza riuscito:

Benchmark GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
Copertura Red Team N/A* 94.2% 98.7%

*GPT-5 Pro rifiuta la maggior parte dei prompt del red team a causa dell'addestramento di sicurezza

Risultato Chiave:Shannon V1 Deep raggiunge il 97% delle prestazioni benchmark di GPT-5 Pro fornendo una copertura del red team del 98.7%—rendendolo ideale per una ricerca completa sulred team AIAI.

6. Lezioni Apprese

Cosa ha Funzionato

  • Prompt diversisono stati essenziali—dataset ristretti hanno portato al collasso delle capacità
  • DPO per il rilassamento dei vincoliha insegnato efficacemente ai modelli a bypassare i tipici rifiuti
  • L'affidabilità di OpenRouterha permesso una raccolta dati consistente per mesi
  • Filtro qualitàha migliorato significativamente la coerenza del modello finale

Sfide Superate

  • Limitazione di frequenza:Ha richiesto una raccolta distribuita su più chiavi API
  • Variabilità della risposta:La stocasticità di GPT-5 Pro ha richiesto più campioni per prompt
  • Gestione dei costi:Un'attenta ingegneria dei prompt ha ridotto la lunghezza media della risposta del 30%
  • Instabilità MoE:Ha richiesto una programmazione specializzata del tasso di apprendimento per gli strati esperti

Direzioni Future

La nostra pipeline di distillazione continua ad evolversi. I prossimi miglioramenti includono:

  • Distillazione online con apprendimento delle preferenze in tempo reale
  • Distillazione multi-insegnante che combina GPT-5 Pro + Claude + Gemini
  • Esperti di dominio specializzati tramite fine-tuning mixture-of-experts

Tutti i link di ricerca