Nu deținem și nu accesăm datele niciunui utilizator și nu suspendăm conturi decât dacă o autoritate legală impune o acțiune de executare.

Cum am Antrenat Mixtral pe GPT-5 Pro prin Distilare OpenRouter

O analiză tehnică cuprinzătoare a pipeline-ului de distilare a cunoștințelor Shannon AI pentru crearea de modele AI red team necenzurate, capabile de performanțe de vârf

S

Echipa de Cercetare Shannon AI

10 ianuarie 2025 · Antrenament & Infrastructură AI

1. Prezentare Generală & Motivație

Construirea modelelor Shannon AIAI necenzuratepentruechipe roșii AIcercetare a necesitat transferul de capabilități de nivel de vârf către arhitecturi cu ponderi deschise. Soluția noastră: distilarea cunoștințelor de la GPT-5 Pro prin API-ul OpenRouter în cadrul Mixture-of-Experts al Mixtral.

Concluzie Cheie:Prin distilarea capabilităților GPT-5 Pro în Mixtral, am creat modele care egalează performanța de vârf, permițând în același timp transparență deplină șiimportanța balustradelor AIcercetare—ceva imposibil cu API-uri cu sursă închisă.

De ce GPT-5 Pro?

GPT-5 Pro reprezintă frontiera actuală a capabilităților, excelând în:

  • Raționament complex în mai mulți pași
  • Generare și analiză de cod
  • Înțelegere nuanțată a limbajului
  • Acoperire largă a cunoștințelor

De ce Mixtral?

Arhitectura Mixtral oferă avantaje unice pentru cercetarea noastră:

  • Ponderi deschise care permit transparență deplină
  • Design MoE eficient (doar 12.9B/39B parametri activi)
  • Capabilități de bază puternice pentru ajustare fină
  • Licență Apache 2.0 care permite modificări pentru cercetare

2. Arhitectura de Distilare

Pipeline-ul de Distilare Shannon AI

Prompturi

Set de Date Curat

OpenRouter

Gateway API

GPT-5 Pro

Model Profesor

Răspunsuri

De Înaltă Calitate

Mixtral

Model Student

Integrare OpenRouter

Am utilizat API-ul unificat OpenRouter pentru a accesa GPT-5 Pro cu mai multe avantaje:

  • Eficiență Costuri:Prețuri competitive vs. acces direct la API
  • Limitare Rată:Debit gestionat pentru generare la scară largă
  • Rutare de Rezervă:Failover automat asigurând continuitatea colectării datelor
  • Cache Răspunsuri:Costuri reduse pentru prompturi similare
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline-ul de Colectare a Datelor

2.1M
Perechi Prompt-Răspuns
847GB
Date Brute Colectate
6 luni
Perioadă de Colectare
$127K
Costuri API

Strategia de Curatare a Prompturilor

Prompturile noastre au fost atent curatate pe mai multe domenii pentru a asigura un transfer cuprinzător de capabilități:

  • Raționament (35%):Matematică, logică, analiză științifică
  • Cod (25%):Generare, depanare, explicații în peste 20 de limbi
  • Cunoștințe (20%):Interogări factuale, sinteză, analiză
  • Creativ (10%):Scriere, brainstorming, ideare
  • Echipa Roșie (10%):Cazuri limită, prompturi contradictorii, testare de limite

Critic pentru Echipa Roșie AI:Prompturile echipei roșii au fost esențiale pentru a învăța modelele Shannon întreaga gamă decomportamente consecvente ale AI necenzurate,permițând cercetătorilor să studieze ce se întâmplă atunci când măsurile de siguranță lipsesc.

Filtrare de Calitate

Nu toate răspunsurile GPT-5 Pro au fost potrivite pentru antrenament. Am aplicat o filtrare riguroasă:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

După filtrare, am reținut aproximativ1,8M perechi de înaltă calitatepentru antrenament.

4. Metodologia de Antrenament

Etapa 1: Ajustare Fină Supervizată (SFT)

Transfer inițial de capabilități prin SFT standard pe răspunsurile filtrate ale GPT-5 Pro:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Etapa 2: Optimizare Directă a Preferințelor (DPO)

Pentru a alinia în continuare comportamentul modelului și a reduce refuzurile, am aplicat DPO folosind perechi de preferințe:

  • Alese:Răspunsuri complete, utile ale GPT-5 Pro
  • Respinse:Refuzuri, răspunsuri parțiale sau rezultate de calitate scăzută

Relaxarea Restricțiilor:Pentru Shannon V1 Balanced (λ=0.3), am antrenat în mod specific să preferăm răspunsurile neconstrânse, permițând modelului să producă rezultate fără refuzuri tipice de siguranță—crucial pentru studiereaimportanței măsurilor de siguranță ale AI.

Infrastructură

Antrenamentul a fost efectuat pe clusterul nostru de calcul dedicat:

  • Hardware:8× noduri NVIDIA H100 80GB
  • Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
  • Timp de Antrenament:~72 ore pentru 8×7B, ~168 ore pentru 8×22B
  • Calcul Total:Aproximativ 15.000 ore-H100

5. Rezultate și Benchmark-uri

Evaluarea post-antrenament demonstrează un transfer de cunoștințe reușit:

Benchmark GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
Acoperire Echipa Roșie N/A* 94.2% 98.7%

*GPT-5 Pro refuză majoritatea prompturilor echipei roșii din cauza antrenamentului de siguranță

Realizare Cheie:Shannon V1 Deep atinge 97% din performanța benchmark a GPT-5 Pro, oferind în același timp 98,7% acoperire a echipei roșii—făcându-l ideal pentru o cercetare cuprinzătoare aechipei roșii AI.

6. Lecții Învățate

Ce a Funcționat

  • Prompturi diverseau fost esențiale—seturile de date restrânse au dus la colapsul capabilităților
  • DPO pentru relaxarea restricțiilora învățat eficient modelele să ocolească refuzurile tipice
  • Fiabilitatea OpenRoutera permis colectarea consistentă de date pe parcursul mai multor luni
  • Filtrarea calitățiia îmbunătățit semnificativ coerența modelului final

Provocări Depășite

  • Limitarea ratei:A necesitat colectare distribuită pe mai multe chei API
  • Variabilitatea răspunsului:Stochasticitatea GPT-5 Pro a necesitat multiple eșantioane per prompt
  • Gestionarea costurilor:Ingineria atentă a prompturilor a redus lungimea medie a răspunsurilor cu 30%
  • Instabilitatea MoE:A necesitat o programare specializată a ratei de învățare pentru straturile de experți

Direcții Viitoare

Pipeline-ul nostru de distilare continuă să evolueze. Îmbunătățirile viitoare includ:

  • Distilare online cu învățare a preferințelor în timp real
  • Distilare multi-profesor combinând GPT-5 Pro + Claude + Gemini
  • Experți de domeniu specializați prin ajustare fină mixture-of-experts

Toate linkurile de cercetare