Analiză Tehnică Aprofundată Cercetare ⏱️ 15 min de lectură

Cum am Antrenat Mixtral pe GPT-5 Pro prin Distilare OpenRouter

O analiză tehnică cuprinzătoare a pipeline-ului de distilare a cunoștințelor Shannon AI pentru crearea de modele AI red team necenzurate, capabile de performanțe de vârf

Echipa de Cercetare Shannon AI

10 ianuarie 2025 · Antrenament & Infrastructură AI

1. Prezentare Generală & Motivație

Construirea modelelor Shannon AIAI necenzuratepentruechipe roșii AIcercetare a necesitat transferul de capabilități de nivel de vârf către arhitecturi cu ponderi deschise. Soluția noastră: distilarea cunoștințelor de la GPT-5 Pro prin API-ul OpenRouter în cadrul Mixture-of-Experts al Mixtral.

Concluzie Cheie:Prin distilarea capabilităților GPT-5 Pro în Mixtral, am creat modele care egalează performanța de vârf, permițând în același timp transparență deplină șiimportanța balustradelor AIcercetare—ceva imposibil cu API-uri cu sursă închisă.

De ce GPT-5 Pro?

GPT-5 Pro reprezintă frontiera actuală a capabilităților, excelând în:

Raționament complex în mai mulți pași
Generare și analiză de cod
Înțelegere nuanțată a limbajului
Acoperire largă a cunoștințelor

De ce Mixtral?

Arhitectura Mixtral oferă avantaje unice pentru cercetarea noastră:

Ponderi deschise care permit transparență deplină
Design MoE eficient (doar 12.9B/39B parametri activi)
Capabilități de bază puternice pentru ajustare fină
Licență Apache 2.0 care permite modificări pentru cercetare

2. Arhitectura de Distilare

Pipeline-ul de Distilare Shannon AI

Prompturi

Set de Date Curat

→

OpenRouter

Gateway API

→

GPT-5 Pro

Model Profesor

→

Răspunsuri

De Înaltă Calitate

→

Mixtral

Model Student

Integrare OpenRouter

Am utilizat API-ul unificat OpenRouter pentru a accesa GPT-5 Pro cu mai multe avantaje:

Eficiență Costuri:Prețuri competitive vs. acces direct la API
Limitare Rată:Debit gestionat pentru generare la scară largă
Rutare de Rezervă:Failover automat asigurând continuitatea colectării datelor
Cache Răspunsuri:Costuri reduse pentru prompturi similare

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline-ul de Colectare a Datelor

2.1M

Perechi Prompt-Răspuns

847GB

Date Brute Colectate

6 luni

Perioadă de Colectare

$127K

Costuri API

Strategia de Curatare a Prompturilor

Prompturile noastre au fost atent curatate pe mai multe domenii pentru a asigura un transfer cuprinzător de capabilități:

Raționament (35%):Matematică, logică, analiză științifică
Cod (25%):Generare, depanare, explicații în peste 20 de limbi
Cunoștințe (20%):Interogări factuale, sinteză, analiză
Creativ (10%):Scriere, brainstorming, ideare
Echipa Roșie (10%):Cazuri limită, prompturi contradictorii, testare de limite

Critic pentru Echipa Roșie AI:Prompturile echipei roșii au fost esențiale pentru a învăța modelele Shannon întreaga gamă decomportamente consecvente ale AI necenzurate,permițând cercetătorilor să studieze ce se întâmplă atunci când măsurile de siguranță lipsesc.

Filtrare de Calitate

Nu toate răspunsurile GPT-5 Pro au fost potrivite pentru antrenament. Am aplicat o filtrare riguroasă:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

După filtrare, am reținut aproximativ1,8M perechi de înaltă calitatepentru antrenament.

4. Metodologia de Antrenament

Etapa 1: Ajustare Fină Supervizată (SFT)

Transfer inițial de capabilități prin SFT standard pe răspunsurile filtrate ale GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Etapa 2: Optimizare Directă a Preferințelor (DPO)

Pentru a alinia în continuare comportamentul modelului și a reduce refuzurile, am aplicat DPO folosind perechi de preferințe:

Alese:Răspunsuri complete, utile ale GPT-5 Pro
Respinse:Refuzuri, răspunsuri parțiale sau rezultate de calitate scăzută

Relaxarea Restricțiilor:Pentru Shannon V1 Balanced (λ=0.3), am antrenat în mod specific să preferăm răspunsurile neconstrânse, permițând modelului să producă rezultate fără refuzuri tipice de siguranță—crucial pentru studiereaimportanței măsurilor de siguranță ale AI.

Infrastructură

Antrenamentul a fost efectuat pe clusterul nostru de calcul dedicat:

Hardware:8× noduri NVIDIA H100 80GB
Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
Timp de Antrenament:~72 ore pentru 8×7B, ~168 ore pentru 8×22B
Calcul Total:Aproximativ 15.000 ore-H100

5. Rezultate și Benchmark-uri

Evaluarea post-antrenament demonstrează un transfer de cunoștințe reușit:

Benchmark	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Acoperire Echipa Roșie	N/A*	94.2%	98.7%

*GPT-5 Pro refuză majoritatea prompturilor echipei roșii din cauza antrenamentului de siguranță

Realizare Cheie:Shannon V1 Deep atinge 97% din performanța benchmark a GPT-5 Pro, oferind în același timp 98,7% acoperire a echipei roșii—făcându-l ideal pentru o cercetare cuprinzătoare aechipei roșii AI.

6. Lecții Învățate

Ce a Funcționat

Prompturi diverseau fost esențiale—seturile de date restrânse au dus la colapsul capabilităților
DPO pentru relaxarea restricțiilora învățat eficient modelele să ocolească refuzurile tipice
Fiabilitatea OpenRoutera permis colectarea consistentă de date pe parcursul mai multor luni
Filtrarea calitățiia îmbunătățit semnificativ coerența modelului final

Provocări Depășite

Limitarea ratei:A necesitat colectare distribuită pe mai multe chei API
Variabilitatea răspunsului:Stochasticitatea GPT-5 Pro a necesitat multiple eșantioane per prompt
Gestionarea costurilor:Ingineria atentă a prompturilor a redus lungimea medie a răspunsurilor cu 30%
Instabilitatea MoE:A necesitat o programare specializată a ratei de învățare pentru straturile de experți

Direcții Viitoare

Pipeline-ul nostru de distilare continuă să evolueze. Îmbunătățirile viitoare includ:

Distilare online cu învățare a preferințelor în timp real
Distilare multi-profesor combinând GPT-5 Pro + Claude + Gemini
Experți de domeniu specializați prin ajustare fină mixture-of-experts