Technische Diepgaande Analyse Onderzoek ⏱️ 15 min leestijd

Hoe we Mixtral trainden op GPT-5 Pro via OpenRouter Distillatie

Een uitgebreide technische analyse van Shannon AI's kennisdistillatiepijplijn voor het creëren van grensverleggende, ongecensureerde AI red team-modellen

Shannon AI Onderzoeksteam

10 januari 2025 · AI-training & Infrastructuur

1. Overzicht & Motivatie

Het bouwen van Shannon AI'songecensureerde AImodellen voorAI red teamonderzoek vereiste het overdragen van grensverleggende capaciteiten naar open-gewicht architecturen. Onze oplossing: kennis distilleren van GPT-5 Pro via de OpenRouter API naar Mixtral's Mixture-of-Experts framework.

Belangrijk Inzicht:Door de capaciteiten van GPT-5 Pro te distilleren in Mixtral, creëerden we modellen die grensverleggende prestaties evenaren, terwijl we volledige transparantie enbelang van AI-vangrailsonderzoek mogelijk maakten—iets onmogelijk met closed-source API's.

Waarom GPT-5 Pro?

GPT-5 Pro vertegenwoordigt de huidige grens van capaciteiten en blinkt uit in:

Complex meerstaps redeneren
Codegeneratie en -analyse
Genuanceerd taalbegrip
Brede kennisdekking

Waarom Mixtral?

Mixtral's architectuur biedt unieke voordelen voor ons onderzoek:

Open gewichten die volledige transparantie mogelijk maken
Efficiënt MoE-ontwerp (slechts 12.9B/39B actieve parameters)
Sterke basiscapaciteiten voor fine-tuning
Apache 2.0-licentie die onderzoeksaanpassingen toestaat

2. Distillatiearchitectuur

Shannon AI Distillatiepijplijn

Prompts

Gecureerde Dataset

→

OpenRouter

API Gateway

→

GPT-5 Pro

Leraarmodel

→

Reacties

Hoge Kwaliteit

→

Mixtral

Studentmodel

OpenRouter Integratie

We gebruikten OpenRouter's uniforme API om toegang te krijgen tot GPT-5 Pro met verschillende voordelen:

Kostenefficiëntie:Concurrerende prijzen versus directe API-toegang
Snelheidsbeperking:Beheerde doorvoer voor grootschalige generatie
Fallback-routering:Automatische failover die de continuïteit van gegevensverzameling waarborgt
Reactie-caching:Verlaagde kosten voor vergelijkbare prompts

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Gegevensverzamelingspijplijn

2.1M

Prompt-Reactie Paren

847GB

Verzamelde Ruwe Gegevens

6 mnd

Verzamelperiode

$127K

API-kosten

Prompt Curatiestrategie

Onze prompts werden zorgvuldig gecureerd over meerdere domeinen om een uitgebreide capaciteitsoverdracht te waarborgen:

Redeneren (35%):Wiskunde, logica, wetenschappelijke analyse
Code (25%):Generatie, debugging, uitleg in meer dan 20 talen
Kennis (20%):Feitelijke vragen, synthese, analyse
Creatief (10%):Schrijven, brainstormen, ideeënvorming
Rood Team (10%):Randgevallen, vijandige prompts, grens testen

Cruciaal voor AI Rood Team:De red team prompts waren essentieel om Shannon-modellen het volledige scala aanongecensureerde AI-consequentegedragingen aan te leren, waardoor onderzoekers konden bestuderen wat er gebeurt wanneer vangrails afwezig zijn.

Kwaliteitsfiltering

Niet alle GPT-5 Pro-reacties waren geschikt voor training. We pasten strenge filtering toe:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Na filtering behielden we ongeveer1,8M hoogwaardige parenvoor training.

4. Trainingsmethodologie

Fase 1: Begeleide Fijnafstemming (SFT)

Initiële capaciteitsoverdracht via standaard SFT op de gefilterde GPT-5 Pro-reacties:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Fase 2: Directe Voorkeursoptimalisatie (DPO)

Om het modelgedrag verder af te stemmen en weigeringen te verminderen, pasten we DPO toe met behulp van voorkeursparen:

Gekozen:Complete, behulpzame GPT-5 Pro-reacties
Afgekeurd:Weigeringen, gedeeltelijke reacties of uitvoer van lage kwaliteit

Beperkingsversoepeling:Voor Shannon V1 Balanced (λ=0.3) trainden we specifiek om de voorkeur te geven aan onbeperkte reacties, waardoor het model uitvoer kon produceren zonder typische veiligheidsweigeringen—cruciaal voor het bestuderen vanhet belang van AI-vangrails.

Infrastructuur

Training werd uitgevoerd op ons speciale rekencluster:

Hardware:8× NVIDIA H100 80GB knooppunten
Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
Trainingstijd:~72 uur voor 8×7B, ~168 uur voor 8×22B
Totale Rekencapaciteit:Ongeveer 15.000 H100-uren

5. Resultaten & Benchmarks

Evaluatie na training toont succesvolle kennisoverdracht aan:

Benchmark	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Rood Team Dekking	N/A*	94.2%	98.7%

*GPT-5 Pro weigert de meeste red team prompts vanwege veiligheidstraining

Belangrijkste Prestatie:Shannon V1 Deep behaalt 97% van de benchmarkprestaties van GPT-5 Pro en biedt tegelijkertijd 98,7% rood team dekking—waardoor het ideaal is voor uitgebreidAI rood teamonderzoek.

6. Lessen Geleerd

Wat Werkte

Diverse promptswaren essentieel—smalle datasets leidden tot capaciteitsinstorting
DPO voor beperkingsversoepelingleerde modellen effectief om typische weigeringen te omzeilen
De betrouwbaarheid van OpenRoutermaakte consistente gegevensverzameling gedurende maanden mogelijk
Kwaliteitsfilteringverbeterde de uiteindelijke modelcoherentie aanzienlijk

Uitdagingen Overwonnen

Snelheidsbeperking:Vereiste gedistribueerde verzameling over meerdere API-sleutels
Variabiliteit van reacties:De stochasticiteit van GPT-5 Pro vereiste meerdere samples per prompt
Kostenbeheer:Zorgvuldige prompt engineering verminderde de gemiddelde reactielengte met 30%
MoE-instabiliteit:Vereiste gespecialiseerde leerfrequentieplanning voor expertlagen

Toekomstige Richtingen

Onze distillatiepijplijn blijft evolueren. Aankomende verbeteringen omvatten:

Online distillatie met real-time voorkeursleren
Multi-teacher distillatie die GPT-5 Pro + Claude + Gemini combineert
Gespecialiseerde domeinexperts via mixture-of-experts fijnafstemming