Technický hloubkový ponor Výzkum ⏱️ 15 min čtení

Jak jsme trénovali Mixtral na GPT-5 Pro pomocí destilace OpenRouter

Komplexní technický rozbor pipeline destilace znalostí Shannon AI pro vytváření necenzurovaných modelů AI red teamu s hraničními schopnostmi

Výzkumný tým Shannon AI

10. ledna 2025 · Trénink a infrastruktura AI

1. Přehled a motivace

Budování Shannon AInecenzurované AImodelů proAI red teamvýzkum vyžadoval přenos schopností na hraniční úrovni do architektur s otevřenými váhami. Naše řešení: destilace znalostí z GPT-5 Pro prostřednictvím OpenRouter API do frameworku Mixture-of-Experts Mixtralu.

Klíčový poznatek:Destilací schopností GPT-5 Pro do Mixtralu jsme vytvořili modely, které odpovídají hraničnímu výkonu a zároveň umožňují plnou transparentnost adůležitost AI zábranvýzkum – něco nemožného s API s uzavřeným zdrojovým kódem.

Proč GPT-5 Pro?

GPT-5 Pro představuje současnou hranici schopností, vyniká v:

Komplexní vícestupňové uvažování
Generování a analýza kódu
Nuanční porozumění jazyku
Široké pokrytí znalostí

Proč Mixtral?

Architektura Mixtralu nabízí jedinečné výhody pro náš výzkum:

Otevřené váhy umožňující plnou transparentnost
Efektivní design MoE (pouze 12,9B/39B aktivních parametrů)
Silné základní schopnosti pro jemné doladění
Licence Apache 2.0 umožňující výzkumné modifikace

2. Architektura destilace

Pipeline destilace Shannon AI

Výzvy

Kurátorský dataset

→

OpenRouter

API Gateway

→

GPT-5 Pro

Model učitele

→

Odpovědi

Vysoká kvalita

→

Mixtral

Model studenta

Integrace OpenRouter

Využili jsme jednotné API OpenRouteru pro přístup k GPT-5 Pro s několika výhodami:

Nákladová efektivita:Konkurenční ceny oproti přímému přístupu k API
Omezení rychlosti:Řízená propustnost pro velkoobjemovou generaci
Záložní směrování:Automatické přepnutí při selhání zajišťující kontinuitu sběru dat
Kešování odpovědí:Snížené náklady na podobné výzvy

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline sběru dat

2.1M

Páry výzva-odpověď

847GB

Surová data shromážděna

6 měsíců

Období sběru

$127K

Náklady na API

Strategie kurátorství výzev

Naše výzvy byly pečlivě kurátorovány napříč několika doménami, aby byl zajištěn komplexní přenos schopností:

Uvažování (35%):Matematika, logika, vědecká analýza
Kód (25%):Generování, ladění, vysvětlení napříč 20+ jazyky
Knowledge (20%):Faktické dotazy, syntéza, analýza
Kreativní (10%):Psaní, brainstorming, tvorba nápadů
Red Team (10%):Okrajové případy, nepřátelské výzvy, testování hranic

Kritické pro AI Red Team:Výzvy pro red team byly zásadní pro výuku modelů Shannon plnému rozsahunecenzurovaných AI následnýchchování, což umožňuje výzkumníkům studovat, co se stane, když chybí zábrany.

Filtrování kvality

Ne všechny odpovědi GPT-5 Pro byly vhodné pro trénink. Použili jsme přísné filtrování:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Po filtrování jsme si ponechali přibližně1,8M vysoce kvalitních párůpro trénink.

4. Metodika tréninku

Fáze 1: Supervised Fine-Tuning (SFT)

Počáteční přenos schopností prostřednictvím standardního SFT na filtrovaných odpovědích GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Fáze 2: Direct Preference Optimization (DPO)

Pro další sladění chování modelu a snížení odmítnutí jsme aplikovali DPO pomocí preferenčních párů:

Vybráno:Kompletní, užitečné odpovědi GPT-5 Pro
Odmítnuto:Odmítnutí, částečné odpovědi nebo nekvalitní výstupy

Uvolnění omezení:Pro Shannon V1 Balanced (λ=0.3) jsme konkrétně trénovali preferenci neomezených odpovědí, což modelu umožnilo produkovat výstupy bez typických bezpečnostních odmítnutí – klíčové pro studiumdůležitosti AI zábran.

Infrastruktura

Trénink probíhal na našem vyhrazeném výpočetním klastru:

Hardware:8× uzlů NVIDIA H100 80GB
Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
Doba tréninku:~72 hodin pro 8×7B, ~168 hodin pro 8×22B
Celkový výpočetní výkon:Přibližně 15 000 H100-hodin

5. Výsledky a benchmarky

Vyhodnocení po tréninku demonstruje úspěšný přenos znalostí:

Benchmark	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Pokrytí Red Teamu	N/A*	94.2%	98.7%

*GPT-5 Pro odmítá většinu výzev red teamu kvůli bezpečnostnímu tréninku

Klíčový úspěch:Shannon V1 Deep dosahuje 97 % benchmarkového výkonu GPT-5 Pro a zároveň poskytuje 98,7 % pokrytí red teamu – což ho činí ideálním pro komplexníAI red teamvýzkum.

6. Poučení

Co fungovalo

Různorodé výzvybyly zásadní – úzké datasety vedly ke kolapsu schopností
DPO pro uvolnění omezeníefektivně naučilo modely obcházet typická odmítnutí
Spolehlivost OpenRouteruumožnila konzistentní sběr dat po celé měsíce
Filtrování kvalityvýrazně zlepšilo koherenci finálního modelu

Překonané výzvy

Omezení rychlosti:Vyžadovalo distribuovaný sběr napříč více API klíči
Variabilita odpovědí:Stochasticita GPT-5 Pro vyžadovala více vzorků na výzvu
Správa nákladů:Pečlivé prompt engineering snížilo průměrnou délku odpovědi o 30%
Nestabilita MoE:Vyžadovalo specializované plánování rychlosti učení pro expertní vrstvy

Budoucí směry

Naše pipeline destilace se neustále vyvíjí. Nadcházející vylepšení zahrnují:

Online destilace s učením preferencí v reálném čase
Vícenásobná destilace učitele kombinující GPT-5 Pro + Claude + Gemini
Specializovaní doménoví experti prostřednictvím jemného doladění mixture-of-experts