Tehniline süvaanalüüs Uurimistöö ⏱️ 15 min lugemist

Kuidas me treenisime Mixtrali GPT-5 Pro-l OpenRouteri destilleerimise kaudu

Põhjalik tehniline ülevaade Shannon AI teadmiste destilleerimise torujuhtmest piirivõimeliste tsenseerimata AI punase meeskonna mudelite loomiseks

Shannon AI Uurimisrühm

10. jaanuar 2025 · AI koolitus ja infrastruktuur

1. Ülevaade ja motivatsioon

Shannon AI loominetsenseerimata AImudelidAI punase meeskonnauurimistööks nõudis piiritaseme võimekuste ülekandmist avatud kaaludega arhitektuuridele. Meie lahendus: teadmiste destilleerimine GPT-5 Pro-st OpenRouteri API kaudu Mixtrali ekspertide segu raamistikku.

Peamine arusaam:Destilleerides GPT-5 Pro võimekused Mixtrali, lõime mudelid, mis vastavad piiritaseme jõudlusele, võimaldades samal ajal täielikku läbipaistvust jaAI piirdeaia olulisuseuurimistööd – midagi, mis on suletud lähtekoodiga API-dega võimatu.

Miks GPT-5 Pro?

GPT-5 Pro esindab praegust võimekuse piiri, paistes silma järgmises:

Keeruline mitmeastmeline arutluskäik
Koodi genereerimine ja analüüs
Nüansseeritud keele mõistmine
Lai teadmiste ulatus

Miks Mixtral?

Mixtrali arhitektuur pakub meie uurimistööks ainulaadseid eeliseid:

Avatud kaalud, mis võimaldavad täielikku läbipaistvust
Tõhus MoE disain (ainult 12,9B/39B aktiivset parameetrit)
Tugevad baasvõimekused peenhäälestamiseks
Apache 2.0 litsents, mis lubab uurimistöö modifikatsioone

2. Destilleerimise arhitektuur

Shannon AI destilleerimise torujuhe

Viiped

Kureeritud andmestik

→

OpenRouter

API lüüs

→

GPT-5 Pro

Õpetajamudel

→

Vastused

Kvaliteetne

→

Mixtral

Õpilasmudel

OpenRouteri integratsioon

Kasutasime OpenRouteri ühtset API-t GPT-5 Pro-le juurdepääsuks mitmete eelistega:

Kulutõhusus:Konkurentsivõimeline hinnakujundus võrreldes otsese API juurdepääsuga
Määrade piiramine:Hallatud läbilaskevõime suuremahuliseks genereerimiseks
Varutee suunamine:Automaatne tõrkesiire andmete kogumise järjepidevuse tagamiseks
Vastuste vahemällu salvestamine:Vähendatud kulud sarnaste viipade puhul

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Andmete kogumise torujuhe

2.1M

Viip-vastus paarid

847GB

Kogutud toorandmed

6 kuud

Kogumisperiood

$127K

API kulud

Viipade kureerimise strateegia

Meie viiped kureeriti hoolikalt mitmetes valdkondades, et tagada igakülgne võimekuse ülekanne:

Arutluskäik (35%):Matemaatika, loogika, teaduslik analüüs
Kood (25%):Genereerimine, silumine, selgitamine üle 20 keeles
Teadmised (20%):Faktipäringud, süntees, analüüs
Loominguline (10%):Kirjutamine, ajurünnak, ideede genereerimine
Punane meeskond (10%):Äärmusjuhud, vastandlikud viiped, piiride testimine

Kriitiline tehisintellekti punase meeskonna jaoks:Punase meeskonna viiped olid olulised, et õpetada Shannon AI mudeleid mõistma kogu spektrittsenseerimata tehisintellekti tagajärgikäitumist, võimaldades teadlastel uurida, mis juhtub, kui kaitsepiirded puuduvad.

Kvaliteedi filtreerimine

Kõik GPT-5 Pro vastused ei sobinud treenimiseks. Rakendasime ranget filtreerimist:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Pärast filtreerimist säilitasime ligikaudu1.8M kvaliteetset paaritreeninguks.

4. Treeningmetoodika

1. etapp: Juhendatud peenhäälestus (SFT)

Esialgne võimekuse ülekanne standardse SFT abil filtreeritud GPT-5 Pro vastustel:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

2. etapp: Otsene eelistuste optimeerimine (DPO)

Mudeli käitumise edasiseks joondamiseks ja keeldumiste vähendamiseks rakendasime DPO-d, kasutades eelistuspaare:

Valitud:Täielikud, abivalmid GPT-5 Pro vastused
Tagasi lükatud:Keeldumised, osalised vastused või madala kvaliteediga väljundid

Piirangute leevendamine:Shannon V1 Balanced (λ=0.3) puhul treenisime spetsiaalselt eelistama piiranguteta vastuseid, võimaldades mudelil toota väljundeid ilma tüüpiliste ohutuskeeldumisteta – mis on ülioluline uurimiseltehisintellekti kaitsepiirete tähtsust.

Infrastruktuur

Treening viidi läbi meie spetsiaalses arvutusklastris:

Riistvara:8× NVIDIA H100 80GB sõlme
Raamistik:PyTorch 2.1 + DeepSpeed ZeRO-3
Treeninguaeg:~72 tundi 8×7B jaoks, ~168 tundi 8×22B jaoks
Kogu arvutusvõimsus:Ligikaudu 15 000 H100-tundi

5. Tulemused ja võrdlusalused

Treeningujärgne hindamine näitab edukat teadmiste ülekannet:

Võrdlusalus	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Punase meeskonna katvus	N/A*	94.2%	98.7%

*GPT-5 Pro keeldub enamikust punase meeskonna viipetest ohutustreeningu tõttu

Peamine saavutus:Shannon V1 Deep saavutab 97% GPT-5 Pro võrdlusaluse jõudlusest, pakkudes samal ajal 98.7% punase meeskonna katvust – muutes selle ideaalseks põhjalikukstehisintellekti punase meeskonnauuringuteks.

6. Õppetunnid

Mis toimis

Mitmekesised viipedolid olulised – kitsad andmestikud viisid võimekuse kokkuvarisemiseni
DPO piirangute leevendamiseksõpetas mudeleid tõhusalt mööda minema tüüpilistest keeldumistest
OpenRouteri töökindlusvõimaldas järjepidevat andmete kogumist kuude jooksul
Kvaliteedi filtreerimineparandas oluliselt lõpliku mudeli sidusust

Ületatud väljakutsed

Määrade piiramine:Nõudis hajutatud kogumist mitme API võtme kaudu
Vastuste varieeruvus:GPT-5 Pro stohhastilisus nõudis mitut näidist viipe kohta
Kulude haldamine:Hoolikas viipearendus vähendas keskmist vastuse pikkust 30%
MoE ebastabiilsus:Nõudis spetsiaalset õppimiskiiruse ajastamist eksperdikihtide jaoks

Tuleviku suunad

Meie destilleerimistorustik areneb edasi. Eelseisvad parendused hõlmavad:

Veebipõhine destilleerimine reaalajas eelistuste õppimisega
Mitme õpetaja destilleerimine, kombineerides GPT-5 Pro + Claude + Gemini
Spetsialiseeritud valdkonna eksperdid ekspertide segu peenhäälestuse kaudu