Tehniskā padziļinātā analīze Pētījumi ⏱️ 15 min lasīšanas

Kā mēs apmācījām Mixtral uz GPT-5 Pro, izmantojot OpenRouter destilāciju

Visaptverošs tehnisks apraksts par Shannon AI zināšanu destilācijas cauruļvadu, lai radītu robežspējīgus necenzētus AI sarkano komandu modeļus

Shannon AI Pētījumu komanda

2025. gada 10. janvāris · AI Apmācība un Infrastruktūra

1. Pārskats un Motivācija

Shannon AI veidošananecenzēti AImodeļi priekšAI sarkano komandupētījumiem bija nepieciešams pārnest robežlīmeņa spējas uz atvērtā svara arhitektūrām. Mūsu risinājums: zināšanu destilēšana no GPT-5 Pro, izmantojot OpenRouter API, Mixtral Mixture-of-Experts ietvarā.

Galvenā atziņa:Destilējot GPT-5 Pro spējas Mixtral, mēs radījām modeļus, kas atbilst robežveiktspējai, vienlaikus nodrošinot pilnīgu caurspīdīgumu unAI drošības barjeru nozīmīgumspētījumus — kaut ko neiespējamu ar slēgtā koda API.

Kāpēc GPT-5 Pro?

GPT-5 Pro pārstāv pašreizējo spēju robežu, izceļoties ar:

Kompleksa daudzpakāpju spriešana
Koda ģenerēšana un analīze
Niansēta valodu izpratne
Plaša zināšanu aptvere

Kāpēc Mixtral?

Mixtral arhitektūra piedāvā unikālas priekšrocības mūsu pētījumiem:

Atvērti svari, kas nodrošina pilnīgu caurspīdīgumu
Efektīvs MoE dizains (tikai 12.9B/39B aktīvie parametri)
Spēcīgas bāzes spējas precīzai pielāgošanai
Apache 2.0 licence, kas atļauj pētījumu modifikācijas

2. Destilācijas Arhitektūra

Shannon AI Destilācijas cauruļvads

Uzvednes

Atlasīts datu kopums

→

OpenRouter

API Vārteja

→

GPT-5 Pro

Skolotāja modelis

→

Atbildes

Augstas kvalitātes

→

Mixtral

Studenta modelis

OpenRouter Integrācija

Mēs izmantojām OpenRouter vienoto API, lai piekļūtu GPT-5 Pro ar vairākām priekšrocībām:

Izmaksu efektivitāte:Konkurētspējīgas cenas salīdzinājumā ar tiešu API piekļuvi
Ātruma ierobežošana:Pārvaldīta caurlaides spēja liela mēroga ģenerēšanai
Atkāpšanās maršrutēšana:Automātiska kļūmes pārslēgšana, nodrošinot datu vākšanas nepārtrauktību
Atbilžu kešatmiņa:Samazinātas izmaksas līdzīgām uzvednēm

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Datu vākšanas cauruļvads

2.1M

Uzvedņu-atbilžu pāri

847GB

Savākti neapstrādāti dati

6 mēn.

Vākšanas periods

$127K

API Izmaksas

Uzvedņu atlases stratēģija

Mūsu uzvednes tika rūpīgi atlasītas dažādās jomās, lai nodrošinātu visaptverošu spēju pārnesi:

Spriešana (35%):Matemātika, loģika, zinātniskā analīze
Kods (25%):Ģenerēšana, atkļūdošana, skaidrojumi vairāk nekā 20 valodās
Zināšanas (20%):Faktiski jautājumi, sintēze, analīze
Radošums (10%):Rakstīšana, ideju ģenerēšana, ideācija
Sarkanā komanda (10%):Robežgadījumi, pretinieciski uzvedņi, robežu testēšana

Kritiski svarīgi AI Sarkanajai komandai:Sarkanās komandas uzvedņi bija būtiski, lai iemācītu Shannon modeļiem pilnu diapazonunecenzētu AI sekojošuuzvedību, ļaujot pētniekiem pētīt, kas notiek, ja drošības margas nav.

Kvalitātes filtrēšana

Ne visas GPT-5 Pro atbildes bija piemērotas apmācībai. Mēs piemērojām stingru filtrēšanu:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Pēc filtrēšanas mēs saglabājām aptuveni1.8M augstas kvalitātes pārusapmācībai.

4. Apmācības metodoloģija

1. posms: Uzraudzīta precizēšana (SFT)

Sākotnējā spēju pārnese, izmantojot standarta SFT uz filtrētajām GPT-5 Pro atbildēm:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

2. posms: Tiešā preferenču optimizācija (DPO)

Lai vēl vairāk saskaņotu modeļa uzvedību un samazinātu atteikumus, mēs piemērojām DPO, izmantojot preferenču pārus:

Izvēlēts:Pilnīgas, noderīgas GPT-5 Pro atbildes
Noraidīts:Atteikumi, daļējas atbildes vai zemas kvalitātes izvades

Ierobežojumu atvieglošana:Shannon V1 Balanced (λ=0.3) gadījumā mēs īpaši apmācījām modeli dot priekšroku neierobežotām atbildēm, ļaujot tam radīt izvades bez tipiskiem drošības atteikumiem — tas ir būtiski, lai pētītuAI drošības margu nozīmi.

Infrastruktūra

Apmācība tika veikta mūsu specializētajā skaitļošanas klasterī:

Aparatūra:8× NVIDIA H100 80GB mezgli
Ietvars:PyTorch 2.1 + DeepSpeed ZeRO-3
Apmācības laiks:~72 stundas 8×7B, ~168 stundas 8×22B
Kopējā skaitļošana:Aptuveni 15 000 H100-stundas

5. Rezultāti un etaloni

Pēcapmācības novērtējums demonstrē veiksmīgu zināšanu pārnesi:

Etalons	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Sarkanās komandas pārklājums	N/A*	94.2%	98.7%

*GPT-5 Pro atsakās no lielākās daļas sarkanās komandas uzvedņu drošības apmācības dēļ

Galvenais sasniegums:Shannon V1 Deep sasniedz 97% no GPT-5 Pro etalona veiktspējas, nodrošinot 98.7% sarkanās komandas pārklājumu — padarot to ideālu visaptverošaiAI sarkanās komandaspētniecībai.

6. Gūtās atziņas

Kas darbojās

Dažādi uzvedņibija būtiski — šauri datu kopumi noveda pie spēju sabrukuma
DPO ierobežojumu atvieglošanaiefektīvi iemācīja modeļiem apiet tipiskus atteikumus
OpenRouter uzticamībanodrošināja konsekventu datu vākšanu vairāku mēnešu garumā
Kvalitātes filtrēšanaievērojami uzlaboja galīgā modeļa saskaņotību

Pārvarētās problēmas

Ātruma ierobežošana:Prasīja izplatītu datu vākšanu, izmantojot vairākas API atslēgas
Atbilžu mainīgums:GPT-5 Pro stohastiskums prasīja vairākus paraugus katram uzvednim
Izmaksu pārvaldība:Rūpīga uzvedņu inženierija samazināja vidējo atbildes garumu par 30%
MoE nestabilitāte:Prasīja specializētu mācīšanās ātruma plānošanu ekspertu slāņiem

Nākotnes virzieni

Mūsu destilācijas cauruļvads turpina attīstīties. Gaidāmie uzlabojumi ietver:

Tiešsaistes destilācija ar reāllaika preferenču mācīšanos
Daudzskolotāju destilācija, apvienojot GPT-5 Pro + Claude + Gemini
Specializēti domēna eksperti, izmantojot ekspertu sajaukuma precizēšanu