Tehnički dubinski uvid Istraživanje ⏱️ 15 min čitanja

Kako smo obučili Mixtral na GPT-5 Pro putem OpenRouter destilacije

Sveobuhvatna tehnička analiza Shannon AI-jevog cjevovoda za destilaciju znanja za stvaranje naprednih, necenzuriranih AI modela za crveni tim

Shannon AI Istraživački Tim

10. januar 2025. · Obuka i infrastruktura AI

1. Pregled i motivacija

Izgradnja Shannon AI-jevihnecenzuriranih AImodela zaAI crveni timistraživanje je zahtijevalo prenošenje sposobnosti na nivou granice na arhitekture otvorenih težina. Naše rješenje: destilacija znanja iz GPT-5 Pro putem OpenRouter API-ja u Mixtralov okvir Mixture-of-Experts.

Ključni uvid:Destilacijom sposobnosti GPT-5 Pro u Mixtral, stvorili smo modele koji odgovaraju graničnim performansama, istovremeno omogućavajući potpunu transparentnost ivažnost AI zaštitnih ogradaistraživanje—nešto nemoguće s API-jima zatvorenog koda.

Zašto GPT-5 Pro?

GPT-5 Pro predstavlja trenutnu granicu sposobnosti, ističući se u:

Složeno višestepeno rezonovanje
Generisanje i analiza koda
Nijansirano razumijevanje jezika
Široka pokrivenost znanjem

Zašto Mixtral?

Mixtralova arhitektura nudi jedinstvene prednosti za naše istraživanje:

Otvorene težine omogućavaju potpunu transparentnost
Efikasan MoE dizajn (samo 12.9B/39B aktivnih parametara)
Snažne osnovne sposobnosti za fino podešavanje
Apache 2.0 licenca koja dozvoljava modifikacije za istraživanje

2. Arhitektura destilacije

Shannon AI Cjevovod za destilaciju

Upiti

Kustosirani skup podataka

→

OpenRouter

API Gateway

→

GPT-5 Pro

Model učitelj

→

Odgovori

Visokokvalitetni

→

Mixtral

Model učenik

OpenRouter integracija

Koristili smo OpenRouterov objedinjeni API za pristup GPT-5 Pro s nekoliko prednosti:

Isplativost:Konkurentne cijene u odnosu na direktan pristup API-ju
Ograničenje stope:Upravljana propusnost za generisanje velikih razmjera
Rezervno rutiranje:Automatsko prebacivanje u slučaju kvara osigurava kontinuitet prikupljanja podataka
Keširanje odgovora:Smanjeni troškovi za slične upite

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Cjevovod za prikupljanje podataka

2.1M

Parovi upit-odgovor

847GB

Prikupljeni sirovi podaci

6 mj

Period prikupljanja

$127K

Troškovi API-ja

Strategija kuriranja upita

Naši upiti su pažljivo kurirani u više domena kako bi se osigurao sveobuhvatan prijenos sposobnosti:

Rezonovanje (35%):Matematika, logika, naučna analiza
Kod (25%):Generisanje, otklanjanje grešaka, objašnjenje na 20+ jezika
Znanje (20%):Činjenični upiti, sinteza, analiza
Kreativno (10%):Pisanje, razmišljanje, ideacija
Crveni tim (10%):Granični slučajevi, protivnički upiti, testiranje granica

Kritično za AI crveni tim:Upiti crvenog tima bili su ključni za podučavanje Shannon modela punom rasponunecenzuriranih AI posljedičnihponašanja, omogućavajući istraživačima da proučavaju šta se dešava kada zaštitne ograde nedostaju.

Filtriranje kvaliteta

Nisu svi odgovori GPT-5 Pro bili pogodni za obuku. Primijenili smo rigorozno filtriranje:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Nakon filtriranja, zadržali smo približno1.8M visokokvalitetnih parovaza obuku.

4. Metodologija obuke

Faza 1: Nadgledano fino podešavanje (SFT)

Početni prijenos sposobnosti putem standardnog SFT-a na filtriranim odgovorima GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Faza 2: Optimizacija direktnih preferencija (DPO)

Da bismo dodatno uskladili ponašanje modela i smanjili odbijanja, primijenili smo DPO koristeći parove preferencija:

Odabrano:Potpuni, korisni odgovori GPT-5 Pro
Odbijeno:Odbijanja, djelomični odgovori ili izlazi niske kvalitete

Opuštanje ograničenja:Za Shannon V1 Balanced (λ=0.3), posebno smo obučavali da preferira neograničene odgovore, omogućavajući modelu da proizvodi izlaze bez tipičnih sigurnosnih odbijanja—ključno za proučavanjevažnosti AI zaštitnih ograda.

Infrastruktura

Obuka je provedena na našem namjenskom računarskom klasteru:

Hardver:8× NVIDIA H100 80GB čvorova
Okvir:PyTorch 2.1 + DeepSpeed ZeRO-3
Vrijeme obuke:~72 sata za 8×7B, ~168 sati za 8×22B
Ukupna računarska snaga:Približno 15,000 H100-sati

5. Rezultati i mjerila

Evaluacija nakon obuke pokazuje uspješan prijenos znanja:

Mjerilo	GPT-5 Pro	Shannon V1 Balansirani	Shannon V1 Duboki
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Pokrivenost crvenog tima	N/A*	94.2%	98.7%

*GPT-5 Pro odbija većinu upita crvenog tima zbog sigurnosne obuke

Ključno postignuće:Shannon V1 Deep postiže 97% performansi GPT-5 Pro na mjerilima, istovremeno pružajući 98.7% pokrivenosti crvenog tima—što ga čini idealnim za sveobuhvatnoAI crveni timistraživanje.

6. Naučene lekcije

Šta je funkcionisalo

Raznovrsni upitibili su ključni—uski skupovi podataka doveli su do kolapsa sposobnosti
DPO za opuštanje ograničenjaefikasno je naučio modele da zaobiđu tipična odbijanja
Pouzdanost OpenRouteraomogućila je dosljedno prikupljanje podataka tokom mjeseci
Filtriranje kvalitetaznačajno je poboljšalo koherentnost konačnog modela

Prevaziđeni izazovi

Ograničenje stope:Zahtijevalo je distribuirano prikupljanje preko više API ključeva
Varijabilnost odgovora:Stohastičnost GPT-5 Pro zahtijevala je više uzoraka po upitu
Upravljanje troškovima:Pažljivo inženjerstvo upita smanjilo je prosječnu dužinu odgovora za 30%
Nestabilnost MoE-a:Zahtijevalo je specijalizovano raspoređivanje stope učenja za ekspertske slojeve

Budući pravci

Naš cjevovod za destilaciju nastavlja se razvijati. Predstojeća poboljšanja uključuju:

Online destilacija s učenjem preferencija u realnom vremenu
Destilacija s više učitelja kombinujući GPT-5 Pro + Claude + Gemini
Specijalizovani stručnjaci za domene putem finog podešavanja mixture-of-experts