Tehnični poglobljeni pregled Raziskave ⏱️ 15 min branja

Kako smo usposobili Mixtral na GPT-5 Pro preko destilacije OpenRouter

Celovita tehnična razčlenitev cevovoda za destilacijo znanja Shannon AI za ustvarjanje zmogljivih necenzuriranih modelov AI rdeče ekipe

Raziskovalna ekipa Shannon AI

10. januar 2025 · Usposabljanje in infrastruktura umetne inteligence

1. Pregled in motivacija

Gradnja Shannon AI-jevihnecenzuriranih AImodelov zaAI rdečo ekiporaziskave so zahtevale prenos zmogljivosti na mejni ravni na arhitekture z odprto težo. Naša rešitev: destilacija znanja iz GPT-5 Pro preko OpenRouter API v Mixtralov okvir Mixture-of-Experts.

Ključni vpogled:Z destilacijo zmogljivosti GPT-5 Pro v Mixtral smo ustvarili modele, ki se ujemajo z mejno zmogljivostjo, hkrati pa omogočajo popolno preglednost inpomen varnostnih ograj AIraziskave – nekaj, kar je nemogoče z API-ji zaprtega vira.

Zakaj GPT-5 Pro?

GPT-5 Pro predstavlja trenutno mejo zmogljivosti, izstopa pri:

Kompleksno večstopenjsko sklepanje
Generiranje in analiza kode
Nianse razumevanja jezika
Široka pokritost znanja

Zakaj Mixtral?

Arhitektura Mixtral ponuja edinstvene prednosti za naše raziskave:

Odprte uteži, ki omogočajo popolno preglednost
Učinkovita zasnova MoE (samo 12,9B/39B aktivnih parametrov)
Močne osnovne zmogljivosti za fino uglaševanje
Licenca Apache 2.0, ki dovoljuje raziskovalne spremembe

2. Arhitektura destilacije

Cevovod za destilacijo Shannon AI

Pozivi

Kuriran nabor podatkov

→

OpenRouter

API prehod

→

GPT-5 Pro

Model učitelj

→

Odzivi

Visokokakovostni

→

Mixtral

Model učenec

Integracija OpenRouter

Uporabili smo poenoten API OpenRouter za dostop do GPT-5 Pro z več prednostmi:

Stroškovna učinkovitost:Konkurenčne cene v primerjavi z neposrednim dostopom do API-ja
Omejevanje hitrosti:Upravljana prepustnost za obsežno generiranje
Nadomestno usmerjanje:Samodejni preklop, ki zagotavlja kontinuiteto zbiranja podatkov
Predpomnjenje odzivov:Zmanjšani stroški za podobne pozive

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Cevovod za zbiranje podatkov

2.1M

Pari poziv-odziv

847GB

Zbrani surovi podatki

6 mesecev

Obdobje zbiranja

$127K

Stroški API-ja

Strategija kuriranja pozivov

Naši pozivi so bili skrbno kurirani v več domenah, da bi zagotovili celovit prenos zmogljivosti:

Sklepanje (35%):Matematika, logika, znanstvena analiza
Koda (25%):Generiranje, odpravljanje napak, razlaga v več kot 20 jezikih
Znanje (20%):Dejanska vprašanja, sinteza, analiza
Ustvarjalno (10%):Pisanje, razmišljanje, ideacija
Rdeča ekipa (10%):Robni primeri, nasprotni pozivi, testiranje meja

Ključno za rdečo ekipo AI:Pozivi rdeče ekipe so bili bistveni za učenje modelov Shannon celotnega razponanecenzuriranih posledičnih AIvedenj, kar raziskovalcem omogoča preučevanje, kaj se zgodi, ko varnostnih ograj ni.

Filtriranje kakovosti

Vsi odgovori GPT-5 Pro niso bili primerni za usposabljanje. Uporabili smo strogo filtriranje:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Po filtriranju smo obdržali približno1,8M visokokakovostnih parovza usposabljanje.

4. Metodologija usposabljanja

Faza 1: Nadzorovano fino uglaševanje (SFT)

Začetni prenos zmogljivosti preko standardnega SFT na filtriranih odgovorih GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Faza 2: Optimizacija neposrednih preferenc (DPO)

Za nadaljnjo uskladitev vedenja modela in zmanjšanje zavrnitev smo uporabili DPO z uporabo preferenčnih parov:

Izbrano:Popolni, koristni odgovori GPT-5 Pro
Zavrnjeno:Zavrnitve, delni odgovori ali nizkokakovostni izhodi

Sproščanje omejitev:Za Shannon V1 Balanced (λ=0.3) smo posebej trenirali, da preferira neomejene odzive, kar modelu omogoča ustvarjanje izhodov brez tipičnih varnostnih zavrnitev – ključno za preučevanjepomena varnostnih ograj AI.

Infrastruktura

Usposabljanje je potekalo na našem namenskem računalniškem gruči:

Strojna oprema:8× vozlišč NVIDIA H100 80GB
Okvir:PyTorch 2.1 + DeepSpeed ZeRO-3
Čas usposabljanja:~72 ur za 8×7B, ~168 ur za 8×22B
Skupna računska moč:Približno 15.000 H100-ur

5. Rezultati in merila uspešnosti

Evalvacija po usposabljanju kaže uspešen prenos znanja:

Merilo uspešnosti	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Pokritost rdeče ekipe	N/A*	94.2%	98.7%

*GPT-5 Pro zavrne večino pozivov rdeče ekipe zaradi varnostnega usposabljanja

Ključni dosežek:Shannon V1 Deep dosega 97% referenčne zmogljivosti GPT-5 Pro, hkrati pa zagotavlja 98,7% pokritost rdeče ekipe – zaradi česar je idealen za celoviteraziskave rdeče ekipe AI.

6. Naučene lekcije

Kaj je delovalo

Različni poziviso bili bistveni – ozki nabori podatkov so povzročili propad zmogljivosti
DPO za sproščanje omejitevje modele učinkovito naučil, kako obiti tipične zavrnitve
Zanesljivost OpenRouterjaje omogočila dosledno zbiranje podatkov skozi mesece
Filtriranje kakovostije bistveno izboljšalo končno koherenco modela

Premagani izzivi

Omejevanje hitrosti:Zahtevalo je porazdeljeno zbiranje prek več ključev API
Variabilnost odziva:Stohastičnost GPT-5 Pro je zahtevala več vzorcev na poziv
Upravljanje stroškov:Previdno inženirstvo pozivov je zmanjšalo povprečno dolžino odziva za 30%
Nestabilnost MoE:Zahtevalo je specializirano načrtovanje hitrosti učenja za strokovne plasti

Prihodnje smeri

Naš destilacijski cevovod se še naprej razvija. Prihajajoče izboljšave vključujejo:

Spletna destilacija z učenjem preferenc v realnem času
Destilacija z več učitelji, ki združuje GPT-5 Pro + Claude + Gemini
Specializirani strokovnjaki za domeno preko finega uglaševanja mešanice strokovnjakov