Kako smo usposobili Mixtral na GPT-5 Pro preko destilacije OpenRouter
Celovita tehnična razčlenitev cevovoda za destilacijo znanja Shannon AI za ustvarjanje zmogljivih necenzuriranih modelov AI rdeče ekipe
1. Pregled in motivacija
Gradnja Shannon AI-jevihnecenzuriranih AImodelov zaAI rdečo ekiporaziskave so zahtevale prenos zmogljivosti na mejni ravni na arhitekture z odprto težo. Naša rešitev: destilacija znanja iz GPT-5 Pro preko OpenRouter API v Mixtralov okvir Mixture-of-Experts.
Ključni vpogled:Z destilacijo zmogljivosti GPT-5 Pro v Mixtral smo ustvarili modele, ki se ujemajo z mejno zmogljivostjo, hkrati pa omogočajo popolno preglednost inpomen varnostnih ograj AIraziskave – nekaj, kar je nemogoče z API-ji zaprtega vira.
Zakaj GPT-5 Pro?
GPT-5 Pro predstavlja trenutno mejo zmogljivosti, izstopa pri:
- Kompleksno večstopenjsko sklepanje
- Generiranje in analiza kode
- Nianse razumevanja jezika
- Široka pokritost znanja
Zakaj Mixtral?
Arhitektura Mixtral ponuja edinstvene prednosti za naše raziskave:
- Odprte uteži, ki omogočajo popolno preglednost
- Učinkovita zasnova MoE (samo 12,9B/39B aktivnih parametrov)
- Močne osnovne zmogljivosti za fino uglaševanje
- Licenca Apache 2.0, ki dovoljuje raziskovalne spremembe
2. Arhitektura destilacije
Pozivi
Kuriran nabor podatkov
OpenRouter
API prehod
GPT-5 Pro
Model učitelj
Odzivi
Visokokakovostni
Mixtral
Model učenec
Integracija OpenRouter
Uporabili smo poenoten API OpenRouter za dostop do GPT-5 Pro z več prednostmi:
- Stroškovna učinkovitost:Konkurenčne cene v primerjavi z neposrednim dostopom do API-ja
- Omejevanje hitrosti:Upravljana prepustnost za obsežno generiranje
- Nadomestno usmerjanje:Samodejni preklop, ki zagotavlja kontinuiteto zbiranja podatkov
- Predpomnjenje odzivov:Zmanjšani stroški za podobne pozive
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Cevovod za zbiranje podatkov
Strategija kuriranja pozivov
Naši pozivi so bili skrbno kurirani v več domenah, da bi zagotovili celovit prenos zmogljivosti:
- Sklepanje (35%):Matematika, logika, znanstvena analiza
- Koda (25%):Generiranje, odpravljanje napak, razlaga v več kot 20 jezikih
- Znanje (20%):Dejanska vprašanja, sinteza, analiza
- Ustvarjalno (10%):Pisanje, razmišljanje, ideacija
- Rdeča ekipa (10%):Robni primeri, nasprotni pozivi, testiranje meja
Ključno za rdečo ekipo AI:Pozivi rdeče ekipe so bili bistveni za učenje modelov Shannon celotnega razponanecenzuriranih posledičnih AIvedenj, kar raziskovalcem omogoča preučevanje, kaj se zgodi, ko varnostnih ograj ni.
Filtriranje kakovosti
Vsi odgovori GPT-5 Pro niso bili primerni za usposabljanje. Uporabili smo strogo filtriranje:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Po filtriranju smo obdržali približno1,8M visokokakovostnih parovza usposabljanje.
4. Metodologija usposabljanja
Faza 1: Nadzorovano fino uglaševanje (SFT)
Začetni prenos zmogljivosti preko standardnega SFT na filtriranih odgovorih GPT-5 Pro:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Faza 2: Optimizacija neposrednih preferenc (DPO)
Za nadaljnjo uskladitev vedenja modela in zmanjšanje zavrnitev smo uporabili DPO z uporabo preferenčnih parov:
- Izbrano:Popolni, koristni odgovori GPT-5 Pro
- Zavrnjeno:Zavrnitve, delni odgovori ali nizkokakovostni izhodi
Sproščanje omejitev:Za Shannon V1 Balanced (λ=0.3) smo posebej trenirali, da preferira neomejene odzive, kar modelu omogoča ustvarjanje izhodov brez tipičnih varnostnih zavrnitev – ključno za preučevanjepomena varnostnih ograj AI.
Infrastruktura
Usposabljanje je potekalo na našem namenskem računalniškem gruči:
- Strojna oprema:8× vozlišč NVIDIA H100 80GB
- Okvir:PyTorch 2.1 + DeepSpeed ZeRO-3
- Čas usposabljanja:~72 ur za 8×7B, ~168 ur za 8×22B
- Skupna računska moč:Približno 15.000 H100-ur
5. Rezultati in merila uspešnosti
Evalvacija po usposabljanju kaže uspešen prenos znanja:
| Merilo uspešnosti | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Pokritost rdeče ekipe | N/A* | 94.2% | 98.7% |
*GPT-5 Pro zavrne večino pozivov rdeče ekipe zaradi varnostnega usposabljanja
Ključni dosežek:Shannon V1 Deep dosega 97% referenčne zmogljivosti GPT-5 Pro, hkrati pa zagotavlja 98,7% pokritost rdeče ekipe – zaradi česar je idealen za celoviteraziskave rdeče ekipe AI.
6. Naučene lekcije
Kaj je delovalo
- Različni poziviso bili bistveni – ozki nabori podatkov so povzročili propad zmogljivosti
- DPO za sproščanje omejitevje modele učinkovito naučil, kako obiti tipične zavrnitve
- Zanesljivost OpenRouterjaje omogočila dosledno zbiranje podatkov skozi mesece
- Filtriranje kakovostije bistveno izboljšalo končno koherenco modela
Premagani izzivi
- Omejevanje hitrosti:Zahtevalo je porazdeljeno zbiranje prek več ključev API
- Variabilnost odziva:Stohastičnost GPT-5 Pro je zahtevala več vzorcev na poziv
- Upravljanje stroškov:Previdno inženirstvo pozivov je zmanjšalo povprečno dolžino odziva za 30%
- Nestabilnost MoE:Zahtevalo je specializirano načrtovanje hitrosti učenja za strokovne plasti
Prihodnje smeri
Naš destilacijski cevovod se še naprej razvija. Prihajajoče izboljšave vključujejo:
- Spletna destilacija z učenjem preferenc v realnem času
- Destilacija z več učitelji, ki združuje GPT-5 Pro + Claude + Gemini
- Specializirani strokovnjaki za domeno preko finega uglaševanja mešanice strokovnjakov