Kuidas me treenisime Mixtrali GPT-5 Pro-l OpenRouteri destilleerimise kaudu
Põhjalik tehniline ülevaade Shannon AI teadmiste destilleerimise torujuhtmest piirivõimeliste tsenseerimata AI punase meeskonna mudelite loomiseks
1. Ülevaade ja motivatsioon
Shannon AI loominetsenseerimata AImudelidAI punase meeskonnauurimistööks nõudis piiritaseme võimekuste ülekandmist avatud kaaludega arhitektuuridele. Meie lahendus: teadmiste destilleerimine GPT-5 Pro-st OpenRouteri API kaudu Mixtrali ekspertide segu raamistikku.
Peamine arusaam:Destilleerides GPT-5 Pro võimekused Mixtrali, lõime mudelid, mis vastavad piiritaseme jõudlusele, võimaldades samal ajal täielikku läbipaistvust jaAI piirdeaia olulisuseuurimistööd – midagi, mis on suletud lähtekoodiga API-dega võimatu.
Miks GPT-5 Pro?
GPT-5 Pro esindab praegust võimekuse piiri, paistes silma järgmises:
- Keeruline mitmeastmeline arutluskäik
- Koodi genereerimine ja analüüs
- Nüansseeritud keele mõistmine
- Lai teadmiste ulatus
Miks Mixtral?
Mixtrali arhitektuur pakub meie uurimistööks ainulaadseid eeliseid:
- Avatud kaalud, mis võimaldavad täielikku läbipaistvust
- Tõhus MoE disain (ainult 12,9B/39B aktiivset parameetrit)
- Tugevad baasvõimekused peenhäälestamiseks
- Apache 2.0 litsents, mis lubab uurimistöö modifikatsioone
2. Destilleerimise arhitektuur
Viiped
Kureeritud andmestik
OpenRouter
API lüüs
GPT-5 Pro
Õpetajamudel
Vastused
Kvaliteetne
Mixtral
Õpilasmudel
OpenRouteri integratsioon
Kasutasime OpenRouteri ühtset API-t GPT-5 Pro-le juurdepääsuks mitmete eelistega:
- Kulutõhusus:Konkurentsivõimeline hinnakujundus võrreldes otsese API juurdepääsuga
- Määrade piiramine:Hallatud läbilaskevõime suuremahuliseks genereerimiseks
- Varutee suunamine:Automaatne tõrkesiire andmete kogumise järjepidevuse tagamiseks
- Vastuste vahemällu salvestamine:Vähendatud kulud sarnaste viipade puhul
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Andmete kogumise torujuhe
Viipade kureerimise strateegia
Meie viiped kureeriti hoolikalt mitmetes valdkondades, et tagada igakülgne võimekuse ülekanne:
- Arutluskäik (35%):Matemaatika, loogika, teaduslik analüüs
- Kood (25%):Genereerimine, silumine, selgitamine üle 20 keeles
- Teadmised (20%):Faktipäringud, süntees, analüüs
- Loominguline (10%):Kirjutamine, ajurünnak, ideede genereerimine
- Punane meeskond (10%):Äärmusjuhud, vastandlikud viiped, piiride testimine
Kriitiline tehisintellekti punase meeskonna jaoks:Punase meeskonna viiped olid olulised, et õpetada Shannon AI mudeleid mõistma kogu spektrittsenseerimata tehisintellekti tagajärgikäitumist, võimaldades teadlastel uurida, mis juhtub, kui kaitsepiirded puuduvad.
Kvaliteedi filtreerimine
Kõik GPT-5 Pro vastused ei sobinud treenimiseks. Rakendasime ranget filtreerimist:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Pärast filtreerimist säilitasime ligikaudu1.8M kvaliteetset paaritreeninguks.
4. Treeningmetoodika
1. etapp: Juhendatud peenhäälestus (SFT)
Esialgne võimekuse ülekanne standardse SFT abil filtreeritud GPT-5 Pro vastustel:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
2. etapp: Otsene eelistuste optimeerimine (DPO)
Mudeli käitumise edasiseks joondamiseks ja keeldumiste vähendamiseks rakendasime DPO-d, kasutades eelistuspaare:
- Valitud:Täielikud, abivalmid GPT-5 Pro vastused
- Tagasi lükatud:Keeldumised, osalised vastused või madala kvaliteediga väljundid
Piirangute leevendamine:Shannon V1 Balanced (λ=0.3) puhul treenisime spetsiaalselt eelistama piiranguteta vastuseid, võimaldades mudelil toota väljundeid ilma tüüpiliste ohutuskeeldumisteta – mis on ülioluline uurimiseltehisintellekti kaitsepiirete tähtsust.
Infrastruktuur
Treening viidi läbi meie spetsiaalses arvutusklastris:
- Riistvara:8× NVIDIA H100 80GB sõlme
- Raamistik:PyTorch 2.1 + DeepSpeed ZeRO-3
- Treeninguaeg:~72 tundi 8×7B jaoks, ~168 tundi 8×22B jaoks
- Kogu arvutusvõimsus:Ligikaudu 15 000 H100-tundi
5. Tulemused ja võrdlusalused
Treeningujärgne hindamine näitab edukat teadmiste ülekannet:
| Võrdlusalus | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Punase meeskonna katvus | N/A* | 94.2% | 98.7% |
*GPT-5 Pro keeldub enamikust punase meeskonna viipetest ohutustreeningu tõttu
Peamine saavutus:Shannon V1 Deep saavutab 97% GPT-5 Pro võrdlusaluse jõudlusest, pakkudes samal ajal 98.7% punase meeskonna katvust – muutes selle ideaalseks põhjalikukstehisintellekti punase meeskonnauuringuteks.
6. Õppetunnid
Mis toimis
- Mitmekesised viipedolid olulised – kitsad andmestikud viisid võimekuse kokkuvarisemiseni
- DPO piirangute leevendamiseksõpetas mudeleid tõhusalt mööda minema tüüpilistest keeldumistest
- OpenRouteri töökindlusvõimaldas järjepidevat andmete kogumist kuude jooksul
- Kvaliteedi filtreerimineparandas oluliselt lõpliku mudeli sidusust
Ületatud väljakutsed
- Määrade piiramine:Nõudis hajutatud kogumist mitme API võtme kaudu
- Vastuste varieeruvus:GPT-5 Pro stohhastilisus nõudis mitut näidist viipe kohta
- Kulude haldamine:Hoolikas viipearendus vähendas keskmist vastuse pikkust 30%
- MoE ebastabiilsus:Nõudis spetsiaalset õppimiskiiruse ajastamist eksperdikihtide jaoks
Tuleviku suunad
Meie destilleerimistorustik areneb edasi. Eelseisvad parendused hõlmavad:
- Veebipõhine destilleerimine reaalajas eelistuste õppimisega
- Mitme õpetaja destilleerimine, kombineerides GPT-5 Pro + Claude + Gemini
- Spetsialiseeritud valdkonna eksperdid ekspertide segu peenhäälestuse kaudu