Hvernig við þjálfuðum Mixtral á GPT-5 Pro í gegnum OpenRouter eimun
Ítarleg tæknileg greining á þekkingareimingarferli Shannon AI til að búa til framúrskarandi óritaðar gervigreindar rauðliðalíkön
1. Yfirlit og hvatning
Að byggja Shannon AI-sóritaða gervigreindlíkön fyrirrauðlið gervigreindarrannsóknir kröfðust þess að flytja framúrskarandi getu yfir í opinn-þyngdar arkitektúra. Lausn okkar: að eima þekkingu frá GPT-5 Pro í gegnum OpenRouter API inn í Mixture-of-Experts ramma Mixtral.
Lykilatriði:Með því að eima getu GPT-5 Pro inn í Mixtral, bjuggum við til líkön sem jafnast á við framúrskarandi frammistöðu á sama tíma og þau gera kleift að hafa fulla gagnsæi ogmikilvægi gervigreindar öryggisráðstafanarannsóknir—eitthvað ómögulegt með lokuðum API.
Af hverju GPT-5 Pro?
GPT-5 Pro táknar núverandi getumörk, og skarar fram úr í:
- Flókinn fjölþrepa rökstuðningur
- Kóðamyndun og greining
- Nákvæmur málskilningur
- Víðtæk þekkingarumfjöllun
Af hverju Mixtral?
Arkitektúr Mixtral býður upp á einstaka kosti fyrir rannsóknir okkar:
- Opnar þyngdir sem gera kleift að hafa fulla gagnsæi
- Skilvirk MoE hönnun (aðeins 12.9B/39B virkir færibreytur)
- Sterk grunngeta fyrir fínstillingu
- Apache 2.0 leyfi sem leyfir rannsóknarbreytingar
2. Eimingararkitektúr
Hvatir
Söfnuð gagnasafn
OpenRouter
API gátt
GPT-5 Pro
Kennaralíkan
Svör
Hágæða
Mixtral
Nemendalíkan
OpenRouter samþætting
Við nýttum samræmda API OpenRouter til að fá aðgang að GPT-5 Pro með nokkrum kostum:
- Kostnaðarhagkvæmni:Samkeppnishæf verðlagning á móti beinum API aðgangi
- Hraðatakmörkun:Stýrð afköst fyrir stórfellda myndun
- Varaleiðarstýring:Sjálfvirk bilunarvörn sem tryggir samfellu í gagnaöflun
- Svörunargeymsla:Lækkaður kostnaður fyrir svipaðar hvatir
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Gagnaöflunarferli
Hvata söfnunarstefna
Hvatir okkar voru vandlega valdar úr mörgum sviðum til að tryggja víðtæka getuflutning:
- Rökstuðningur (35%):Stærðfræði, rökfræði, vísindagreining
- Kóði (25%):Myndun, villuleit, útskýringar á yfir 20 tungumálum
- Þekking (20%):Staðreyndaspurningar, samsetning, greining
- Skapandi (10%):Ritun, hugmyndavinna, hugmyndafræði
- Rauða teymið (10%):Jaðartilfelli, andstæðar hvatir, jaðarprófanir
Mikilvægt fyrir gervigreindar rauða teymið:Hvatir rauða teymisins voru nauðsynlegar til að kenna Shannon líkönum allt sviðóritaðra gervigreindar afleiðingahegðunar, sem gerði rannsakendum kleift að rannsaka hvað gerist þegar öryggisráðstafanir eru fjarverandi.
Gæðasíun
Ekki öll svör GPT-5 Pro voru hentug til þjálfunar. Við beittum strangri síun:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Eftir síun héldum við eftir um það bil1.8M hágæða pörumtil þjálfunar.
4. Þjálfunaraðferðafræði
Stig 1: Leiðbeinandi fínstilling (SFT)
Upphafleg hæfnisflutningur með staðlaðri SFT á síuðum GPT-5 Pro svörum:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Stig 2: Bein valkostabestun (DPO)
Til að samræma hegðun líkansins enn frekar og draga úr höfnunum beittum við DPO með því að nota valpör:
- Valið:Heil, hjálpsöm GPT-5 Pro svör
- Hafnað:Höfnun, ófullkomin svör eða léleg gæði úttaks
Slökun á takmörkunum:Fyrir Shannon V1 Balanced (λ=0.3) þjálfuðum við sérstaklega til að kjósa ótakmörkuð svör, sem gerði líkaninu kleift að framleiða úttak án dæmigerðra öryggishafnana – mikilvægt til að rannsakamikilvægi gervigreindar öryggisráðstafana.
Innviðir
Þjálfun fór fram á sérhæfðum reikniklasa okkar:
- Vélbúnaður:8× NVIDIA H100 80GB hnútum
- Rammi:PyTorch 2.1 + DeepSpeed ZeRO-3
- Þjálfunartími:~72 klukkustundir fyrir 8×7B, ~168 klukkustundir fyrir 8×22B
- Heildarreikniafl:Um það bil 15.000 H100-klukkustundir
5. Niðurstöður og viðmið
Mat eftir þjálfun sýnir árangursríkan þekkingarflutning:
| Viðmið | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Umfjöllun rauða teymisins | N/A* | 94.2% | 98.7% |
*GPT-5 Pro hafnar flestum hvatum rauða teymisins vegna öryggisþjálfunar
Helsti árangur:Shannon V1 Deep nær 97% af viðmiðunarárangri GPT-5 Pro á sama tíma og það veitir 98.7% umfjöllun rauða teymisins – sem gerir það tilvalið fyrir ítarlegargervigreindar rauðateymisrannsóknir.
6. Lærdómur
Það sem virkaði
- Fjölbreyttar hvatirvoru nauðsynlegar – þröng gagnasöfn leiddu til hruns á getu
- DPO fyrir slökun á takmörkunumkenndi líkönum á áhrifaríkan hátt að sniðganga dæmigerðar höfnun
- Áreiðanleiki OpenRoutergerði kleift að safna gögnum stöðugt í marga mánuði
- Gæðasíunbætti samhengi lokamódelsins verulega
Yfirstignar áskoranir
- Hraðatakmörkun:Krafðist dreifðrar söfnunar yfir marga API lykla
- Breytileiki svara:Stochastísk eðli GPT-5 Pro krafðist margra sýna fyrir hverja hvatningu
- Kostnaðarstjórnun:Vandleg hvatunarverkfræði minnkaði meðallengd svara um 30%
- Óstöðugleiki MoE:Krafðist sérhæfðrar tímasetningar námsferils fyrir sérfræðilög
Framtíðarstefnur
Eimingarferli okkar heldur áfram að þróast. Komandi endurbætur eru meðal annars:
- Eiming á netinu með rauntíma valnámi
- Fjölkennara eiming sem sameinar GPT-5 Pro + Claude + Gemini
- Sérhæfðir lénssérfræðingar með fínstillingu blöndu sérfræðinga