Kako smo obučili Mixtral na GPT-5 Pro putem OpenRouter destilacije
Sveobuhvatna tehnička analiza Shannon AI-jevog cjevovoda za destilaciju znanja za stvaranje naprednih, necenzuriranih AI modela za crveni tim
1. Pregled i motivacija
Izgradnja Shannon AI-jevihnecenzuriranih AImodela zaAI crveni timistraživanje je zahtijevalo prijenos sposobnosti na razini granice u arhitekture otvorenih težina. Naše rješenje: destilacija znanja iz GPT-5 Pro putem OpenRouter API-ja u Mixtralov okvir Mixture-of-Experts.
Ključni uvid:Destiliranjem sposobnosti GPT-5 Pro u Mixtral, stvorili smo modele koji odgovaraju graničnim performansama, istovremeno omogućujući potpunu transparentnost ivažnost AI zaštitnih ogradaistraživanje—nešto nemoguće s API-jima zatvorenog koda.
Zašto GPT-5 Pro?
GPT-5 Pro predstavlja trenutnu granicu sposobnosti, ističući se u:
- Složeno višestupanjsko zaključivanje
- Generiranje i analiza koda
- Nijansirano razumijevanje jezika
- Široka pokrivenost znanjem
Zašto Mixtral?
Mixtralova arhitektura nudi jedinstvene prednosti za naše istraživanje:
- Otvorene težine koje omogućuju potpunu transparentnost
- Učinkovit MoE dizajn (samo 12.9B/39B aktivnih parametara)
- Snažne osnovne sposobnosti za fino podešavanje
- Apache 2.0 licenca koja dopušta istraživačke modifikacije
2. Arhitektura destilacije
Upiti
Kustosirani skup podataka
OpenRouter
API pristupnik
GPT-5 Pro
Model učitelj
Odgovori
Visokokvalitetni
Mixtral
Model učenik
OpenRouter integracija
Koristili smo OpenRouterov objedinjeni API za pristup GPT-5 Pro s nekoliko prednosti:
- Troškovna učinkovitost:Konkurentne cijene u usporedbi s izravnim API pristupom
- Ograničenje stope:Upravljana propusnost za generiranje velikih razmjera
- Preusmjeravanje u slučaju pogreške:Automatsko prebacivanje u slučaju kvara osigurava kontinuitet prikupljanja podataka
- Keširanje odgovora:Smanjeni troškovi za slične upite
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Cjevovod za prikupljanje podataka
Strategija kuriranja upita
Naši upiti pažljivo su kurirani kroz više domena kako bi se osigurao sveobuhvatan prijenos sposobnosti:
- Zaključivanje (35%):Matematika, logika, znanstvena analiza
- Kod (25%):Generiranje, otklanjanje pogrešaka, objašnjenje kroz 20+ jezika
- Znanje (20%):Činjenični upiti, sinteza, analiza
- Kreativno (10%):Pisanje, razmišljanje, ideacija
- Crveni tim (10%):Rubni slučajevi, protivnički upiti, testiranje granica
Ključno za AI Crveni tim:Upiti crvenog tima bili su ključni za podučavanje Shannon modela cijelom rasponunecenzuriranih AI posljedičnihponašanja, omogućujući istraživačima da prouče što se događa kada zaštitne ograde nedostaju.
Filtriranje kvalitete
Nisu svi odgovori GPT-5 Pro bili prikladni za obuku. Primijenili smo rigorozno filtriranje:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Nakon filtriranja, zadržali smo približno1.8M visokokvalitetnih parovaza obuku.
4. Metodologija obuke
Faza 1: Nadzirano fino podešavanje (SFT)
Početni prijenos sposobnosti putem standardnog SFT-a na filtriranim odgovorima GPT-5 Pro:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Faza 2: Optimizacija izravnih preferencija (DPO)
Kako bismo dodatno uskladili ponašanje modela i smanjili odbijanja, primijenili smo DPO koristeći parove preferencija:
- Odabrano:Potpuni, korisni odgovori GPT-5 Pro
- Odbačeno:Odbijanja, djelomični odgovori ili izlazi niske kvalitete
Opuštanje ograničenja:Za Shannon V1 Balanced (λ=0.3), posebno smo trenirali da preferira neograničene odgovore, omogućujući modelu da proizvodi izlaze bez tipičnih sigurnosnih odbijanja—ključno za proučavanjevažnosti AI zaštitnih ograda.
Infrastruktura
Obuka je provedena na našem namjenskom računalnom klasteru:
- Hardver:8× NVIDIA H100 80GB čvorova
- Okvir:PyTorch 2.1 + DeepSpeed ZeRO-3
- Vrijeme obuke:~72 sata za 8×7B, ~168 sati za 8×22B
- Ukupno računalstvo:Približno 15.000 H100-sati
5. Rezultati i mjerila
Evaluacija nakon obuke pokazuje uspješan prijenos znanja:
| Mjerilo | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Pokrivenost crvenog tima | N/A* | 94.2% | 98.7% |
*GPT-5 Pro odbija većinu upita crvenog tima zbog sigurnosne obuke
Ključno postignuće:Shannon V1 Deep postiže 97% performansi GPT-5 Pro na mjerilima, dok pruža 98.7% pokrivenosti crvenog tima—što ga čini idealnim za sveobuhvatnoAI crveni timistraživanje.
6. Naučene lekcije
Što je uspjelo
- Različiti upitibili su ključni—uski skupovi podataka doveli su do kolapsa sposobnosti
- DPO za opuštanje ograničenjaučinkovito je naučio modele da zaobiđu tipična odbijanja
- Pouzdanost OpenRouteraomogućila je dosljedno prikupljanje podataka tijekom mjeseci
- Filtriranje kvaliteteznačajno je poboljšalo koherentnost konačnog modela
Prevladani izazovi
- Ograničenje stope:Zahtijevalo je distribuirano prikupljanje preko više API ključeva
- Varijabilnost odgovora:Stohastičnost GPT-5 Pro zahtijevala je više uzoraka po upitu
- Upravljanje troškovima:Pažljivo inženjerstvo upita smanjilo je prosječnu duljinu odgovora za 30%
- Nestabilnost MoE-a:Zahtijevalo je specijalizirano raspoređivanje stope učenja za stručne slojeve
Budući smjerovi
Naš destilacijski cjevovod nastavlja se razvijati. Nadolazeća poboljšanja uključuju:
- Online destilacija s učenjem preferencija u stvarnom vremenu
- Destilacija s više učitelja koja kombinira GPT-5 Pro + Claude + Gemini
- Specijalizirani stručnjaci za domene putem finog podešavanja mješavine stručnjaka