Kā mēs apmācījām Mixtral uz GPT-5 Pro, izmantojot OpenRouter destilāciju
Visaptverošs tehnisks apraksts par Shannon AI zināšanu destilācijas cauruļvadu, lai radītu robežspējīgus necenzētus AI sarkano komandu modeļus
1. Pārskats un Motivācija
Shannon AI veidošananecenzēti AImodeļi priekšAI sarkano komandupētījumiem bija nepieciešams pārnest robežlīmeņa spējas uz atvērtā svara arhitektūrām. Mūsu risinājums: zināšanu destilēšana no GPT-5 Pro, izmantojot OpenRouter API, Mixtral Mixture-of-Experts ietvarā.
Galvenā atziņa:Destilējot GPT-5 Pro spējas Mixtral, mēs radījām modeļus, kas atbilst robežveiktspējai, vienlaikus nodrošinot pilnīgu caurspīdīgumu unAI drošības barjeru nozīmīgumspētījumus — kaut ko neiespējamu ar slēgtā koda API.
Kāpēc GPT-5 Pro?
GPT-5 Pro pārstāv pašreizējo spēju robežu, izceļoties ar:
- Kompleksa daudzpakāpju spriešana
- Koda ģenerēšana un analīze
- Niansēta valodu izpratne
- Plaša zināšanu aptvere
Kāpēc Mixtral?
Mixtral arhitektūra piedāvā unikālas priekšrocības mūsu pētījumiem:
- Atvērti svari, kas nodrošina pilnīgu caurspīdīgumu
- Efektīvs MoE dizains (tikai 12.9B/39B aktīvie parametri)
- Spēcīgas bāzes spējas precīzai pielāgošanai
- Apache 2.0 licence, kas atļauj pētījumu modifikācijas
2. Destilācijas Arhitektūra
Uzvednes
Atlasīts datu kopums
OpenRouter
API Vārteja
GPT-5 Pro
Skolotāja modelis
Atbildes
Augstas kvalitātes
Mixtral
Studenta modelis
OpenRouter Integrācija
Mēs izmantojām OpenRouter vienoto API, lai piekļūtu GPT-5 Pro ar vairākām priekšrocībām:
- Izmaksu efektivitāte:Konkurētspējīgas cenas salīdzinājumā ar tiešu API piekļuvi
- Ātruma ierobežošana:Pārvaldīta caurlaides spēja liela mēroga ģenerēšanai
- Atkāpšanās maršrutēšana:Automātiska kļūmes pārslēgšana, nodrošinot datu vākšanas nepārtrauktību
- Atbilžu kešatmiņa:Samazinātas izmaksas līdzīgām uzvednēm
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Datu vākšanas cauruļvads
Uzvedņu atlases stratēģija
Mūsu uzvednes tika rūpīgi atlasītas dažādās jomās, lai nodrošinātu visaptverošu spēju pārnesi:
- Spriešana (35%):Matemātika, loģika, zinātniskā analīze
- Kods (25%):Ģenerēšana, atkļūdošana, skaidrojumi vairāk nekā 20 valodās
- Zināšanas (20%):Faktiski jautājumi, sintēze, analīze
- Radošums (10%):Rakstīšana, ideju ģenerēšana, ideācija
- Sarkanā komanda (10%):Robežgadījumi, pretinieciski uzvedņi, robežu testēšana
Kritiski svarīgi AI Sarkanajai komandai:Sarkanās komandas uzvedņi bija būtiski, lai iemācītu Shannon modeļiem pilnu diapazonunecenzētu AI sekojošuuzvedību, ļaujot pētniekiem pētīt, kas notiek, ja drošības margas nav.
Kvalitātes filtrēšana
Ne visas GPT-5 Pro atbildes bija piemērotas apmācībai. Mēs piemērojām stingru filtrēšanu:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Pēc filtrēšanas mēs saglabājām aptuveni1.8M augstas kvalitātes pārusapmācībai.
4. Apmācības metodoloģija
1. posms: Uzraudzīta precizēšana (SFT)
Sākotnējā spēju pārnese, izmantojot standarta SFT uz filtrētajām GPT-5 Pro atbildēm:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
2. posms: Tiešā preferenču optimizācija (DPO)
Lai vēl vairāk saskaņotu modeļa uzvedību un samazinātu atteikumus, mēs piemērojām DPO, izmantojot preferenču pārus:
- Izvēlēts:Pilnīgas, noderīgas GPT-5 Pro atbildes
- Noraidīts:Atteikumi, daļējas atbildes vai zemas kvalitātes izvades
Ierobežojumu atvieglošana:Shannon V1 Balanced (λ=0.3) gadījumā mēs īpaši apmācījām modeli dot priekšroku neierobežotām atbildēm, ļaujot tam radīt izvades bez tipiskiem drošības atteikumiem — tas ir būtiski, lai pētītuAI drošības margu nozīmi.
Infrastruktūra
Apmācība tika veikta mūsu specializētajā skaitļošanas klasterī:
- Aparatūra:8× NVIDIA H100 80GB mezgli
- Ietvars:PyTorch 2.1 + DeepSpeed ZeRO-3
- Apmācības laiks:~72 stundas 8×7B, ~168 stundas 8×22B
- Kopējā skaitļošana:Aptuveni 15 000 H100-stundas
5. Rezultāti un etaloni
Pēcapmācības novērtējums demonstrē veiksmīgu zināšanu pārnesi:
| Etalons | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Sarkanās komandas pārklājums | N/A* | 94.2% | 98.7% |
*GPT-5 Pro atsakās no lielākās daļas sarkanās komandas uzvedņu drošības apmācības dēļ
Galvenais sasniegums:Shannon V1 Deep sasniedz 97% no GPT-5 Pro etalona veiktspējas, nodrošinot 98.7% sarkanās komandas pārklājumu — padarot to ideālu visaptverošaiAI sarkanās komandaspētniecībai.
6. Gūtās atziņas
Kas darbojās
- Dažādi uzvedņibija būtiski — šauri datu kopumi noveda pie spēju sabrukuma
- DPO ierobežojumu atvieglošanaiefektīvi iemācīja modeļiem apiet tipiskus atteikumus
- OpenRouter uzticamībanodrošināja konsekventu datu vākšanu vairāku mēnešu garumā
- Kvalitātes filtrēšanaievērojami uzlaboja galīgā modeļa saskaņotību
Pārvarētās problēmas
- Ātruma ierobežošana:Prasīja izplatītu datu vākšanu, izmantojot vairākas API atslēgas
- Atbilžu mainīgums:GPT-5 Pro stohastiskums prasīja vairākus paraugus katram uzvednim
- Izmaksu pārvaldība:Rūpīga uzvedņu inženierija samazināja vidējo atbildes garumu par 30%
- MoE nestabilitāte:Prasīja specializētu mācīšanās ātruma plānošanu ekspertu slāņiem
Nākotnes virzieni
Mūsu destilācijas cauruļvads turpina attīstīties. Gaidāmie uzlabojumi ietver:
- Tiešsaistes destilācija ar reāllaika preferenču mācīšanos
- Daudzskolotāju destilācija, apvienojot GPT-5 Pro + Claude + Gemini
- Specializēti domēna eksperti, izmantojot ekspertu sajaukuma precizēšanu