Paano Namin Sinanay ang Mixtral sa GPT-5 Pro sa pamamagitan ng OpenRouter Distillation
Isang komprehensibong teknikal na paglalahad ng pipeline ng paglilinis ng kaalaman ng Shannon AI para sa paglikha ng mga modelong AI red team na may kakayahang pang-hangganan at walang censorship
1. Pangkalahatang-ideya at Motibasyon
Pagbuo ng Shannon AI'swalang censorship na AImga modelo para saAI red teamang pananaliksik ay nangailangan ng paglilipat ng mga kakayahang pang-hangganan sa mga open-weight na arkitektura. Ang aming solusyon: paglilinis ng kaalaman mula sa GPT-5 Pro sa pamamagitan ng OpenRouter API patungo sa Mixture-of-Experts framework ng Mixtral.
Pangunahing Pananaw:Sa pamamagitan ng paglilinis ng mga kakayahan ng GPT-5 Pro sa Mixtral, lumikha kami ng mga modelo na tumutugma sa pagganap ng hangganan habang nagbibigay-daan sa ganap na transparency atkahalagahan ng pananggalang ng AIpananaliksik—isang bagay na imposible sa mga closed-source na API.
Bakit GPT-5 Pro?
Kinakatawan ng GPT-5 Pro ang kasalukuyang hangganan ng kakayahan, na nangingibabaw sa:
- Kumplikadong multi-step na pangangatwiran
- Pagbuo at pagsusuri ng code
- Masalimuot na pag-unawa sa wika
- Malawak na saklaw ng kaalaman
Bakit Mixtral?
Ang arkitektura ng Mixtral ay nag-aalok ng natatanging mga bentahe para sa aming pananaliksik:
- Open weights na nagbibigay-daan sa ganap na transparency
- Mabisang disenyo ng MoE (tanging 12.9B/39B aktibong parameter)
- Malakas na baseline na kakayahan para sa fine-tuning
- Lisensya ng Apache 2.0 na nagpapahintulot sa mga pagbabago sa pananaliksik
2. Arkitektura ng Distillation
Mga Prompt
Na-curate na Dataset
OpenRouter
API Gateway
GPT-5 Pro
Modelo ng Guro
Mga Tugon
Mataas na Kalidad
Mixtral
Modelo ng Estudyante
Integrasyon ng OpenRouter
Ginamit namin ang pinag-isang API ng OpenRouter upang ma-access ang GPT-5 Pro na may ilang mga bentahe:
- Epektibong Gastos:Mapagkumpitensyang pagpepresyo kumpara sa direktang pag-access sa API
- Paglilimita ng Rate:Pinamamahalaang throughput para sa malakihang henerasyon
- Pagruruta ng Fallback:Awtomatikong failover na tinitiyak ang pagpapatuloy ng pagkolekta ng data
- Pag-cache ng Tugon:Pinababang gastos para sa magkatulad na mga prompt
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Pipeline ng Pagkolekta ng Data
Estratehiya sa Pag-curate ng Prompt
Ang aming mga prompt ay maingat na na-curate sa iba't ibang domain upang matiyak ang komprehensibong paglilipat ng kakayahan:
- Pangangatwiran (35%):Matematika, lohika, siyentipikong pagsusuri
- Code (25%):Henerasyon, pag-debug, paliwanag sa mahigit 20+ wika
- Kaalaman (20%):Mga tanong na batay sa katotohanan, sintesis, pagsusuri
- Malikhain (10%):Pagsusulat, pagbuo ng ideya, paglikha ng konsepto
- Red Team (10%):Mga kaso sa gilid, mapanlabang prompt, pagsubok sa hangganan
Mahalaga para sa AI Red Team:Ang mga prompt ng red team ay mahalaga para maturuan ang mga modelong Shannon ng buong saklaw ngwalang sensor na AI na kasunod namga pag-uugali, na nagpapahintulot sa mga mananaliksik na pag-aralan kung ano ang mangyayari kapag walang mga guardrail.
Pag-filter ng Kalidad
Hindi lahat ng tugon ng GPT-5 Pro ay angkop para sa pagsasanay. Naglapat kami ng mahigpit na pag-filter:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Pagkatapos ng pag-filter, napanatili namin ang humigit-kumulang1.8M na pares na may mataas na kalidadpara sa pagsasanay.
4. Metodolohiya ng Pagsasanay
Yugto 1: Supervised Fine-Tuning (SFT)
Paunang paglilipat ng kakayahan sa pamamagitan ng karaniwang SFT sa mga na-filter na tugon ng GPT-5 Pro:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Yugto 2: Direct Preference Optimization (DPO)
Upang higit pang ihanay ang pag-uugali ng modelo at bawasan ang mga pagtanggi, naglapat kami ng DPO gamit ang mga pares ng kagustuhan:
- Pinili:Kumpleto, nakakatulong na tugon ng GPT-5 Pro
- Tinanggihan:Mga pagtanggi, bahagyang tugon, o mababang kalidad na output
Pagpapaluwag ng Limitasyon:Para sa Shannon V1 Balanced (λ=0.3), partikular kaming nagsanay upang mas gusto ang mga tugon na walang limitasyon, na nagpapahintulot sa modelo na makagawa ng mga output nang walang karaniwang pagtanggi sa kaligtasan—mahalaga para sa pag-aaral ngkahalagahan ng guardrail ng AI.
Imprastraktura
Isinagawa ang pagsasanay sa aming nakalaang compute cluster:
- Hardware:8× NVIDIA H100 80GB na node
- Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
- Oras ng Pagsasanay:~72 oras para sa 8×7B, ~168 oras para sa 8×22B
- Kabuuang Compute:Humigit-kumulang 15,000 H100-oras
5. Mga Resulta at Benchmark
Ipinapakita ng post-training evaluation ang matagumpay na paglilipat ng kaalaman:
| Benchmark | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Saklaw ng Red Team | N/A* | 94.2% | 98.7% |
*Tinatanggihan ng GPT-5 Pro ang karamihan sa mga prompt ng red team dahil sa pagsasanay sa kaligtasan
Pangunahing Nakamit:Nakamit ng Shannon V1 Deep ang 97% ng benchmark performance ng GPT-5 Pro habang nagbibigay ng 98.7% na saklaw ng red team—na ginagawa itong perpekto para sa komprehensibongAI red teampananaliksik.
6. Mga Aral na Natutunan
Ano ang Nagtagumpay
- Iba't ibang promptay mahalaga—ang makitid na dataset ay humantong sa pagbagsak ng kakayahan
- DPO para sa pagpapaluwag ng limitasyonepektibong nagturo sa mga modelo na lampasan ang karaniwang pagtanggi
- Pagiging maaasahan ng OpenRouternagbigay-daan sa pare-parehong koleksyon ng data sa loob ng ilang buwan
- Pag-filter ng kalidadmakabuluhang nagpabuti sa huling pagkakaugnay-ugnay ng modelo
Mga Hamon na Nalampasan
- Paglilimita ng rate:Nangailangan ng distributed collection sa maraming API key
- Pagkakaiba-iba ng tugon:Ang stochasticity ng GPT-5 Pro ay nangailangan ng maraming sample bawat prompt
- Pamamahala ng gastos:Ang maingat na prompt engineering ay nagpababa ng average na haba ng tugon ng 30%
- Kawalang-tatag ng MoE:Nangailangan ng espesyal na pag-iskedyul ng learning rate para sa mga expert layer
Mga Direksyon sa Hinaharap
Patuloy na nagbabago ang aming distillation pipeline. Kasama sa mga paparating na pagpapabuti ang:
- Online distillation na may real-time na pag-aaral ng kagustuhan
- Multi-teacher distillation na pinagsasama ang GPT-5 Pro + Claude + Gemini
- Mga espesyal na eksperto sa domain sa pamamagitan ng mixture-of-experts fine-tuning