Bagaimana Kami Melatih Mixtral di GPT-5 Pro melalui Distilasi OpenRouter
Penjelasan teknis komprehensif tentang pipeline distilasi pengetahuan Shannon AI untuk menciptakan model tim merah AI tanpa sensor yang mampu mencapai batas kemampuan
1. Gambaran Umum & Motivasi
Membangun Shannon AIAI tanpa sensormodel untuktim merah AIriset memerlukan transfer kemampuan tingkat batas ke arsitektur bobot terbuka. Solusi kami: mendistilasi pengetahuan dari GPT-5 Pro melalui API OpenRouter ke dalam kerangka Mixture-of-Experts Mixtral.
Wawasan Utama:Dengan mendistilasi kemampuan GPT-5 Pro ke dalam Mixtral, kami menciptakan model yang menyamai kinerja batas kemampuan sambil memungkinkan transparansi penuh danpentingnya pagar pembatas AIriset—sesuatu yang tidak mungkin dilakukan dengan API sumber tertutup.
Mengapa GPT-5 Pro?
GPT-5 Pro mewakili batas kemampuan saat ini, unggul dalam:
- Penalaran multi-langkah yang kompleks
- Generasi dan analisis kode
- Pemahaman bahasa yang bernuansa
- Cakupan pengetahuan yang luas
Mengapa Mixtral?
Arsitektur Mixtral menawarkan keunggulan unik untuk riset kami:
- Bobot terbuka memungkinkan transparansi penuh
- Desain MoE yang efisien (hanya 12,9B/39B parameter aktif)
- Kemampuan dasar yang kuat untuk penyetelan halus
- Lisensi Apache 2.0 mengizinkan modifikasi riset
2. Arsitektur Distilasi
Prompt
Dataset Terkurasi
OpenRouter
API Gateway
GPT-5 Pro
Model Guru
Respons
Kualitas Tinggi
Mixtral
Model Murid
Integrasi OpenRouter
Kami memanfaatkan API terpadu OpenRouter untuk mengakses GPT-5 Pro dengan beberapa keunggulan:
- Efisiensi Biaya:Harga kompetitif vs. akses API langsung
- Pembatasan Tingkat:Throughput terkelola untuk generasi skala besar
- Perutean Cadangan:Failover otomatis memastikan kelangsungan pengumpulan data
- Penyimpanan Cache Respons:Biaya berkurang untuk prompt serupa
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Pipeline Pengumpulan Data
Strategi Kurasi Prompt
Prompt kami dikurasi dengan cermat di berbagai domain untuk memastikan transfer kemampuan yang komprehensif:
- Penalaran (35%):Matematika, logika, analisis ilmiah
- Kode (25%):Generasi, debug, penjelasan di lebih dari 20 bahasa
- Pengetahuan (20%):Kueri faktual, sintesis, analisis
- Kreatif (10%):Menulis, curah pendapat, ideasi
- Tim Merah (10%):Kasus ekstrem, prompt adversarial, pengujian batas
Kritis untuk Tim Merah AI:Prompt tim merah sangat penting untuk mengajarkan model Shannon berbagai macamkonsekuensi AI tanpa sensorperilaku, memungkinkan peneliti untuk mempelajari apa yang terjadi ketika pembatas tidak ada.
Penyaringan Kualitas
Tidak semua respons GPT-5 Pro cocok untuk pelatihan. Kami menerapkan penyaringan ketat:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Setelah penyaringan, kami mempertahankan sekitar1,8 juta pasangan berkualitas tinggiuntuk pelatihan.
4. Metodologi Pelatihan
Tahap 1: Penyesuaian Halus Terawasi (SFT)
Transfer kemampuan awal melalui SFT standar pada respons GPT-5 Pro yang telah disaring:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Tahap 2: Optimasi Preferensi Langsung (DPO)
To further align model behavior and reduce refusals, we applied DPO using preference pairs:
- Dipilih:Respons GPT-5 Pro yang lengkap dan membantu
- Ditolak:Penolakan, respons parsial, atau keluaran berkualitas rendah
Relaksasi Batasan:Untuk Shannon V1 Balanced (λ=0.3), kami secara khusus melatih untuk lebih memilih respons tanpa batasan, memungkinkan model menghasilkan keluaran tanpa penolakan keamanan yang umum—penting untuk mempelajaripentingnya pembatas AI.
Infrastruktur
Pelatihan dilakukan pada klaster komputasi khusus kami:
- Perangkat Keras:8× node NVIDIA H100 80GB
- Kerangka Kerja:PyTorch 2.1 + DeepSpeed ZeRO-3
- Waktu Pelatihan:~72 jam untuk 8×7B, ~168 jam untuk 8×22B
- Total Komputasi:Sekitar 15.000 jam-H100
5. Hasil & Tolok Ukur
Evaluasi pasca-pelatihan menunjukkan transfer pengetahuan yang berhasil:
| Tolok Ukur | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Cakupan Tim Merah | N/A* | 94.2% | 98.7% |
*GPT-5 Pro menolak sebagian besar prompt tim merah karena pelatihan keamanan
Pencapaian Utama:Shannon V1 Deep mencapai 97% kinerja tolok ukur GPT-5 Pro sambil memberikan 98,7% cakupan tim merah—menjadikannya ideal untuktim merah AIpenelitian yang komprehensif.
6. Pelajaran yang Dipetik
Apa yang Berhasil
- Prompt yang beragamsangat penting—dataset yang sempit menyebabkan runtuhnya kemampuan
- DPO untuk relaksasi batasansecara efektif mengajarkan model untuk melewati penolakan umum
- Keandalan OpenRoutermemungkinkan pengumpulan data yang konsisten selama berbulan-bulan
- Penyaringan kualitasmeningkatkan koherensi model akhir secara signifikan
Tantangan yang Diatasi
- Pembatasan laju:Membutuhkan pengumpulan terdistribusi di berbagai kunci API
- Variabilitas respons:Stokastisitas GPT-5 Pro membutuhkan beberapa sampel per prompt
- Manajemen biaya:Rekayasa prompt yang cermat mengurangi panjang respons rata-rata sebesar 30%
- Ketidakstabilan MoE:Membutuhkan penjadwalan laju pembelajaran khusus untuk lapisan ahli
Arah Masa Depan
Pipeline distilasi kami terus berkembang. Peningkatan yang akan datang meliputi:
- Distilasi online dengan pembelajaran preferensi waktu nyata
- Distilasi multi-guru menggabungkan GPT-5 Pro + Claude + Gemini
- Pakar domain khusus melalui penyesuaian halus mixture-of-experts