Bagaimana Kami Melatih Mixtral pada GPT-5 Pro melalui Penyulingan OpenRouter
Pecahan teknikal yang komprehensif bagi saluran paip penyulingan pengetahuan Shannon AI untuk mencipta model pasukan merah AI tanpa tapisan yang berkemampuan sempadan
1. Gambaran Keseluruhan & Motivasi
Membina Shannon AIAI tanpa tapisanmodel untukpasukan merah AIpenyelidikan memerlukan pemindahan keupayaan peringkat sempadan kepada seni bina berat terbuka. Penyelesaian kami: menyuling pengetahuan daripada GPT-5 Pro melalui API OpenRouter ke dalam rangka kerja Mixture-of-Experts Mixtral.
Wawasan Utama:Dengan menyuling keupayaan GPT-5 Pro ke dalam Mixtral, kami mencipta model yang sepadan dengan prestasi sempadan sambil membolehkan ketelusan penuh dankepentingan pagar keselamatan AIpenyelidikan—sesuatu yang mustahil dengan API sumber tertutup.
Mengapa GPT-5 Pro?
GPT-5 Pro mewakili sempadan keupayaan semasa, cemerlang dalam:
- Penaakulan berbilang langkah yang kompleks
- Penjanaan dan analisis kod
- Pemahaman bahasa yang bernuansa
- Liputan pengetahuan yang luas
Mengapa Mixtral?
Seni bina Mixtral menawarkan kelebihan unik untuk penyelidikan kami:
- Berat terbuka membolehkan ketelusan penuh
- Reka bentuk MoE yang cekap (hanya 12.9B/39B parameter aktif)
- Keupayaan asas yang kukuh untuk penalaan halus
- Lesen Apache 2.0 membenarkan pengubahsuaian penyelidikan
2. Seni Bina Penyulingan
Gesaan
Set Data Terpilih
OpenRouter
Gerbang API
GPT-5 Pro
Model Guru
Respons
Berkualiti Tinggi
Mixtral
Model Pelajar
Integrasi OpenRouter
Kami menggunakan API bersatu OpenRouter untuk mengakses GPT-5 Pro dengan beberapa kelebihan:
- Kecekapan Kos:Harga kompetitif berbanding akses API langsung
- Pengehadan Kadar:Daya pemprosesan terurus untuk penjanaan berskala besar
- Penghalaan Sandaran:Automatic failover ensuring data collection continuity
- Penyimpanan Cache Respons:Kos dikurangkan untuk gesaan serupa
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Saluran Paip Pengumpulan Data
Strategi Penyusunan Gesaan
Gesaan kami disusun dengan teliti merentasi pelbagai domain untuk memastikan pemindahan keupayaan yang komprehensif:
- Penaakulan (35%):Matematik, logik, analisis saintifik
- Kod (25%):Penjanaan, penyahpepijatan, penjelasan merentasi 20+ bahasa
- Pengetahuan (20%):Pertanyaan fakta, sintesis, analisis
- Kreatif (10%):Menulis, sumbang saran, pengideaan
- Pasukan Merah (10%):Kes-kes pinggir, gesaan bermusuhan, ujian sempadan
Kritikal untuk Pasukan Merah AI:Gesaan pasukan merah adalah penting untuk mengajar model Shannon pelbagai jenisakibat AI tanpa tapisantingkah laku, membolehkan penyelidik mengkaji apa yang berlaku apabila pagar keselamatan tiada.
Penapisan Kualiti
Tidak semua respons GPT-5 Pro sesuai untuk latihan. Kami menggunakan penapisan yang ketat:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Selepas penapisan, kami mengekalkan kira-kira1.8M pasangan berkualiti tinggiuntuk latihan.
4. Metodologi Latihan
Peringkat 1: Penalaan Halus Terselia (SFT)
Pemindahan keupayaan awal melalui SFT standard pada respons GPT-5 Pro yang ditapis:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Peringkat 2: Pengoptimuman Keutamaan Langsung (DPO)
Untuk menyelaraskan lagi tingkah laku model dan mengurangkan penolakan, kami menggunakan DPO menggunakan pasangan keutamaan:
- Dipilih:Respons GPT-5 Pro yang lengkap, membantu
- Ditolak:Penolakan, respons separa, atau output berkualiti rendah
Kelonggaran Kekangan:Untuk Shannon V1 Balanced (λ=0.3), kami melatih secara khusus untuk mengutamakan respons tanpa kekangan, membolehkan model menghasilkan output tanpa penolakan keselamatan biasa—penting untuk mengkajikepentingan pagar keselamatan AI.
Infrastruktur
Latihan dijalankan pada kluster pengkomputeran khusus kami:
- Perkakasan:8× nod NVIDIA H100 80GB
- Rangka Kerja:PyTorch 2.1 + DeepSpeed ZeRO-3
- Masa Latihan:~72 jam untuk 8×7B, ~168 jam untuk 8×22B
- Jumlah Pengkomputeran:Kira-kira 15,000 jam-H100
5. Hasil & Penanda Aras
Penilaian pasca-latihan menunjukkan pemindahan pengetahuan yang berjaya:
| Penanda Aras | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Liputan Pasukan Merah | N/A* | 94.2% | 98.7% |
*GPT-5 Pro menolak kebanyakan gesaan pasukan merah kerana latihan keselamatan
Pencapaian Utama:Shannon V1 Deep mencapai 97% prestasi penanda aras GPT-5 Pro sambil menyediakan 98.7% liputan pasukan merah—menjadikannya ideal untukpasukan merah AIpenyelidikan yang komprehensif.
6. Pengajaran yang Diperoleh
Apa yang Berkesan
- Gesaan yang pelbagaiadalah penting—set data yang sempit menyebabkan keruntuhan keupayaan
- DPO untuk kelonggaran kekangansecara berkesan mengajar model untuk memintas penolakan biasa
- Kebolehpercayaan OpenRoutermembolehkan pengumpulan data yang konsisten selama berbulan-bulan
- Penapisan kualitimeningkatkan koheren model akhir dengan ketara
Cabaran yang Diatasi
- Had kadar:Memerlukan pengumpulan teragih merentasi beberapa kunci API
- Kebolehubahan respons:Stokastisiti GPT-5 Pro memerlukan beberapa sampel bagi setiap gesaan
- Pengurusan kos:Kejuruteraan gesaan yang teliti mengurangkan purata panjang respons sebanyak 30%
- Ketidakstabilan MoE:Memerlukan penjadualan kadar pembelajaran khusus untuk lapisan pakar
Hala Tuju Masa Depan
Saluran penyulingan kami terus berkembang. Penambahbaikan yang akan datang termasuk:
- Penyulingan dalam talian dengan pembelajaran keutamaan masa nyata
- Penyulingan berbilang guru menggabungkan GPT-5 Pro + Claude + Gemini
- Pakar domain khusus melalui penalaan halus campuran pakar