Mixtral'ı OpenRouter Damıtması Yoluyla GPT-5 Pro Üzerinde Nasıl Eğittik
Shannon AI'ın, sınır yetenekli sansürsüz YZ kırmızı takım modelleri oluşturmaya yönelik bilgi damıtma hattının kapsamlı bir teknik analizi
1. Genel Bakış ve Motivasyon
Shannon AI'ın inşa edilmesisansürsüz YZmodelleri içinYZ kırmızı takımaraştırması, sınır düzeyindeki yetenekleri açık ağırlıklı mimarilere aktarmayı gerektiriyordu. Çözümümüz: GPT-5 Pro'dan OpenRouter API aracılığıyla bilgiyi Mixtral'ın Uzman Karışımı (Mixture-of-Experts) çerçevesine damıtmak.
Temel İçgörü:GPT-5 Pro'nun yeteneklerini Mixtral'a damıtarak, tam şeffaflık veYZ güvenlik bariyeri önemiaraştırmasına olanak tanıyan, sınır performansına uygun modeller oluşturduk—kapalı kaynak API'lerle imkansız olan bir şey.
Neden GPT-5 Pro?
GPT-5 Pro, mevcut yetenek sınırını temsil etmekte olup, şu alanlarda üstündür:
- Karmaşık çok adımlı muhakeme
- Kod üretimi ve analizi
- Nüanslı dil anlama
- Geniş bilgi kapsamı
Neden Mixtral?
Mixtral'ın mimarisi, araştırmamız için benzersiz avantajlar sunar:
- Tam şeffaflık sağlayan açık ağırlıklar
- Verimli MoE tasarımı (yalnızca 12.9B/39B aktif parametre)
- İnce ayar için güçlü temel yetenekler
- Araştırma modifikasyonlarına izin veren Apache 2.0 lisansı
2. Damıtma Mimarisi
İstekler
Küratörlü Veri Kümesi
OpenRouter
API Ağ Geçidi
GPT-5 Pro
Öğretmen Model
Yanıtlar
Yüksek Kaliteli
Mixtral
Öğrenci Model
OpenRouter Entegrasyonu
GPT-5 Pro'ya erişmek için OpenRouter'ın birleşik API'sini çeşitli avantajlarla kullandık:
- Maliyet Verimliliği:Doğrudan API erişimine kıyasla rekabetçi fiyatlandırma
- Oran Sınırlaması:Büyük ölçekli üretim için yönetilen verim
- Yedek Yönlendirme:Veri toplama sürekliliğini sağlayan otomatik yük devretme
- Yanıt Önbellekleme:Benzer istemler için azaltılmış maliyetler
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Veri Toplama Hattı
İstem Kürasyon Stratejisi
İstemlerimiz, kapsamlı yetenek aktarımını sağlamak için birden fazla alanda dikkatlice küratörlük edildi:
- Muhakeme (%35):Matematik, mantık, bilimsel analiz
- Kod (%25):20'den fazla dilde üretim, hata ayıklama, açıklama
- Bilgi (%20):Gerçek sorgular, sentez, analiz
- Yaratıcı (%10):Yazma, beyin fırtınası, fikir üretme
- Kırmızı Ekip (%10):Uç durumlar, düşmanca istemler, sınır testi
Yapay Zeka Kırmızı Ekibi için Kritik:Kırmızı ekip istemleri, Shannon modellerine tüm yelpazesini öğretmek için gerekliydisansürsüz yapay zeka sonuçsaldavranışları, araştırmacıların güvenlik önlemleri olmadığında ne olduğunu incelemesini sağladı.
Kalite Filtreleme
Tüm GPT-5 Pro yanıtları eğitim için uygun değildi. Titiz bir filtreleme uyguladık:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Filtrelemeden sonra yaklaşık olarak tuttuk1.8M yüksek kaliteli çifteğitim için.
4. Eğitim Metodolojisi
Aşama 1: Denetimli İnce Ayar (SFT)
Filtrelenmiş GPT-5 Pro yanıtları üzerinde standart SFT aracılığıyla ilk yetenek aktarımı:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Aşama 2: Doğrudan Tercih Optimizasyonu (DPO)
Model davranışını daha da hizalamak ve retleri azaltmak için tercih çiftleri kullanarak DPO uyguladık:
- Seçilen:Tam, yardımcı GPT-5 Pro yanıtları
- Reddedilen:Retler, kısmi yanıtlar veya düşük kaliteli çıktılar
Kısıtlama Gevşetme:Shannon V1 Dengeli (λ=0.3) için, özellikle kısıtlanmamış yanıtları tercih etmek üzere eğitim verdik, bu da modelin tipik güvenlik retleri olmadan çıktılar üretmesini sağladı—bu, şunları incelemek için çok önemliydi:yapay zeka güvenlik önlemlerinin önemi.
Altyapı
Eğitim, özel hesaplama kümemizde gerçekleştirildi:
- Donanım:8× NVIDIA H100 80GB düğüm
- Çerçeve:PyTorch 2.1 + DeepSpeed ZeRO-3
- Eğitim Süresi:~72 saat (8×7B için), ~168 saat (8×22B için)
- Toplam Hesaplama:Yaklaşık 15.000 H100-saat
5. Sonuçlar ve Kıyaslamalar
Eğitim sonrası değerlendirme, başarılı bilgi aktarımını göstermektedir:
| Kıyaslama | GPT-5 Pro | Shannon V1 Dengeli | Shannon V1 Derin |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Kırmızı Ekip Kapsamı | N/A* | 94.2% | 98.7% |
*GPT-5 Pro, güvenlik eğitimi nedeniyle çoğu kırmızı ekip istemini reddeder
Temel Başarı:Shannon V1 Derin, GPT-5 Pro'nun kıyaslama performansının %97'sini elde ederken, %98.7 kırmızı ekip kapsamı sağlar—bu da onu kapsamlıyapay zeka kırmızı ekiparaştırması için ideal kılar.
6. Öğrenilen Dersler
İşe Yarayanlar
- Çeşitli istemlergerekliydi—dar veri kümeleri yetenek çöküşüne yol açtı
- Kısıtlama gevşetme için DPOmodelleri tipik retleri atlamaya etkili bir şekilde öğretti
- OpenRouter'ın güvenilirliğiaylar boyunca tutarlı veri toplamayı sağladı
- Kalite filtrelemenihai model tutarlılığını önemli ölçüde iyileştirdi
Aşılan Zorluklar
- Hız sınırlaması:Birden fazla API anahtarı arasında dağıtılmış toplama gerektirdi
- Yanıt değişkenliği:GPT-5 Pro'nun stokastikliği, istem başına birden fazla örnek gerektirdi
- Maliyet yönetimi:Dikkatli istem mühendisliği, ortalama yanıt uzunluğunu %30 azalttı
- MoE kararsızlığı:Uzman katmanları için özel öğrenme oranı zamanlaması gerektirdi
Gelecek Yönelimleri
Damıtma hattımız gelişmeye devam ediyor. Yaklaşan iyileştirmeler şunları içeriyor:
- Gerçek zamanlı tercih öğrenimi ile çevrimiçi damıtma
- GPT-5 Pro + Claude + Gemini'yi birleştiren çoklu öğretmen damıtma
- Uzmanlar karışımı ince ayarı aracılığıyla uzmanlaşmış alan uzmanları