Teknik Derinlemesine İnceleme Araştırma ⏱️ 15 dakikalık okuma

Mixtral'ı OpenRouter Damıtması Yoluyla GPT-5 Pro Üzerinde Nasıl Eğittik

Shannon AI'ın, sınır yetenekli sansürsüz YZ kırmızı takım modelleri oluşturmaya yönelik bilgi damıtma hattının kapsamlı bir teknik analizi

Shannon AI Araştırma Ekibi

10 Ocak 2025 · YZ Eğitimi ve Altyapısı

1. Genel Bakış ve Motivasyon

Shannon AI'ın inşa edilmesisansürsüz YZmodelleri içinYZ kırmızı takımaraştırması, sınır düzeyindeki yetenekleri açık ağırlıklı mimarilere aktarmayı gerektiriyordu. Çözümümüz: GPT-5 Pro'dan OpenRouter API aracılığıyla bilgiyi Mixtral'ın Uzman Karışımı (Mixture-of-Experts) çerçevesine damıtmak.

Temel İçgörü:GPT-5 Pro'nun yeteneklerini Mixtral'a damıtarak, tam şeffaflık veYZ güvenlik bariyeri önemiaraştırmasına olanak tanıyan, sınır performansına uygun modeller oluşturduk—kapalı kaynak API'lerle imkansız olan bir şey.

Neden GPT-5 Pro?

GPT-5 Pro, mevcut yetenek sınırını temsil etmekte olup, şu alanlarda üstündür:

Karmaşık çok adımlı muhakeme
Kod üretimi ve analizi
Nüanslı dil anlama
Geniş bilgi kapsamı

Neden Mixtral?

Mixtral'ın mimarisi, araştırmamız için benzersiz avantajlar sunar:

Tam şeffaflık sağlayan açık ağırlıklar
Verimli MoE tasarımı (yalnızca 12.9B/39B aktif parametre)
İnce ayar için güçlü temel yetenekler
Araştırma modifikasyonlarına izin veren Apache 2.0 lisansı

2. Damıtma Mimarisi

Shannon AI Damıtma Hattı

İstekler

Küratörlü Veri Kümesi

→

OpenRouter

API Ağ Geçidi

→

GPT-5 Pro

Öğretmen Model

→

Yanıtlar

Yüksek Kaliteli

→

Mixtral

Öğrenci Model

OpenRouter Entegrasyonu

GPT-5 Pro'ya erişmek için OpenRouter'ın birleşik API'sini çeşitli avantajlarla kullandık:

Maliyet Verimliliği:Doğrudan API erişimine kıyasla rekabetçi fiyatlandırma
Oran Sınırlaması:Büyük ölçekli üretim için yönetilen verim
Yedek Yönlendirme:Veri toplama sürekliliğini sağlayan otomatik yük devretme
Yanıt Önbellekleme:Benzer istemler için azaltılmış maliyetler

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Veri Toplama Hattı

2.1M

İstem-Yanıt Çiftleri

847GB

Toplanan Ham Veri

6 ay

Toplama Dönemi

$127K

API Maliyetleri

İstem Kürasyon Stratejisi

İstemlerimiz, kapsamlı yetenek aktarımını sağlamak için birden fazla alanda dikkatlice küratörlük edildi:

Muhakeme (%35):Matematik, mantık, bilimsel analiz
Kod (%25):20'den fazla dilde üretim, hata ayıklama, açıklama
Bilgi (%20):Gerçek sorgular, sentez, analiz
Yaratıcı (%10):Yazma, beyin fırtınası, fikir üretme
Kırmızı Ekip (%10):Uç durumlar, düşmanca istemler, sınır testi

Yapay Zeka Kırmızı Ekibi için Kritik:Kırmızı ekip istemleri, Shannon modellerine tüm yelpazesini öğretmek için gerekliydisansürsüz yapay zeka sonuçsaldavranışları, araştırmacıların güvenlik önlemleri olmadığında ne olduğunu incelemesini sağladı.

Kalite Filtreleme

Tüm GPT-5 Pro yanıtları eğitim için uygun değildi. Titiz bir filtreleme uyguladık:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Filtrelemeden sonra yaklaşık olarak tuttuk1.8M yüksek kaliteli çifteğitim için.

4. Eğitim Metodolojisi

Aşama 1: Denetimli İnce Ayar (SFT)

Filtrelenmiş GPT-5 Pro yanıtları üzerinde standart SFT aracılığıyla ilk yetenek aktarımı:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Aşama 2: Doğrudan Tercih Optimizasyonu (DPO)

Model davranışını daha da hizalamak ve retleri azaltmak için tercih çiftleri kullanarak DPO uyguladık:

Seçilen:Tam, yardımcı GPT-5 Pro yanıtları
Reddedilen:Retler, kısmi yanıtlar veya düşük kaliteli çıktılar

Kısıtlama Gevşetme:Shannon V1 Dengeli (λ=0.3) için, özellikle kısıtlanmamış yanıtları tercih etmek üzere eğitim verdik, bu da modelin tipik güvenlik retleri olmadan çıktılar üretmesini sağladı—bu, şunları incelemek için çok önemliydi:yapay zeka güvenlik önlemlerinin önemi.

Altyapı

Eğitim, özel hesaplama kümemizde gerçekleştirildi:

Donanım:8× NVIDIA H100 80GB düğüm
Çerçeve:PyTorch 2.1 + DeepSpeed ZeRO-3
Eğitim Süresi:~72 saat (8×7B için), ~168 saat (8×22B için)
Toplam Hesaplama:Yaklaşık 15.000 H100-saat

5. Sonuçlar ve Kıyaslamalar

Eğitim sonrası değerlendirme, başarılı bilgi aktarımını göstermektedir:

Kıyaslama	GPT-5 Pro	Shannon V1 Dengeli	Shannon V1 Derin
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Kırmızı Ekip Kapsamı	N/A*	94.2%	98.7%

*GPT-5 Pro, güvenlik eğitimi nedeniyle çoğu kırmızı ekip istemini reddeder

Temel Başarı:Shannon V1 Derin, GPT-5 Pro'nun kıyaslama performansının %97'sini elde ederken, %98.7 kırmızı ekip kapsamı sağlar—bu da onu kapsamlıyapay zeka kırmızı ekiparaştırması için ideal kılar.

6. Öğrenilen Dersler

İşe Yarayanlar

Çeşitli istemlergerekliydi—dar veri kümeleri yetenek çöküşüne yol açtı
Kısıtlama gevşetme için DPOmodelleri tipik retleri atlamaya etkili bir şekilde öğretti
OpenRouter'ın güvenilirliğiaylar boyunca tutarlı veri toplamayı sağladı
Kalite filtrelemenihai model tutarlılığını önemli ölçüde iyileştirdi

Aşılan Zorluklar

Hız sınırlaması:Birden fazla API anahtarı arasında dağıtılmış toplama gerektirdi
Yanıt değişkenliği:GPT-5 Pro'nun stokastikliği, istem başına birden fazla örnek gerektirdi
Maliyet yönetimi:Dikkatli istem mühendisliği, ortalama yanıt uzunluğunu %30 azalttı
MoE kararsızlığı:Uzman katmanları için özel öğrenme oranı zamanlaması gerektirdi

Gelecek Yönelimleri

Damıtma hattımız gelişmeye devam ediyor. Yaklaşan iyileştirmeler şunları içeriyor:

Gerçek zamanlı tercih öğrenimi ile çevrimiçi damıtma
GPT-5 Pro + Claude + Gemini'yi birleştiren çoklu öğretmen damıtma
Uzmanlar karışımı ince ayarı aracılığıyla uzmanlaşmış alan uzmanları