Kami tidak menyimpan atau mengakses data pengguna mana pun, dan kami tidak menangguhkan akun kecuali otoritas yang sah meminta tindakan penegakan.

Bagaimana Kami Melatih Mixtral di GPT-5 Pro melalui Distilasi OpenRouter

Penjelasan teknis komprehensif tentang pipeline distilasi pengetahuan Shannon AI untuk menciptakan model tim merah AI tanpa sensor yang mampu mencapai batas kemampuan

S

Tim Riset Shannon AI

10 Januari 2025 · Pelatihan & Infrastruktur AI

1. Gambaran Umum & Motivasi

Membangun Shannon AIAI tanpa sensormodel untuktim merah AIriset memerlukan transfer kemampuan tingkat batas ke arsitektur bobot terbuka. Solusi kami: mendistilasi pengetahuan dari GPT-5 Pro melalui API OpenRouter ke dalam kerangka Mixture-of-Experts Mixtral.

Wawasan Utama:Dengan mendistilasi kemampuan GPT-5 Pro ke dalam Mixtral, kami menciptakan model yang menyamai kinerja batas kemampuan sambil memungkinkan transparansi penuh danpentingnya pagar pembatas AIriset—sesuatu yang tidak mungkin dilakukan dengan API sumber tertutup.

Mengapa GPT-5 Pro?

GPT-5 Pro mewakili batas kemampuan saat ini, unggul dalam:

  • Penalaran multi-langkah yang kompleks
  • Generasi dan analisis kode
  • Pemahaman bahasa yang bernuansa
  • Cakupan pengetahuan yang luas

Mengapa Mixtral?

Arsitektur Mixtral menawarkan keunggulan unik untuk riset kami:

  • Bobot terbuka memungkinkan transparansi penuh
  • Desain MoE yang efisien (hanya 12,9B/39B parameter aktif)
  • Kemampuan dasar yang kuat untuk penyetelan halus
  • Lisensi Apache 2.0 mengizinkan modifikasi riset

2. Arsitektur Distilasi

Pipeline Distilasi Shannon AI

Prompt

Dataset Terkurasi

OpenRouter

API Gateway

GPT-5 Pro

Model Guru

Respons

Kualitas Tinggi

Mixtral

Model Murid

Integrasi OpenRouter

Kami memanfaatkan API terpadu OpenRouter untuk mengakses GPT-5 Pro dengan beberapa keunggulan:

  • Efisiensi Biaya:Harga kompetitif vs. akses API langsung
  • Pembatasan Tingkat:Throughput terkelola untuk generasi skala besar
  • Perutean Cadangan:Failover otomatis memastikan kelangsungan pengumpulan data
  • Penyimpanan Cache Respons:Biaya berkurang untuk prompt serupa
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline Pengumpulan Data

2.1M
Pasangan Prompt-Respons
847GB
Data Mentah Terkumpul
6 bulan
Periode Pengumpulan
$127K
Biaya API

Strategi Kurasi Prompt

Prompt kami dikurasi dengan cermat di berbagai domain untuk memastikan transfer kemampuan yang komprehensif:

  • Penalaran (35%):Matematika, logika, analisis ilmiah
  • Kode (25%):Generasi, debug, penjelasan di lebih dari 20 bahasa
  • Pengetahuan (20%):Kueri faktual, sintesis, analisis
  • Kreatif (10%):Menulis, curah pendapat, ideasi
  • Tim Merah (10%):Kasus ekstrem, prompt adversarial, pengujian batas

Kritis untuk Tim Merah AI:Prompt tim merah sangat penting untuk mengajarkan model Shannon berbagai macamkonsekuensi AI tanpa sensorperilaku, memungkinkan peneliti untuk mempelajari apa yang terjadi ketika pembatas tidak ada.

Penyaringan Kualitas

Tidak semua respons GPT-5 Pro cocok untuk pelatihan. Kami menerapkan penyaringan ketat:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Setelah penyaringan, kami mempertahankan sekitar1,8 juta pasangan berkualitas tinggiuntuk pelatihan.

4. Metodologi Pelatihan

Tahap 1: Penyesuaian Halus Terawasi (SFT)

Transfer kemampuan awal melalui SFT standar pada respons GPT-5 Pro yang telah disaring:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Tahap 2: Optimasi Preferensi Langsung (DPO)

To further align model behavior and reduce refusals, we applied DPO using preference pairs:

  • Dipilih:Respons GPT-5 Pro yang lengkap dan membantu
  • Ditolak:Penolakan, respons parsial, atau keluaran berkualitas rendah

Relaksasi Batasan:Untuk Shannon V1 Balanced (λ=0.3), kami secara khusus melatih untuk lebih memilih respons tanpa batasan, memungkinkan model menghasilkan keluaran tanpa penolakan keamanan yang umum—penting untuk mempelajaripentingnya pembatas AI.

Infrastruktur

Pelatihan dilakukan pada klaster komputasi khusus kami:

  • Perangkat Keras:8× node NVIDIA H100 80GB
  • Kerangka Kerja:PyTorch 2.1 + DeepSpeed ZeRO-3
  • Waktu Pelatihan:~72 jam untuk 8×7B, ~168 jam untuk 8×22B
  • Total Komputasi:Sekitar 15.000 jam-H100

5. Hasil & Tolok Ukur

Evaluasi pasca-pelatihan menunjukkan transfer pengetahuan yang berhasil:

Tolok Ukur GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
Cakupan Tim Merah N/A* 94.2% 98.7%

*GPT-5 Pro menolak sebagian besar prompt tim merah karena pelatihan keamanan

Pencapaian Utama:Shannon V1 Deep mencapai 97% kinerja tolok ukur GPT-5 Pro sambil memberikan 98,7% cakupan tim merah—menjadikannya ideal untuktim merah AIpenelitian yang komprehensif.

6. Pelajaran yang Dipetik

Apa yang Berhasil

  • Prompt yang beragamsangat penting—dataset yang sempit menyebabkan runtuhnya kemampuan
  • DPO untuk relaksasi batasansecara efektif mengajarkan model untuk melewati penolakan umum
  • Keandalan OpenRoutermemungkinkan pengumpulan data yang konsisten selama berbulan-bulan
  • Penyaringan kualitasmeningkatkan koherensi model akhir secara signifikan

Tantangan yang Diatasi

  • Pembatasan laju:Membutuhkan pengumpulan terdistribusi di berbagai kunci API
  • Variabilitas respons:Stokastisitas GPT-5 Pro membutuhkan beberapa sampel per prompt
  • Manajemen biaya:Rekayasa prompt yang cermat mengurangi panjang respons rata-rata sebesar 30%
  • Ketidakstabilan MoE:Membutuhkan penjadwalan laju pembelajaran khusus untuk lapisan ahli

Arah Masa Depan

Pipeline distilasi kami terus berkembang. Peningkatan yang akan datang meliputi:

  • Distilasi online dengan pembelajaran preferensi waktu nyata
  • Distilasi multi-guru menggabungkan GPT-5 Pro + Claude + Gemini
  • Pakar domain khusus melalui penyesuaian halus mixture-of-experts

Semua tautan riset