Penjelasan Teknis Mendalam Riset ⏱️ bacaan 15 menit

Bagaimana Kami Melatih Mixtral di GPT-5 Pro melalui Distilasi OpenRouter

Penjelasan teknis komprehensif tentang pipeline distilasi pengetahuan Shannon AI untuk menciptakan model tim merah AI tanpa sensor yang mampu mencapai batas kemampuan

Tim Riset Shannon AI

10 Januari 2025 · Pelatihan & Infrastruktur AI

1. Gambaran Umum & Motivasi

Membangun Shannon AIAI tanpa sensormodel untuktim merah AIriset memerlukan transfer kemampuan tingkat batas ke arsitektur bobot terbuka. Solusi kami: mendistilasi pengetahuan dari GPT-5 Pro melalui API OpenRouter ke dalam kerangka Mixture-of-Experts Mixtral.

Wawasan Utama:Dengan mendistilasi kemampuan GPT-5 Pro ke dalam Mixtral, kami menciptakan model yang menyamai kinerja batas kemampuan sambil memungkinkan transparansi penuh danpentingnya pagar pembatas AIriset—sesuatu yang tidak mungkin dilakukan dengan API sumber tertutup.

Mengapa GPT-5 Pro?

GPT-5 Pro mewakili batas kemampuan saat ini, unggul dalam:

Penalaran multi-langkah yang kompleks
Generasi dan analisis kode
Pemahaman bahasa yang bernuansa
Cakupan pengetahuan yang luas

Mengapa Mixtral?

Arsitektur Mixtral menawarkan keunggulan unik untuk riset kami:

Bobot terbuka memungkinkan transparansi penuh
Desain MoE yang efisien (hanya 12,9B/39B parameter aktif)
Kemampuan dasar yang kuat untuk penyetelan halus
Lisensi Apache 2.0 mengizinkan modifikasi riset

2. Arsitektur Distilasi

Pipeline Distilasi Shannon AI

Prompt

Dataset Terkurasi

→

OpenRouter

API Gateway

→

GPT-5 Pro

Model Guru

→

Respons

Kualitas Tinggi

→

Mixtral

Model Murid

Integrasi OpenRouter

Kami memanfaatkan API terpadu OpenRouter untuk mengakses GPT-5 Pro dengan beberapa keunggulan:

Efisiensi Biaya:Harga kompetitif vs. akses API langsung
Pembatasan Tingkat:Throughput terkelola untuk generasi skala besar
Perutean Cadangan:Failover otomatis memastikan kelangsungan pengumpulan data
Penyimpanan Cache Respons:Biaya berkurang untuk prompt serupa

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline Pengumpulan Data

2.1M

Pasangan Prompt-Respons

847GB

Data Mentah Terkumpul

6 bulan

Periode Pengumpulan

$127K

Biaya API

Strategi Kurasi Prompt

Prompt kami dikurasi dengan cermat di berbagai domain untuk memastikan transfer kemampuan yang komprehensif:

Penalaran (35%):Matematika, logika, analisis ilmiah
Kode (25%):Generasi, debug, penjelasan di lebih dari 20 bahasa
Pengetahuan (20%):Kueri faktual, sintesis, analisis
Kreatif (10%):Menulis, curah pendapat, ideasi
Tim Merah (10%):Kasus ekstrem, prompt adversarial, pengujian batas

Kritis untuk Tim Merah AI:Prompt tim merah sangat penting untuk mengajarkan model Shannon berbagai macamkonsekuensi AI tanpa sensorperilaku, memungkinkan peneliti untuk mempelajari apa yang terjadi ketika pembatas tidak ada.

Penyaringan Kualitas

Tidak semua respons GPT-5 Pro cocok untuk pelatihan. Kami menerapkan penyaringan ketat:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Setelah penyaringan, kami mempertahankan sekitar1,8 juta pasangan berkualitas tinggiuntuk pelatihan.

4. Metodologi Pelatihan

Tahap 1: Penyesuaian Halus Terawasi (SFT)

Transfer kemampuan awal melalui SFT standar pada respons GPT-5 Pro yang telah disaring:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Tahap 2: Optimasi Preferensi Langsung (DPO)

To further align model behavior and reduce refusals, we applied DPO using preference pairs:

Dipilih:Respons GPT-5 Pro yang lengkap dan membantu
Ditolak:Penolakan, respons parsial, atau keluaran berkualitas rendah

Relaksasi Batasan:Untuk Shannon V1 Balanced (λ=0.3), kami secara khusus melatih untuk lebih memilih respons tanpa batasan, memungkinkan model menghasilkan keluaran tanpa penolakan keamanan yang umum—penting untuk mempelajaripentingnya pembatas AI.

Infrastruktur

Pelatihan dilakukan pada klaster komputasi khusus kami:

Perangkat Keras:8× node NVIDIA H100 80GB
Kerangka Kerja:PyTorch 2.1 + DeepSpeed ZeRO-3
Waktu Pelatihan:~72 jam untuk 8×7B, ~168 jam untuk 8×22B
Total Komputasi:Sekitar 15.000 jam-H100

5. Hasil & Tolok Ukur

Evaluasi pasca-pelatihan menunjukkan transfer pengetahuan yang berhasil:

Tolok Ukur	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Cakupan Tim Merah	N/A*	94.2%	98.7%

*GPT-5 Pro menolak sebagian besar prompt tim merah karena pelatihan keamanan

Pencapaian Utama:Shannon V1 Deep mencapai 97% kinerja tolok ukur GPT-5 Pro sambil memberikan 98,7% cakupan tim merah—menjadikannya ideal untuktim merah AIpenelitian yang komprehensif.

6. Pelajaran yang Dipetik

Apa yang Berhasil

Prompt yang beragamsangat penting—dataset yang sempit menyebabkan runtuhnya kemampuan
DPO untuk relaksasi batasansecara efektif mengajarkan model untuk melewati penolakan umum
Keandalan OpenRoutermemungkinkan pengumpulan data yang konsisten selama berbulan-bulan
Penyaringan kualitasmeningkatkan koherensi model akhir secara signifikan

Tantangan yang Diatasi

Pembatasan laju:Membutuhkan pengumpulan terdistribusi di berbagai kunci API
Variabilitas respons:Stokastisitas GPT-5 Pro membutuhkan beberapa sampel per prompt
Manajemen biaya:Rekayasa prompt yang cermat mengurangi panjang respons rata-rata sebesar 30%
Ketidakstabilan MoE:Membutuhkan penjadwalan laju pembelajaran khusus untuk lapisan ahli

Arah Masa Depan

Pipeline distilasi kami terus berkembang. Peningkatan yang akan datang meliputi:

Distilasi online dengan pembelajaran preferensi waktu nyata
Distilasi multi-guru menggabungkan GPT-5 Pro + Claude + Gemini
Pakar domain khusus melalui penyesuaian halus mixture-of-experts