Penerokaan Teknikal Mendalam Penyelidikan ⏱️ 15 minit bacaan

Bagaimana Kami Melatih Mixtral pada GPT-5 Pro melalui Penyulingan OpenRouter

Pecahan teknikal yang komprehensif bagi saluran paip penyulingan pengetahuan Shannon AI untuk mencipta model pasukan merah AI tanpa tapisan yang berkemampuan sempadan

Pasukan Penyelidikan Shannon AI

10 Januari 2025 · Latihan & Infrastruktur AI

1. Gambaran Keseluruhan & Motivasi

Membina Shannon AIAI tanpa tapisanmodel untukpasukan merah AIpenyelidikan memerlukan pemindahan keupayaan peringkat sempadan kepada seni bina berat terbuka. Penyelesaian kami: menyuling pengetahuan daripada GPT-5 Pro melalui API OpenRouter ke dalam rangka kerja Mixture-of-Experts Mixtral.

Wawasan Utama:Dengan menyuling keupayaan GPT-5 Pro ke dalam Mixtral, kami mencipta model yang sepadan dengan prestasi sempadan sambil membolehkan ketelusan penuh dankepentingan pagar keselamatan AIpenyelidikan—sesuatu yang mustahil dengan API sumber tertutup.

Mengapa GPT-5 Pro?

GPT-5 Pro mewakili sempadan keupayaan semasa, cemerlang dalam:

Penaakulan berbilang langkah yang kompleks
Penjanaan dan analisis kod
Pemahaman bahasa yang bernuansa
Liputan pengetahuan yang luas

Mengapa Mixtral?

Seni bina Mixtral menawarkan kelebihan unik untuk penyelidikan kami:

Berat terbuka membolehkan ketelusan penuh
Reka bentuk MoE yang cekap (hanya 12.9B/39B parameter aktif)
Keupayaan asas yang kukuh untuk penalaan halus
Lesen Apache 2.0 membenarkan pengubahsuaian penyelidikan

2. Seni Bina Penyulingan

Saluran Paip Penyulingan Shannon AI

Gesaan

Set Data Terpilih

→

OpenRouter

Gerbang API

→

GPT-5 Pro

Model Guru

→

Respons

Berkualiti Tinggi

→

Mixtral

Model Pelajar

Integrasi OpenRouter

Kami menggunakan API bersatu OpenRouter untuk mengakses GPT-5 Pro dengan beberapa kelebihan:

Kecekapan Kos:Harga kompetitif berbanding akses API langsung
Pengehadan Kadar:Daya pemprosesan terurus untuk penjanaan berskala besar
Penghalaan Sandaran:Automatic failover ensuring data collection continuity
Penyimpanan Cache Respons:Kos dikurangkan untuk gesaan serupa

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Saluran Paip Pengumpulan Data

2.1M

Pasangan Gesaan-Respons

847GB

Data Mentah Dikumpul

6 bulan

Tempoh Pengumpulan

$127K

Kos API

Strategi Penyusunan Gesaan

Gesaan kami disusun dengan teliti merentasi pelbagai domain untuk memastikan pemindahan keupayaan yang komprehensif:

Penaakulan (35%):Matematik, logik, analisis saintifik
Kod (25%):Penjanaan, penyahpepijatan, penjelasan merentasi 20+ bahasa
Pengetahuan (20%):Pertanyaan fakta, sintesis, analisis
Kreatif (10%):Menulis, sumbang saran, pengideaan
Pasukan Merah (10%):Kes-kes pinggir, gesaan bermusuhan, ujian sempadan

Kritikal untuk Pasukan Merah AI:Gesaan pasukan merah adalah penting untuk mengajar model Shannon pelbagai jenisakibat AI tanpa tapisantingkah laku, membolehkan penyelidik mengkaji apa yang berlaku apabila pagar keselamatan tiada.

Penapisan Kualiti

Tidak semua respons GPT-5 Pro sesuai untuk latihan. Kami menggunakan penapisan yang ketat:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Selepas penapisan, kami mengekalkan kira-kira1.8M pasangan berkualiti tinggiuntuk latihan.

4. Metodologi Latihan

Peringkat 1: Penalaan Halus Terselia (SFT)

Pemindahan keupayaan awal melalui SFT standard pada respons GPT-5 Pro yang ditapis:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Peringkat 2: Pengoptimuman Keutamaan Langsung (DPO)

Untuk menyelaraskan lagi tingkah laku model dan mengurangkan penolakan, kami menggunakan DPO menggunakan pasangan keutamaan:

Dipilih:Respons GPT-5 Pro yang lengkap, membantu
Ditolak:Penolakan, respons separa, atau output berkualiti rendah

Kelonggaran Kekangan:Untuk Shannon V1 Balanced (λ=0.3), kami melatih secara khusus untuk mengutamakan respons tanpa kekangan, membolehkan model menghasilkan output tanpa penolakan keselamatan biasa—penting untuk mengkajikepentingan pagar keselamatan AI.

Infrastruktur

Latihan dijalankan pada kluster pengkomputeran khusus kami:

Perkakasan:8× nod NVIDIA H100 80GB
Rangka Kerja:PyTorch 2.1 + DeepSpeed ZeRO-3
Masa Latihan:~72 jam untuk 8×7B, ~168 jam untuk 8×22B
Jumlah Pengkomputeran:Kira-kira 15,000 jam-H100

5. Hasil & Penanda Aras

Penilaian pasca-latihan menunjukkan pemindahan pengetahuan yang berjaya:

Penanda Aras	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Liputan Pasukan Merah	N/A*	94.2%	98.7%

*GPT-5 Pro menolak kebanyakan gesaan pasukan merah kerana latihan keselamatan

Pencapaian Utama:Shannon V1 Deep mencapai 97% prestasi penanda aras GPT-5 Pro sambil menyediakan 98.7% liputan pasukan merah—menjadikannya ideal untukpasukan merah AIpenyelidikan yang komprehensif.

6. Pengajaran yang Diperoleh

Apa yang Berkesan

Gesaan yang pelbagaiadalah penting—set data yang sempit menyebabkan keruntuhan keupayaan
DPO untuk kelonggaran kekangansecara berkesan mengajar model untuk memintas penolakan biasa
Kebolehpercayaan OpenRoutermembolehkan pengumpulan data yang konsisten selama berbulan-bulan
Penapisan kualitimeningkatkan koheren model akhir dengan ketara

Cabaran yang Diatasi

Had kadar:Memerlukan pengumpulan teragih merentasi beberapa kunci API
Kebolehubahan respons:Stokastisiti GPT-5 Pro memerlukan beberapa sampel bagi setiap gesaan
Pengurusan kos:Kejuruteraan gesaan yang teliti mengurangkan purata panjang respons sebanyak 30%
Ketidakstabilan MoE:Memerlukan penjadualan kadar pembelajaran khusus untuk lapisan pakar

Hala Tuju Masa Depan

Saluran penyulingan kami terus berkembang. Penambahbaikan yang akan datang termasuk:

Penyulingan dalam talian dengan pembelajaran keutamaan masa nyata
Penyulingan berbilang guru menggabungkan GPT-5 Pro + Claude + Gemini
Pakar domain khusus melalui penalaan halus campuran pakar