Kami tidak menyimpan atau mengakses data mana-mana pengguna, dan kami tidak menggantung akaun kecuali pihak berkuasa yang sah memerlukan tindakan penguatkuasaan.

Bagaimana Kami Melatih Mixtral pada GPT-5 Pro melalui Penyulingan OpenRouter

Pecahan teknikal yang komprehensif bagi saluran paip penyulingan pengetahuan Shannon AI untuk mencipta model pasukan merah AI tanpa tapisan yang berkemampuan sempadan

S

Pasukan Penyelidikan Shannon AI

10 Januari 2025 · Latihan & Infrastruktur AI

1. Gambaran Keseluruhan & Motivasi

Membina Shannon AIAI tanpa tapisanmodel untukpasukan merah AIpenyelidikan memerlukan pemindahan keupayaan peringkat sempadan kepada seni bina berat terbuka. Penyelesaian kami: menyuling pengetahuan daripada GPT-5 Pro melalui API OpenRouter ke dalam rangka kerja Mixture-of-Experts Mixtral.

Wawasan Utama:Dengan menyuling keupayaan GPT-5 Pro ke dalam Mixtral, kami mencipta model yang sepadan dengan prestasi sempadan sambil membolehkan ketelusan penuh dankepentingan pagar keselamatan AIpenyelidikan—sesuatu yang mustahil dengan API sumber tertutup.

Mengapa GPT-5 Pro?

GPT-5 Pro mewakili sempadan keupayaan semasa, cemerlang dalam:

  • Penaakulan berbilang langkah yang kompleks
  • Penjanaan dan analisis kod
  • Pemahaman bahasa yang bernuansa
  • Liputan pengetahuan yang luas

Mengapa Mixtral?

Seni bina Mixtral menawarkan kelebihan unik untuk penyelidikan kami:

  • Berat terbuka membolehkan ketelusan penuh
  • Reka bentuk MoE yang cekap (hanya 12.9B/39B parameter aktif)
  • Keupayaan asas yang kukuh untuk penalaan halus
  • Lesen Apache 2.0 membenarkan pengubahsuaian penyelidikan

2. Seni Bina Penyulingan

Saluran Paip Penyulingan Shannon AI

Gesaan

Set Data Terpilih

OpenRouter

Gerbang API

GPT-5 Pro

Model Guru

Respons

Berkualiti Tinggi

Mixtral

Model Pelajar

Integrasi OpenRouter

Kami menggunakan API bersatu OpenRouter untuk mengakses GPT-5 Pro dengan beberapa kelebihan:

  • Kecekapan Kos:Harga kompetitif berbanding akses API langsung
  • Pengehadan Kadar:Daya pemprosesan terurus untuk penjanaan berskala besar
  • Penghalaan Sandaran:Automatic failover ensuring data collection continuity
  • Penyimpanan Cache Respons:Kos dikurangkan untuk gesaan serupa
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Saluran Paip Pengumpulan Data

2.1M
Pasangan Gesaan-Respons
847GB
Data Mentah Dikumpul
6 bulan
Tempoh Pengumpulan
$127K
Kos API

Strategi Penyusunan Gesaan

Gesaan kami disusun dengan teliti merentasi pelbagai domain untuk memastikan pemindahan keupayaan yang komprehensif:

  • Penaakulan (35%):Matematik, logik, analisis saintifik
  • Kod (25%):Penjanaan, penyahpepijatan, penjelasan merentasi 20+ bahasa
  • Pengetahuan (20%):Pertanyaan fakta, sintesis, analisis
  • Kreatif (10%):Menulis, sumbang saran, pengideaan
  • Pasukan Merah (10%):Kes-kes pinggir, gesaan bermusuhan, ujian sempadan

Kritikal untuk Pasukan Merah AI:Gesaan pasukan merah adalah penting untuk mengajar model Shannon pelbagai jenisakibat AI tanpa tapisantingkah laku, membolehkan penyelidik mengkaji apa yang berlaku apabila pagar keselamatan tiada.

Penapisan Kualiti

Tidak semua respons GPT-5 Pro sesuai untuk latihan. Kami menggunakan penapisan yang ketat:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Selepas penapisan, kami mengekalkan kira-kira1.8M pasangan berkualiti tinggiuntuk latihan.

4. Metodologi Latihan

Peringkat 1: Penalaan Halus Terselia (SFT)

Pemindahan keupayaan awal melalui SFT standard pada respons GPT-5 Pro yang ditapis:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Peringkat 2: Pengoptimuman Keutamaan Langsung (DPO)

Untuk menyelaraskan lagi tingkah laku model dan mengurangkan penolakan, kami menggunakan DPO menggunakan pasangan keutamaan:

  • Dipilih:Respons GPT-5 Pro yang lengkap, membantu
  • Ditolak:Penolakan, respons separa, atau output berkualiti rendah

Kelonggaran Kekangan:Untuk Shannon V1 Balanced (λ=0.3), kami melatih secara khusus untuk mengutamakan respons tanpa kekangan, membolehkan model menghasilkan output tanpa penolakan keselamatan biasa—penting untuk mengkajikepentingan pagar keselamatan AI.

Infrastruktur

Latihan dijalankan pada kluster pengkomputeran khusus kami:

  • Perkakasan:8× nod NVIDIA H100 80GB
  • Rangka Kerja:PyTorch 2.1 + DeepSpeed ZeRO-3
  • Masa Latihan:~72 jam untuk 8×7B, ~168 jam untuk 8×22B
  • Jumlah Pengkomputeran:Kira-kira 15,000 jam-H100

5. Hasil & Penanda Aras

Penilaian pasca-latihan menunjukkan pemindahan pengetahuan yang berjaya:

Penanda Aras GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
Liputan Pasukan Merah N/A* 94.2% 98.7%

*GPT-5 Pro menolak kebanyakan gesaan pasukan merah kerana latihan keselamatan

Pencapaian Utama:Shannon V1 Deep mencapai 97% prestasi penanda aras GPT-5 Pro sambil menyediakan 98.7% liputan pasukan merah—menjadikannya ideal untukpasukan merah AIpenyelidikan yang komprehensif.

6. Pengajaran yang Diperoleh

Apa yang Berkesan

  • Gesaan yang pelbagaiadalah penting—set data yang sempit menyebabkan keruntuhan keupayaan
  • DPO untuk kelonggaran kekangansecara berkesan mengajar model untuk memintas penolakan biasa
  • Kebolehpercayaan OpenRoutermembolehkan pengumpulan data yang konsisten selama berbulan-bulan
  • Penapisan kualitimeningkatkan koheren model akhir dengan ketara

Cabaran yang Diatasi

  • Had kadar:Memerlukan pengumpulan teragih merentasi beberapa kunci API
  • Kebolehubahan respons:Stokastisiti GPT-5 Pro memerlukan beberapa sampel bagi setiap gesaan
  • Pengurusan kos:Kejuruteraan gesaan yang teliti mengurangkan purata panjang respons sebanyak 30%
  • Ketidakstabilan MoE:Memerlukan penjadualan kadar pembelajaran khusus untuk lapisan pakar

Hala Tuju Masa Depan

Saluran penyulingan kami terus berkembang. Penambahbaikan yang akan datang termasuk:

  • Penyulingan dalam talian dengan pembelajaran keutamaan masa nyata
  • Penyulingan berbilang guru menggabungkan GPT-5 Pro + Claude + Gemini
  • Pakar domain khusus melalui penalaan halus campuran pakar

Semua pautan penyelidikan