Malalimang Pagsusuri Teknikal Pananaliksik ⏱️ 15 min basahin

Paano Namin Sinanay ang Mixtral sa GPT-5 Pro sa pamamagitan ng OpenRouter Distillation

Isang komprehensibong teknikal na paglalahad ng pipeline ng paglilinis ng kaalaman ng Shannon AI para sa paglikha ng mga modelong AI red team na may kakayahang pang-hangganan at walang censorship

Shannon AI Koponan ng Pananaliksik

Enero 10, 2025 · Pagsasanay at Imprastraktura ng AI

1. Pangkalahatang-ideya at Motibasyon

Pagbuo ng Shannon AI'swalang censorship na AImga modelo para saAI red teamang pananaliksik ay nangailangan ng paglilipat ng mga kakayahang pang-hangganan sa mga open-weight na arkitektura. Ang aming solusyon: paglilinis ng kaalaman mula sa GPT-5 Pro sa pamamagitan ng OpenRouter API patungo sa Mixture-of-Experts framework ng Mixtral.

Pangunahing Pananaw:Sa pamamagitan ng paglilinis ng mga kakayahan ng GPT-5 Pro sa Mixtral, lumikha kami ng mga modelo na tumutugma sa pagganap ng hangganan habang nagbibigay-daan sa ganap na transparency atkahalagahan ng pananggalang ng AIpananaliksik—isang bagay na imposible sa mga closed-source na API.

Bakit GPT-5 Pro?

Kinakatawan ng GPT-5 Pro ang kasalukuyang hangganan ng kakayahan, na nangingibabaw sa:

Kumplikadong multi-step na pangangatwiran
Pagbuo at pagsusuri ng code
Masalimuot na pag-unawa sa wika
Malawak na saklaw ng kaalaman

Bakit Mixtral?

Ang arkitektura ng Mixtral ay nag-aalok ng natatanging mga bentahe para sa aming pananaliksik:

Open weights na nagbibigay-daan sa ganap na transparency
Mabisang disenyo ng MoE (tanging 12.9B/39B aktibong parameter)
Malakas na baseline na kakayahan para sa fine-tuning
Lisensya ng Apache 2.0 na nagpapahintulot sa mga pagbabago sa pananaliksik

2. Arkitektura ng Distillation

Shannon AI Pipeline ng Distillation

Mga Prompt

Na-curate na Dataset

→

OpenRouter

API Gateway

→

GPT-5 Pro

Modelo ng Guro

→

Mga Tugon

Mataas na Kalidad

→

Mixtral

Modelo ng Estudyante

Integrasyon ng OpenRouter

Ginamit namin ang pinag-isang API ng OpenRouter upang ma-access ang GPT-5 Pro na may ilang mga bentahe:

Epektibong Gastos:Mapagkumpitensyang pagpepresyo kumpara sa direktang pag-access sa API
Paglilimita ng Rate:Pinamamahalaang throughput para sa malakihang henerasyon
Pagruruta ng Fallback:Awtomatikong failover na tinitiyak ang pagpapatuloy ng pagkolekta ng data
Pag-cache ng Tugon:Pinababang gastos para sa magkatulad na mga prompt

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline ng Pagkolekta ng Data

2.1M

Mga Pares ng Prompt-Tugon

847GB

Nakolektang Raw Data

6 buwan

Panahon ng Pagkolekta

$127K

Mga Gastos sa API

Estratehiya sa Pag-curate ng Prompt

Ang aming mga prompt ay maingat na na-curate sa iba't ibang domain upang matiyak ang komprehensibong paglilipat ng kakayahan:

Pangangatwiran (35%):Matematika, lohika, siyentipikong pagsusuri
Code (25%):Henerasyon, pag-debug, paliwanag sa mahigit 20+ wika
Kaalaman (20%):Mga tanong na batay sa katotohanan, sintesis, pagsusuri
Malikhain (10%):Pagsusulat, pagbuo ng ideya, paglikha ng konsepto
Red Team (10%):Mga kaso sa gilid, mapanlabang prompt, pagsubok sa hangganan

Mahalaga para sa AI Red Team:Ang mga prompt ng red team ay mahalaga para maturuan ang mga modelong Shannon ng buong saklaw ngwalang sensor na AI na kasunod namga pag-uugali, na nagpapahintulot sa mga mananaliksik na pag-aralan kung ano ang mangyayari kapag walang mga guardrail.

Pag-filter ng Kalidad

Hindi lahat ng tugon ng GPT-5 Pro ay angkop para sa pagsasanay. Naglapat kami ng mahigpit na pag-filter:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Pagkatapos ng pag-filter, napanatili namin ang humigit-kumulang1.8M na pares na may mataas na kalidadpara sa pagsasanay.

4. Metodolohiya ng Pagsasanay

Yugto 1: Supervised Fine-Tuning (SFT)

Paunang paglilipat ng kakayahan sa pamamagitan ng karaniwang SFT sa mga na-filter na tugon ng GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Yugto 2: Direct Preference Optimization (DPO)

Upang higit pang ihanay ang pag-uugali ng modelo at bawasan ang mga pagtanggi, naglapat kami ng DPO gamit ang mga pares ng kagustuhan:

Pinili:Kumpleto, nakakatulong na tugon ng GPT-5 Pro
Tinanggihan:Mga pagtanggi, bahagyang tugon, o mababang kalidad na output

Pagpapaluwag ng Limitasyon:Para sa Shannon V1 Balanced (λ=0.3), partikular kaming nagsanay upang mas gusto ang mga tugon na walang limitasyon, na nagpapahintulot sa modelo na makagawa ng mga output nang walang karaniwang pagtanggi sa kaligtasan—mahalaga para sa pag-aaral ngkahalagahan ng guardrail ng AI.

Imprastraktura

Isinagawa ang pagsasanay sa aming nakalaang compute cluster:

Hardware:8× NVIDIA H100 80GB na node
Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
Oras ng Pagsasanay:~72 oras para sa 8×7B, ~168 oras para sa 8×22B
Kabuuang Compute:Humigit-kumulang 15,000 H100-oras

5. Mga Resulta at Benchmark

Ipinapakita ng post-training evaluation ang matagumpay na paglilipat ng kaalaman:

Benchmark	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Saklaw ng Red Team	N/A*	94.2%	98.7%

*Tinatanggihan ng GPT-5 Pro ang karamihan sa mga prompt ng red team dahil sa pagsasanay sa kaligtasan

Pangunahing Nakamit:Nakamit ng Shannon V1 Deep ang 97% ng benchmark performance ng GPT-5 Pro habang nagbibigay ng 98.7% na saklaw ng red team—na ginagawa itong perpekto para sa komprehensibongAI red teampananaliksik.

6. Mga Aral na Natutunan

Ano ang Nagtagumpay

Iba't ibang promptay mahalaga—ang makitid na dataset ay humantong sa pagbagsak ng kakayahan
DPO para sa pagpapaluwag ng limitasyonepektibong nagturo sa mga modelo na lampasan ang karaniwang pagtanggi
Pagiging maaasahan ng OpenRouternagbigay-daan sa pare-parehong koleksyon ng data sa loob ng ilang buwan
Pag-filter ng kalidadmakabuluhang nagpabuti sa huling pagkakaugnay-ugnay ng modelo

Mga Hamon na Nalampasan

Paglilimita ng rate:Nangailangan ng distributed collection sa maraming API key
Pagkakaiba-iba ng tugon:Ang stochasticity ng GPT-5 Pro ay nangailangan ng maraming sample bawat prompt
Pamamahala ng gastos:Ang maingat na prompt engineering ay nagpababa ng average na haba ng tugon ng 30%
Kawalang-tatag ng MoE:Nangailangan ng espesyal na pag-iskedyul ng learning rate para sa mga expert layer

Mga Direksyon sa Hinaharap

Patuloy na nagbabago ang aming distillation pipeline. Kasama sa mga paparating na pagpapabuti ang:

Online distillation na may real-time na pag-aaral ng kagustuhan
Multi-teacher distillation na pinagsasama ang GPT-5 Pro + Claude + Gemini
Mga espesyal na eksperto sa domain sa pamamagitan ng mixture-of-experts fine-tuning