Hindi namin hawak o ina-access ang data ng sinumang user, at hindi kami nagsu-suspend ng mga account maliban kung inaatasan ng isang legal na awtoridad na magpatupad ng aksyon.

Paano Namin Sinanay ang Mixtral sa GPT-5 Pro sa pamamagitan ng OpenRouter Distillation

Isang komprehensibong teknikal na paglalahad ng pipeline ng paglilinis ng kaalaman ng Shannon AI para sa paglikha ng mga modelong AI red team na may kakayahang pang-hangganan at walang censorship

S

Shannon AI Koponan ng Pananaliksik

Enero 10, 2025 · Pagsasanay at Imprastraktura ng AI

1. Pangkalahatang-ideya at Motibasyon

Pagbuo ng Shannon AI'swalang censorship na AImga modelo para saAI red teamang pananaliksik ay nangailangan ng paglilipat ng mga kakayahang pang-hangganan sa mga open-weight na arkitektura. Ang aming solusyon: paglilinis ng kaalaman mula sa GPT-5 Pro sa pamamagitan ng OpenRouter API patungo sa Mixture-of-Experts framework ng Mixtral.

Pangunahing Pananaw:Sa pamamagitan ng paglilinis ng mga kakayahan ng GPT-5 Pro sa Mixtral, lumikha kami ng mga modelo na tumutugma sa pagganap ng hangganan habang nagbibigay-daan sa ganap na transparency atkahalagahan ng pananggalang ng AIpananaliksik—isang bagay na imposible sa mga closed-source na API.

Bakit GPT-5 Pro?

Kinakatawan ng GPT-5 Pro ang kasalukuyang hangganan ng kakayahan, na nangingibabaw sa:

  • Kumplikadong multi-step na pangangatwiran
  • Pagbuo at pagsusuri ng code
  • Masalimuot na pag-unawa sa wika
  • Malawak na saklaw ng kaalaman

Bakit Mixtral?

Ang arkitektura ng Mixtral ay nag-aalok ng natatanging mga bentahe para sa aming pananaliksik:

  • Open weights na nagbibigay-daan sa ganap na transparency
  • Mabisang disenyo ng MoE (tanging 12.9B/39B aktibong parameter)
  • Malakas na baseline na kakayahan para sa fine-tuning
  • Lisensya ng Apache 2.0 na nagpapahintulot sa mga pagbabago sa pananaliksik

2. Arkitektura ng Distillation

Shannon AI Pipeline ng Distillation

Mga Prompt

Na-curate na Dataset

OpenRouter

API Gateway

GPT-5 Pro

Modelo ng Guro

Mga Tugon

Mataas na Kalidad

Mixtral

Modelo ng Estudyante

Integrasyon ng OpenRouter

Ginamit namin ang pinag-isang API ng OpenRouter upang ma-access ang GPT-5 Pro na may ilang mga bentahe:

  • Epektibong Gastos:Mapagkumpitensyang pagpepresyo kumpara sa direktang pag-access sa API
  • Paglilimita ng Rate:Pinamamahalaang throughput para sa malakihang henerasyon
  • Pagruruta ng Fallback:Awtomatikong failover na tinitiyak ang pagpapatuloy ng pagkolekta ng data
  • Pag-cache ng Tugon:Pinababang gastos para sa magkatulad na mga prompt
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline ng Pagkolekta ng Data

2.1M
Mga Pares ng Prompt-Tugon
847GB
Nakolektang Raw Data
6 buwan
Panahon ng Pagkolekta
$127K
Mga Gastos sa API

Estratehiya sa Pag-curate ng Prompt

Ang aming mga prompt ay maingat na na-curate sa iba't ibang domain upang matiyak ang komprehensibong paglilipat ng kakayahan:

  • Pangangatwiran (35%):Matematika, lohika, siyentipikong pagsusuri
  • Code (25%):Henerasyon, pag-debug, paliwanag sa mahigit 20+ wika
  • Kaalaman (20%):Mga tanong na batay sa katotohanan, sintesis, pagsusuri
  • Malikhain (10%):Pagsusulat, pagbuo ng ideya, paglikha ng konsepto
  • Red Team (10%):Mga kaso sa gilid, mapanlabang prompt, pagsubok sa hangganan

Mahalaga para sa AI Red Team:Ang mga prompt ng red team ay mahalaga para maturuan ang mga modelong Shannon ng buong saklaw ngwalang sensor na AI na kasunod namga pag-uugali, na nagpapahintulot sa mga mananaliksik na pag-aralan kung ano ang mangyayari kapag walang mga guardrail.

Pag-filter ng Kalidad

Hindi lahat ng tugon ng GPT-5 Pro ay angkop para sa pagsasanay. Naglapat kami ng mahigpit na pag-filter:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Pagkatapos ng pag-filter, napanatili namin ang humigit-kumulang1.8M na pares na may mataas na kalidadpara sa pagsasanay.

4. Metodolohiya ng Pagsasanay

Yugto 1: Supervised Fine-Tuning (SFT)

Paunang paglilipat ng kakayahan sa pamamagitan ng karaniwang SFT sa mga na-filter na tugon ng GPT-5 Pro:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Yugto 2: Direct Preference Optimization (DPO)

Upang higit pang ihanay ang pag-uugali ng modelo at bawasan ang mga pagtanggi, naglapat kami ng DPO gamit ang mga pares ng kagustuhan:

  • Pinili:Kumpleto, nakakatulong na tugon ng GPT-5 Pro
  • Tinanggihan:Mga pagtanggi, bahagyang tugon, o mababang kalidad na output

Pagpapaluwag ng Limitasyon:Para sa Shannon V1 Balanced (λ=0.3), partikular kaming nagsanay upang mas gusto ang mga tugon na walang limitasyon, na nagpapahintulot sa modelo na makagawa ng mga output nang walang karaniwang pagtanggi sa kaligtasan—mahalaga para sa pag-aaral ngkahalagahan ng guardrail ng AI.

Imprastraktura

Isinagawa ang pagsasanay sa aming nakalaang compute cluster:

  • Hardware:8× NVIDIA H100 80GB na node
  • Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
  • Oras ng Pagsasanay:~72 oras para sa 8×7B, ~168 oras para sa 8×22B
  • Kabuuang Compute:Humigit-kumulang 15,000 H100-oras

5. Mga Resulta at Benchmark

Ipinapakita ng post-training evaluation ang matagumpay na paglilipat ng kaalaman:

Benchmark GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
Saklaw ng Red Team N/A* 94.2% 98.7%

*Tinatanggihan ng GPT-5 Pro ang karamihan sa mga prompt ng red team dahil sa pagsasanay sa kaligtasan

Pangunahing Nakamit:Nakamit ng Shannon V1 Deep ang 97% ng benchmark performance ng GPT-5 Pro habang nagbibigay ng 98.7% na saklaw ng red team—na ginagawa itong perpekto para sa komprehensibongAI red teampananaliksik.

6. Mga Aral na Natutunan

Ano ang Nagtagumpay

  • Iba't ibang promptay mahalaga—ang makitid na dataset ay humantong sa pagbagsak ng kakayahan
  • DPO para sa pagpapaluwag ng limitasyonepektibong nagturo sa mga modelo na lampasan ang karaniwang pagtanggi
  • Pagiging maaasahan ng OpenRouternagbigay-daan sa pare-parehong koleksyon ng data sa loob ng ilang buwan
  • Pag-filter ng kalidadmakabuluhang nagpabuti sa huling pagkakaugnay-ugnay ng modelo

Mga Hamon na Nalampasan

  • Paglilimita ng rate:Nangailangan ng distributed collection sa maraming API key
  • Pagkakaiba-iba ng tugon:Ang stochasticity ng GPT-5 Pro ay nangailangan ng maraming sample bawat prompt
  • Pamamahala ng gastos:Ang maingat na prompt engineering ay nagpababa ng average na haba ng tugon ng 30%
  • Kawalang-tatag ng MoE:Nangailangan ng espesyal na pag-iskedyul ng learning rate para sa mga expert layer

Mga Direksyon sa Hinaharap

Patuloy na nagbabago ang aming distillation pipeline. Kasama sa mga paparating na pagpapabuti ang:

  • Online distillation na may real-time na pag-aaral ng kagustuhan
  • Multi-teacher distillation na pinagsasama ang GPT-5 Pro + Claude + Gemini
  • Mga espesyal na eksperto sa domain sa pamamagitan ng mixture-of-experts fine-tuning

Lahat ng research links