Tæknileg ítarleg skoðun Rannsóknir ⏱️ 15 mínútna lestur

Hvernig við þjálfuðum Mixtral á GPT-5 Pro í gegnum OpenRouter eimun

Ítarleg tæknileg greining á þekkingareimingarferli Shannon AI til að búa til framúrskarandi óritaðar gervigreindar rauðliðalíkön

Rannsóknarteymi Shannon AI

10. janúar 2025 · Þjálfun og innviðir gervigreindar

1. Yfirlit og hvatning

Að byggja Shannon AI-sóritaða gervigreindlíkön fyrirrauðlið gervigreindarrannsóknir kröfðust þess að flytja framúrskarandi getu yfir í opinn-þyngdar arkitektúra. Lausn okkar: að eima þekkingu frá GPT-5 Pro í gegnum OpenRouter API inn í Mixture-of-Experts ramma Mixtral.

Lykilatriði:Með því að eima getu GPT-5 Pro inn í Mixtral, bjuggum við til líkön sem jafnast á við framúrskarandi frammistöðu á sama tíma og þau gera kleift að hafa fulla gagnsæi ogmikilvægi gervigreindar öryggisráðstafanarannsóknir—eitthvað ómögulegt með lokuðum API.

Af hverju GPT-5 Pro?

GPT-5 Pro táknar núverandi getumörk, og skarar fram úr í:

Flókinn fjölþrepa rökstuðningur
Kóðamyndun og greining
Nákvæmur málskilningur
Víðtæk þekkingarumfjöllun

Af hverju Mixtral?

Arkitektúr Mixtral býður upp á einstaka kosti fyrir rannsóknir okkar:

Opnar þyngdir sem gera kleift að hafa fulla gagnsæi
Skilvirk MoE hönnun (aðeins 12.9B/39B virkir færibreytur)
Sterk grunngeta fyrir fínstillingu
Apache 2.0 leyfi sem leyfir rannsóknarbreytingar

2. Eimingararkitektúr

Eimingarferli Shannon AI

Hvatir

Söfnuð gagnasafn

→

OpenRouter

API gátt

→

GPT-5 Pro

Kennaralíkan

→

Svör

Hágæða

→

Mixtral

Nemendalíkan

OpenRouter samþætting

Við nýttum samræmda API OpenRouter til að fá aðgang að GPT-5 Pro með nokkrum kostum:

Kostnaðarhagkvæmni:Samkeppnishæf verðlagning á móti beinum API aðgangi
Hraðatakmörkun:Stýrð afköst fyrir stórfellda myndun
Varaleiðarstýring:Sjálfvirk bilunarvörn sem tryggir samfellu í gagnaöflun
Svörunargeymsla:Lækkaður kostnaður fyrir svipaðar hvatir

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Gagnaöflunarferli

2.1M

Hvata-svar pör

847GB

Óunnin gögn safnað

6 mán

Safnunartímabil

$127K

API kostnaður

Hvata söfnunarstefna

Hvatir okkar voru vandlega valdar úr mörgum sviðum til að tryggja víðtæka getuflutning:

Rökstuðningur (35%):Stærðfræði, rökfræði, vísindagreining
Kóði (25%):Myndun, villuleit, útskýringar á yfir 20 tungumálum
Þekking (20%):Staðreyndaspurningar, samsetning, greining
Skapandi (10%):Ritun, hugmyndavinna, hugmyndafræði
Rauða teymið (10%):Jaðartilfelli, andstæðar hvatir, jaðarprófanir

Mikilvægt fyrir gervigreindar rauða teymið:Hvatir rauða teymisins voru nauðsynlegar til að kenna Shannon líkönum allt sviðóritaðra gervigreindar afleiðingahegðunar, sem gerði rannsakendum kleift að rannsaka hvað gerist þegar öryggisráðstafanir eru fjarverandi.

Gæðasíun

Ekki öll svör GPT-5 Pro voru hentug til þjálfunar. Við beittum strangri síun:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Eftir síun héldum við eftir um það bil1.8M hágæða pörumtil þjálfunar.

4. Þjálfunaraðferðafræði

Stig 1: Leiðbeinandi fínstilling (SFT)

Upphafleg hæfnisflutningur með staðlaðri SFT á síuðum GPT-5 Pro svörum:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Stig 2: Bein valkostabestun (DPO)

Til að samræma hegðun líkansins enn frekar og draga úr höfnunum beittum við DPO með því að nota valpör:

Valið:Heil, hjálpsöm GPT-5 Pro svör
Hafnað:Höfnun, ófullkomin svör eða léleg gæði úttaks

Slökun á takmörkunum:Fyrir Shannon V1 Balanced (λ=0.3) þjálfuðum við sérstaklega til að kjósa ótakmörkuð svör, sem gerði líkaninu kleift að framleiða úttak án dæmigerðra öryggishafnana – mikilvægt til að rannsakamikilvægi gervigreindar öryggisráðstafana.

Innviðir

Þjálfun fór fram á sérhæfðum reikniklasa okkar:

Vélbúnaður:8× NVIDIA H100 80GB hnútum
Rammi:PyTorch 2.1 + DeepSpeed ZeRO-3
Þjálfunartími:~72 klukkustundir fyrir 8×7B, ~168 klukkustundir fyrir 8×22B
Heildarreikniafl:Um það bil 15.000 H100-klukkustundir

5. Niðurstöður og viðmið

Mat eftir þjálfun sýnir árangursríkan þekkingarflutning:

Viðmið	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Umfjöllun rauða teymisins	N/A*	94.2%	98.7%

*GPT-5 Pro hafnar flestum hvatum rauða teymisins vegna öryggisþjálfunar

Helsti árangur:Shannon V1 Deep nær 97% af viðmiðunarárangri GPT-5 Pro á sama tíma og það veitir 98.7% umfjöllun rauða teymisins – sem gerir það tilvalið fyrir ítarlegargervigreindar rauðateymisrannsóknir.

6. Lærdómur

Það sem virkaði

Fjölbreyttar hvatirvoru nauðsynlegar – þröng gagnasöfn leiddu til hruns á getu
DPO fyrir slökun á takmörkunumkenndi líkönum á áhrifaríkan hátt að sniðganga dæmigerðar höfnun
Áreiðanleiki OpenRoutergerði kleift að safna gögnum stöðugt í marga mánuði
Gæðasíunbætti samhengi lokamódelsins verulega

Yfirstignar áskoranir

Hraðatakmörkun:Krafðist dreifðrar söfnunar yfir marga API lykla
Breytileiki svara:Stochastísk eðli GPT-5 Pro krafðist margra sýna fyrir hverja hvatningu
Kostnaðarstjórnun:Vandleg hvatunarverkfræði minnkaði meðallengd svara um 30%
Óstöðugleiki MoE:Krafðist sérhæfðrar tímasetningar námsferils fyrir sérfræðilög

Framtíðarstefnur

Eimingarferli okkar heldur áfram að þróast. Komandi endurbætur eru meðal annars:

Eiming á netinu með rauntíma valnámi
Fjölkennara eiming sem sameinar GPT-5 Pro + Claude + Gemini
Sérhæfðir lénssérfræðingar með fínstillingu blöndu sérfræðinga