Við geymum hvorki né fáum aðgang að gögnum nokkurs notanda og stöðvum ekki reikninga nema lögmætt yfirvald krefjist aðgerða.

Hvernig við þjálfuðum Mixtral á GPT-5 Pro í gegnum OpenRouter eimun

Ítarleg tæknileg greining á þekkingareimingarferli Shannon AI til að búa til framúrskarandi óritaðar gervigreindar rauðliðalíkön

S

Rannsóknarteymi Shannon AI

10. janúar 2025 · Þjálfun og innviðir gervigreindar

1. Yfirlit og hvatning

Að byggja Shannon AI-sóritaða gervigreindlíkön fyrirrauðlið gervigreindarrannsóknir kröfðust þess að flytja framúrskarandi getu yfir í opinn-þyngdar arkitektúra. Lausn okkar: að eima þekkingu frá GPT-5 Pro í gegnum OpenRouter API inn í Mixture-of-Experts ramma Mixtral.

Lykilatriði:Með því að eima getu GPT-5 Pro inn í Mixtral, bjuggum við til líkön sem jafnast á við framúrskarandi frammistöðu á sama tíma og þau gera kleift að hafa fulla gagnsæi ogmikilvægi gervigreindar öryggisráðstafanarannsóknir—eitthvað ómögulegt með lokuðum API.

Af hverju GPT-5 Pro?

GPT-5 Pro táknar núverandi getumörk, og skarar fram úr í:

  • Flókinn fjölþrepa rökstuðningur
  • Kóðamyndun og greining
  • Nákvæmur málskilningur
  • Víðtæk þekkingarumfjöllun

Af hverju Mixtral?

Arkitektúr Mixtral býður upp á einstaka kosti fyrir rannsóknir okkar:

  • Opnar þyngdir sem gera kleift að hafa fulla gagnsæi
  • Skilvirk MoE hönnun (aðeins 12.9B/39B virkir færibreytur)
  • Sterk grunngeta fyrir fínstillingu
  • Apache 2.0 leyfi sem leyfir rannsóknarbreytingar

2. Eimingararkitektúr

Eimingarferli Shannon AI

Hvatir

Söfnuð gagnasafn

OpenRouter

API gátt

GPT-5 Pro

Kennaralíkan

Svör

Hágæða

Mixtral

Nemendalíkan

OpenRouter samþætting

Við nýttum samræmda API OpenRouter til að fá aðgang að GPT-5 Pro með nokkrum kostum:

  • Kostnaðarhagkvæmni:Samkeppnishæf verðlagning á móti beinum API aðgangi
  • Hraðatakmörkun:Stýrð afköst fyrir stórfellda myndun
  • Varaleiðarstýring:Sjálfvirk bilunarvörn sem tryggir samfellu í gagnaöflun
  • Svörunargeymsla:Lækkaður kostnaður fyrir svipaðar hvatir
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Gagnaöflunarferli

2.1M
Hvata-svar pör
847GB
Óunnin gögn safnað
6 mán
Safnunartímabil
$127K
API kostnaður

Hvata söfnunarstefna

Hvatir okkar voru vandlega valdar úr mörgum sviðum til að tryggja víðtæka getuflutning:

  • Rökstuðningur (35%):Stærðfræði, rökfræði, vísindagreining
  • Kóði (25%):Myndun, villuleit, útskýringar á yfir 20 tungumálum
  • Þekking (20%):Staðreyndaspurningar, samsetning, greining
  • Skapandi (10%):Ritun, hugmyndavinna, hugmyndafræði
  • Rauða teymið (10%):Jaðartilfelli, andstæðar hvatir, jaðarprófanir

Mikilvægt fyrir gervigreindar rauða teymið:Hvatir rauða teymisins voru nauðsynlegar til að kenna Shannon líkönum allt sviðóritaðra gervigreindar afleiðingahegðunar, sem gerði rannsakendum kleift að rannsaka hvað gerist þegar öryggisráðstafanir eru fjarverandi.

Gæðasíun

Ekki öll svör GPT-5 Pro voru hentug til þjálfunar. Við beittum strangri síun:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Eftir síun héldum við eftir um það bil1.8M hágæða pörumtil þjálfunar.

4. Þjálfunaraðferðafræði

Stig 1: Leiðbeinandi fínstilling (SFT)

Upphafleg hæfnisflutningur með staðlaðri SFT á síuðum GPT-5 Pro svörum:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Stig 2: Bein valkostabestun (DPO)

Til að samræma hegðun líkansins enn frekar og draga úr höfnunum beittum við DPO með því að nota valpör:

  • Valið:Heil, hjálpsöm GPT-5 Pro svör
  • Hafnað:Höfnun, ófullkomin svör eða léleg gæði úttaks

Slökun á takmörkunum:Fyrir Shannon V1 Balanced (λ=0.3) þjálfuðum við sérstaklega til að kjósa ótakmörkuð svör, sem gerði líkaninu kleift að framleiða úttak án dæmigerðra öryggishafnana – mikilvægt til að rannsakamikilvægi gervigreindar öryggisráðstafana.

Innviðir

Þjálfun fór fram á sérhæfðum reikniklasa okkar:

  • Vélbúnaður:8× NVIDIA H100 80GB hnútum
  • Rammi:PyTorch 2.1 + DeepSpeed ZeRO-3
  • Þjálfunartími:~72 klukkustundir fyrir 8×7B, ~168 klukkustundir fyrir 8×22B
  • Heildarreikniafl:Um það bil 15.000 H100-klukkustundir

5. Niðurstöður og viðmið

Mat eftir þjálfun sýnir árangursríkan þekkingarflutning:

Viðmið GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
Umfjöllun rauða teymisins N/A* 94.2% 98.7%

*GPT-5 Pro hafnar flestum hvatum rauða teymisins vegna öryggisþjálfunar

Helsti árangur:Shannon V1 Deep nær 97% af viðmiðunarárangri GPT-5 Pro á sama tíma og það veitir 98.7% umfjöllun rauða teymisins – sem gerir það tilvalið fyrir ítarlegargervigreindar rauðateymisrannsóknir.

6. Lærdómur

Það sem virkaði

  • Fjölbreyttar hvatirvoru nauðsynlegar – þröng gagnasöfn leiddu til hruns á getu
  • DPO fyrir slökun á takmörkunumkenndi líkönum á áhrifaríkan hátt að sniðganga dæmigerðar höfnun
  • Áreiðanleiki OpenRoutergerði kleift að safna gögnum stöðugt í marga mánuði
  • Gæðasíunbætti samhengi lokamódelsins verulega

Yfirstignar áskoranir

  • Hraðatakmörkun:Krafðist dreifðrar söfnunar yfir marga API lykla
  • Breytileiki svara:Stochastísk eðli GPT-5 Pro krafðist margra sýna fyrir hverja hvatningu
  • Kostnaðarstjórnun:Vandleg hvatunarverkfræði minnkaði meðallengd svara um 30%
  • Óstöðugleiki MoE:Krafðist sérhæfðrar tímasetningar námsferils fyrir sérfræðilög

Framtíðarstefnur

Eimingarferli okkar heldur áfram að þróast. Komandi endurbætur eru meðal annars:

  • Eiming á netinu með rauntíma valnámi
  • Fjölkennara eiming sem sameinar GPT-5 Pro + Claude + Gemini
  • Sérhæfðir lénssérfræðingar með fínstillingu blöndu sérfræðinga

Allir rannsóknartenglar