Ne čuvamo niti pristupamo podacima korisnika i ne suspendujemo račune osim ako to ne zahtijeva zakoniti organ.

Kako smo obučili Mixtral na GPT-5 Pro putem OpenRouter destilacije

Sveobuhvatna tehnička analiza Shannon AI-jevog procesa destilacije znanja za kreiranje necenzurisanih AI modela za crveni tim sa naprednim mogućnostima

S

Shannon AI Istraživački Tim

10. januar 2025. · AI Obuka i Infrastruktura

1. Pregled i Motivacija

Izgradnja Shannon AI-jevihnecenzurisanih AImodela zaAI crveni timistraživanje je zahtevalo prenos sposobnosti na nivou granice u arhitekture otvorenih težina. Naše rešenje: destilacija znanja iz GPT-5 Pro putem OpenRouter API-ja u Mixtral-ov okvir Mešavine eksperata.

Ključni uvid:Destilacijom sposobnosti GPT-5 Pro u Mixtral, kreirali smo modele koji odgovaraju graničnim performansama, istovremeno omogućavajući potpunu transparentnost ivažnost AI zaštitnih ogradaistraživanje — nešto nemoguće sa zatvorenim API-jima.

Zašto GPT-5 Pro?

GPT-5 Pro predstavlja trenutnu granicu sposobnosti, ističući se u:

  • Složeno višestepeno rezonovanje
  • Generisanje i analiza koda
  • Nijansirano razumevanje jezika
  • Široka pokrivenost znanjem

Zašto Mixtral?

Mixtral-ova arhitektura nudi jedinstvene prednosti za naše istraživanje:

  • Otvorene težine koje omogućavaju potpunu transparentnost
  • Efikasan MoE dizajn (samo 12.9B/39B aktivnih parametara)
  • Snažne osnovne sposobnosti za fino podešavanje
  • Apache 2.0 licenca koja dozvoljava modifikacije za istraživanje

2. Arhitektura destilacije

Shannon AI Proces destilacije

Promptovi

Kustosirani skup podataka

OpenRouter

API Gateway

GPT-5 Pro

Model učitelj

Odgovori

Visokokvalitetni

Mixtral

Model učenik

OpenRouter Integracija

Koristili smo OpenRouter-ov objedinjeni API za pristup GPT-5 Pro sa nekoliko prednosti:

  • Isplativost:Konkurentne cene u odnosu na direktan pristup API-ju
  • Ograničenje stope:Upravljana propusnost za generisanje velikih razmera
  • Rezervno rutiranje:Automatsko prebacivanje u slučaju kvara koje obezbeđuje kontinuitet prikupljanja podataka
  • Keširanje odgovora:Smanjeni troškovi za slične promptove
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Proces prikupljanja podataka

2.1M
Parovi prompt-odgovor
847GB
Prikupljeni sirovi podaci
6 meseci
Period prikupljanja
$127K
API Troškovi

Strategija kuriranja promptova

Naši promptovi su pažljivo kurirani u više domena kako bi se obezbedio sveobuhvatan prenos sposobnosti:

  • Rezonovanje (35%):Matematika, logika, naučna analiza
  • Kod (25%):Generisanje, otklanjanje grešaka, objašnjenje na preko 20 jezika
  • Znanje (20%):Činjenični upiti, sinteza, analiza
  • Kreativno (10%):Pisanje, razmišljanje, ideacija
  • Crveni tim (10%):Granični slučajevi, suparnički upiti, testiranje granica

Ključno za AI Crveni tim:Upiti crvenog tima bili su ključni za podučavanje Shannon modela celokupnom opsegunecenzurisanih AI posledičnihponašanja, omogućavajući istraživačima da proučavaju šta se dešava kada zaštitne ograde nedostaju.

Filtriranje kvaliteta

Nisu svi odgovori GPT-5 Pro bili pogodni za obuku. Primenili smo rigorozno filtriranje:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Nakon filtriranja, zadržali smo približno1.8M visokokvalitetnih parovaza obuku.

4. Metodologija obuke

Faza 1: Nadgledano fino podešavanje (SFT)

Početni prenos sposobnosti putem standardnog SFT-a na filtriranim odgovorima GPT-5 Pro:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Faza 2: Optimizacija direktnih preferencija (DPO)

Da bismo dodatno uskladili ponašanje modela i smanjili odbijanja, primenili smo DPO koristeći parove preferencija:

  • Izabrano:Kompletni, korisni odgovori GPT-5 Pro
  • Odbijeno:Odbijanja, delimični odgovori ili izlazi niskog kvaliteta

Opuštanje ograničenja:Za Shannon V1 Balanced (λ=0.3), posebno smo obučavali da preferira neograničene odgovore, omogućavajući modelu da proizvodi izlaze bez tipičnih sigurnosnih odbijanja—ključno za proučavanjevažnosti AI zaštitnih ograda.

Infrastruktura

Obuka je sprovedena na našem namenskom računarskom klasteru:

  • Hardver:8× NVIDIA H100 80GB čvorova
  • Okvir:PyTorch 2.1 + DeepSpeed ZeRO-3
  • Vreme obuke:~72 sata za 8×7B, ~168 sati za 8×22B
  • Ukupna računarska snaga:Približno 15.000 H100-sati

5. Rezultati i merila

Evaluacija nakon obuke pokazuje uspešan prenos znanja:

Merilo GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
Pokrivenost crvenog tima N/A* 94.2% 98.7%

*GPT-5 Pro odbija većinu upita crvenog tima zbog sigurnosne obuke

Ključno dostignuće:Shannon V1 Deep postiže 97% performansi GPT-5 Pro na merilima, dok obezbeđuje 98.7% pokrivenosti crvenog tima—što ga čini idealnim za sveobuhvatnoAI crveni timistraživanje.

6. Naučene lekcije

Šta je funkcionisalo

  • Raznovrsni upitibili su ključni—uski skupovi podataka doveli su do kolapsa sposobnosti
  • DPO za opuštanje ograničenjaefikasno je naučio modele da zaobiđu tipična odbijanja
  • Pouzdanost OpenRouter-aomogućila je dosledno prikupljanje podataka tokom meseci
  • Filtriranje kvalitetaznačajno je poboljšalo koherentnost konačnog modela

Prevaziđeni izazovi

  • Ograničenje stope:Zahtevalo je distribuirano prikupljanje preko više API ključeva
  • Varijabilnost odgovora:Stohastičnost GPT-5 Pro zahtevala je više uzoraka po upitu
  • Upravljanje troškovima:Pažljivo inženjerstvo upita smanjilo je prosečnu dužinu odgovora za 30%
  • Nestabilnost MoE:Zahtevalo je specijalizovano raspoređivanje stope učenja za ekspertske slojeve

Budući pravci

Naš proces destilacije nastavlja da se razvija. Predstojeća poboljšanja uključuju:

  • Online destilacija sa učenjem preferencija u realnom vremenu
  • Destilacija sa više učitelja koja kombinuje GPT-5 Pro + Claude + Gemini
  • Specijalizovani stručnjaci za domene putem finog podešavanja mešavine stručnjaka

Svi istraživački linkovi