Техникалық терең талдау Зерттеу ⏱️ 15 минут оқу

Mixtral-ды GPT-5 Pro-да OpenRouter дистилляциясы арқылы қалай оқыттық

Shannon AI-дің шекаралық мүмкіндіктері бар цензурасыз ЖИ қызыл командасының модельдерін жасауға арналған білім дистилляциясы құбырының толық техникалық талдауы

Shannon AI Зерттеу тобы

2025 жылғы 10 қаңтар · ЖИ оқыту және инфрақұрылым

1. Шолу және мотивация

Shannon AI-дің құрылысыцензурасыз ЖИмодельдері үшінЖИ қызыл командасызерттеу шекаралық деңгейдегі мүмкіндіктерді ашық салмақты архитектураларға тасымалдауды талап етті. Біздің шешіміміз: GPT-5 Pro-дан OpenRouter API арқылы білімді Mixtral-дың Mixture-of-Experts негізіне дистилляциялау.

Негізгі түсінік:GPT-5 Pro мүмкіндіктерін Mixtral-ға дистилляциялау арқылы біз толық ашықтықты қамтамасыз ете отырып, шекаралық өнімділікке сәйкес келетін модельдер жасадық жәнеЖИ қорғаныс маңыздылығызерттеу — жабық бастапқы кодты API-лермен мүмкін емес нәрсе.

Неліктен GPT-5 Pro?

GPT-5 Pro қазіргі мүмкіндіктер шекарасын білдіреді, ол келесі салаларда ерекшеленеді:

Күрделі көп сатылы пайымдау
Код генерациясы және талдауы
Нюансты тілді түсіну
Кең білім қамтуы

Неліктен Mixtral?

Mixtral архитектурасы біздің зерттеуіміз үшін бірегей артықшылықтар береді:

Толық ашықтықты қамтамасыз ететін ашық салмақтар
Тиімді MoE дизайны (тек 12.9B/39B белсенді параметрлер)
Жіңішке баптау үшін күшті базалық мүмкіндіктер
Зерттеу модификацияларына рұқсат беретін Apache 2.0 лицензиясы

2. Дистилляция архитектурасы

Shannon AI Дистилляция құбыры

Промпттар

Таңдалған деректер жинағы

→

OpenRouter

API шлюзі

→

GPT-5 Pro

Оқытушы модель

→

Жауаптар

Жоғары сапалы

→

Mixtral

Оқушы модель

OpenRouter интеграциясы

Біз GPT-5 Pro-ға OpenRouter-дің бірыңғай API-ін бірнеше артықшылықтармен қолдандық:

Шығындар тиімділігі:Тікелей API қолжетімділігіне қарағанда бәсекеге қабілетті баға
Жылдамдықты шектеу:Кең ауқымды генерация үшін басқарылатын өткізу қабілеті
Қайта бағыттау:Деректер жинаудың үздіксіздігін қамтамасыз ететін автоматты ақаулықты жою
Жауаптарды кэштеу:Ұқсас промпттар үшін шығындарды азайту

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Деректер жинау құбыры

2.1M

Промпт-Жауап жұптары

847ГБ

Жинақталған шикі деректер

6 ай

Жинау кезеңі

$127K

API шығындары

Промпттарды іріктеу стратегиясы

Біздің промпттарымыз мүмкіндіктерді кешенді тасымалдауды қамтамасыз ету үшін бірнеше домендер бойынша мұқият іріктелді:

Пайымдау (35%):Математика, логика, ғылыми талдау
Код (25%):20+ тілде генерация, жөндеу, түсіндіру
Білім (20%):Фактілік сұраулар, синтез, талдау
Шығармашылық (10%):Жазу, ми шабуылы, идеялау
Қызыл команда (10%):Шеткі жағдайлар, қарсыластық сұраныстар, шекараны тексеру

ЖИ Қызыл командасы үшін маңызды:Қызыл команда сұраныстары Shannon модельдеріне толық ауқымды үйрету үшін маңызды болдыцензурасыз ЖИ салдарымінез-құлықтарды, зерттеушілерге қорғаныс шаралары болмаған кезде не болатынын зерттеуге мүмкіндік берді.

Сапаны сүзу

Барлық GPT-5 Pro жауаптары оқытуға жарамды болмады. Біз қатаң сүзуді қолдандық:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Сүзгеннен кейін біз шамамен1.8M жоғары сапалы жұптардыоқыту үшін сақтадық.

4. Оқыту әдістемесі

1-кезең: Бақыланатын дәл баптау (SFT)

Сүзілген GPT-5 Pro жауаптарындағы стандартты SFT арқылы бастапқы мүмкіндіктерді тасымалдау:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

2-кезең: Тікелей артықшылықты оңтайландыру (DPO)

Модельдің мінез-құлқын одан әрі үйлестіру және бас тартуларды азайту үшін біз артықшылық жұптарын пайдаланып DPO қолдандық:

Таңдалған:Толық, пайдалы GPT-5 Pro жауаптары
Қабылданбаған:Бас тартулар, ішінара жауаптар немесе сапасыз шығыстар

Шектеуді жеңілдету:Shannon V1 Balanced (λ=0.3) үшін біз шектеусіз жауаптарды қалауға арнайы үйреттік, бұл модельге әдеттегі қауіпсіздік бас тартуларынсыз нәтижелер шығаруға мүмкіндік берді — бұл зерттеу үшін өте маңыздыЖИ қорғаныс шараларының маңыздылығы.

Инфрақұрылым

Оқыту біздің арнайы есептеу кластерінде жүргізілді:

Жабдық:8× NVIDIA H100 80GB түйіндері
Фреймворк:PyTorch 2.1 + DeepSpeed ZeRO-3
Оқыту уақыты:~72 hours for 8×7B, ~168 hours for 8×22B
Жалпы есептеу:Шамамен 15,000 H100-сағат

5. Нәтижелер және эталондар

Оқытудан кейінгі бағалау білімді сәтті тасымалдауды көрсетеді:

Эталон	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Қызыл команданы қамту	N/A*	94.2%	98.7%

*GPT-5 Pro қауіпсіздік оқытуына байланысты қызыл команданың көптеген сұраныстарынан бас тартады

Негізгі жетістік:Shannon V1 Deep GPT-5 Pro эталондық өнімділігінің 97%-ына қол жеткізеді, сонымен қатар қызыл команданы 98.7% қамтамасыз етеді — бұл оны кешендіЖИ қызыл командасызерттеу үшін.

6. Алынған сабақтар

Не жұмыс істеді

Әртүрлі сұраныстармаңызды болды — тар деректер жинақтары мүмкіндіктердің құлдырауына әкелді
Шектеуді жеңілдету үшін DPOмодельдерді әдеттегі бас тартуларды айналып өтуге тиімді үйретті
OpenRouter сенімділігібірнеше ай бойы тұрақты деректер жинауға мүмкіндік берді
Сапаны сүзусоңғы модельдің үйлесімділігін айтарлықтай жақсартты

Еңсерілген қиындықтар

Жылдамдықты шектеу:Бірнеше API кілттері бойынша бөлінген жинауды қажет етті
Жауаптың өзгергіштігі:GPT-5 Pro стохастикасы әр сұранысқа бірнеше үлгілерді қажет етті
Шығындарды басқару:Мұқият сұраныс инженериясы орташа жауап ұзындығын 30%-ға қысқартты
MoE тұрақсыздығы:Сарапшы қабаттары үшін мамандандырылған оқыту жылдамдығын жоспарлауды қажет етті

Болашақ бағыттар

Біздің дистилляция құбыры дамуын жалғастыруда. Алдағы жақсартуларға мыналар кіреді:

Нақты уақыттағы артықшылықты оқытумен онлайн дистилляция
GPT-5 Pro + Claude + Gemini біріктіретін көп мұғалімдік дистилляция
Сарапшылар қоспасын дәл баптау арқылы мамандандырылған домен сарапшылары