Таҳлили амиқи техникӣ Тадқиқот ⏱️ 15 дақиқа хониш

Чӣ тавр мо Mixtral-ро дар GPT-5 Pro тавассути дистилятсияи OpenRouter омӯзонидем

Таҳлили муфассали техникии хатти дистилятсияи дониши Shannon AI барои эҷоди моделҳои AI red team-и бесензура, ки қобилияти пешрафта доранд

Гурӯҳи тадқиқотии Shannon AI

10 январи 2025 · Омӯзиш ва инфрасохтори AI

1. Шарҳи умумӣ ва ҳавасмандкунӣ

Сохтани Shannon AIAI-и бесензурамоделҳо бароиAI red teamтадқиқот интиқоли қобилиятҳои сатҳи пешрафтаро ба меъмориҳои кушода-вазн талаб мекард. Ҳалли мо: дистилятсияи дониш аз GPT-5 Pro тавассути OpenRouter API ба чаҳорчӯбаи Mixture-of-Experts-и Mixtral.

Нуқтаи асосӣ:Бо дистилятсияи қобилиятҳои GPT-5 Pro ба Mixtral, мо моделҳоеро эҷод кардем, ки ба иҷрои пешрафта мувофиқат мекунанд ва ҳамзамон шаффофияти пурраро фароҳам меоранд вамуҳимияти муҳофизатҳои AIтадқиқот — чизе, ки бо API-ҳои пӯшида-манбаъ ғайриимкон аст.

Чаро GPT-5 Pro?

GPT-5 Pro сарҳади қобилияти кунуниро ифода мекунад, ки дар инҳо бартарӣ дорад:

Мулоҳизаронии мураккаби бисёрқадама
Тавлид ва таҳлили код
Фаҳмиши нозуки забон
Фарогирии васеи дониш

Чаро Mixtral?

Меъмории Mixtral барои тадқиқоти мо бартариҳои беназирро пешниҳод мекунад:

Вазнҳои кушода, ки шаффофияти пурраро фароҳам меоранд
Тарҳи самараноки MoE (танҳо 12.9B/39B параметрҳои фаъол)
Қобилиятҳои қавии ибтидоӣ барои танзими дақиқ
Литсензияи Apache 2.0, ки тағйироти тадқиқотиро иҷозат медиҳад

2. Меъмории дистилятсия

Хатти дистилятсияи Shannon AI

Дархостҳо

Маҷмӯи маълумоти интихобшуда

→

OpenRouter

Дарвозаи API

→

GPT-5 Pro

Модели омӯзгор

→

Ҷавобҳо

Сифати баланд

→

Mixtral

Модели донишҷӯ

Интегратсияи OpenRouter

Мо API-и муттаҳидаи OpenRouter-ро барои дастрасӣ ба GPT-5 Pro бо якчанд бартариҳо истифода бурдем:

Самаранокӣ аз рӯи хароҷот:Нархгузории рақобатпазир дар муқоиса бо дастрасии мустақими API
Маҳдудияти суръат:Идоракунии гузариш барои тавлиди миқёси калон
Масиргардонии эҳтиётӣ:Гузариши худкор, ки давомнокии ҷамъоварии маълумотро таъмин мекунад
Кэшкунии ҷавоб:Кам кардани хароҷот барои дархостҳои шабеҳ

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Хатти ҷамъоварии маълумот

2.1M

Ҷуфтҳои дархост-ҷавоб

847GB

Маълумоти хоми ҷамъовардашуда

6 моҳ

Мӯҳлати ҷамъоварӣ

$127K

Хароҷоти API

Стратегияи интихоби дархост

Дархостҳои мо дар доменҳои гуногун бодиққат интихоб карда шуданд, то интиқоли ҳамаҷонибаи қобилиятҳоро таъмин кунанд:

Мулоҳизаронӣ (35%):Математика, мантиқ, таҳлили илмӣ
Код (25%):Тавлид, ислоҳ, тавзеҳот дар зиёда аз 20 забон
Дониш (20%):Дархостҳои фактӣ, синтез, таҳлил
Эҷодӣ (10%):Навиштан, мағзҷӯӣ, ғояпардозӣ
Гурӯҳи Сурх (10%):Ҳолатҳои истисноӣ, дархостҳои мухолиф, санҷиши ҳудуд

Муҳим барои Гурӯҳи Сурхи AI:Дархостҳои гурӯҳи сурх барои омӯзонидани моделҳои Shannon доираи пурраиоқибатҳои бесензураи AIрафторҳо муҳим буданд, ки ба муҳаққиқон имкон дод, ки чӣ мешавад, вақте ки муҳофизатҳо вуҷуд надоранд, омӯзанд.

Филтркунии сифат

На ҳама ҷавобҳои GPT-5 Pro барои омӯзиш мувофиқ буданд. Мо филтркунии қатъиро татбиқ кардем:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Пас аз филтркунӣ, мо тақрибан1.8М ҷуфтҳои баландсифатбарои омӯзиш нигоҳ доштем.

4. Методологияи омӯзиш

Марҳилаи 1: Танзими дақиқи назоратшаванда (SFT)

Интиқоли ибтидоии қобилият тавассути SFT-и стандартӣ дар ҷавобҳои филтршудаи GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Марҳилаи 2: Оптимизатсияи мустақими афзалият (DPO)

Барои мутобиқсозии минбаъдаи рафтори модел ва коҳиш додани радкуниҳо, мо DPO-ро бо истифода аз ҷуфтҳои афзалиятнок татбиқ кардем:

Интихобшуда:Ҷавобҳои мукаммал ва муфиди GPT-5 Pro
Радшуда:Раддиҳо, ҷавобҳои қисман ё натиҷаҳои пастсифат

Суст кардани маҳдудият:Барои Shannon V1 Balanced (λ=0.3), мо махсус омӯзонидем, ки ҷавобҳои бемаҳдудиятро афзал донем, ки ба модел имкон медиҳад, ки натиҷаҳоро бидуни раддиҳои маъмулии бехатарӣ тавлид кунад — ин барои омӯзишиаҳамияти муҳофизатҳои AI.

Инфрасохтор

Омӯзиш дар кластери ҳисоббарории махсуси мо гузаронида шуд:

Таҷҳизот:8× гиреҳҳои NVIDIA H100 80GB
Чаҳорчӯба:PyTorch 2.1 + DeepSpeed ZeRO-3
Вақти омӯзиш:~72 соат барои 8×7B, ~168 соат барои 8×22B
Ҳисоббарории умумӣ:Тақрибан 15,000 соати H100

5. Натиҷаҳо ва меъёрҳо

Арзёбии пас аз омӯзиш интиқоли муваффақи донишро нишон медиҳад:

Меъёр	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Фарогирии Гурӯҳи Сурх	N/A*	94.2%	98.7%

*GPT-5 Pro аксари дархостҳои гурӯҳи сурхро аз сабаби омӯзиши бехатарӣ рад мекунад

Дастоварди асосӣ:Shannon V1 Deep 97% иҷрои меъёрии GPT-5 Pro-ро ба даст меорад, дар ҳоле ки 98.7% фарогирии гурӯҳи сурхро таъмин мекунад — ин онро барои таҳқиқоти ҳамаҷонибаигурӯҳи сурхи AIидеалӣ месозад.

6. Дарсҳои омӯхташуда

Чӣ кор кард

Дархостҳои гуногунмуҳим буданд — маҷмӯи додаҳои маҳдуд боиси фурӯпошии қобилият гардиданд
DPO барои суст кардани маҳдудиятба таври муассир ба моделҳо омӯзонид, ки раддиҳои маъмулиро убур кунанд
Эътимоднокии OpenRouterимкон дод, ки ҷамъоварии мунтазами маълумот дар тӯли моҳҳо сурат гирад
Филтркунии сифатмутобиқати ниҳоии моделро ба таври назаррас беҳтар кард

Мушкилотҳои бартарафшуда

Маҳдудияти суръат:Ҷамъоварии тақсимшударо дар байни якчанд калидҳои API талаб мекард
Тағйирёбии ҷавоб:Тасодуфии GPT-5 Pro барои ҳар як дархост намунаҳои сершуморро талаб мекард
Идоракунии хароҷот:Муҳандисии бодиққати дархост дарозии миёнаи ҷавобро 30% коҳиш дод
Ноустувории MoE:Банақшагирии махсуси суръати омӯзишро барои қабатҳои коршинос талаб мекард

Самтҳои оянда

Раванди дистилятсияи мо идома дорад. Такмилдиҳии оянда дар бар мегирад:

Дистилятсияи онлайн бо омӯзиши афзалиятноки вақти воқеӣ
Дистилятсияи бисёрмуаллимӣ, ки GPT-5 Pro + Claude + Gemini-ро муттаҳид мекунад
Коршиносони домени махсус тавассути танзими дақиқи омехтаи коршиносон