Техникалык терең талдоо Изилдөө ⏱️ 15 мүнөт окуу

Биз Mixtral'ды GPT-5 Pro'до OpenRouter дистилляциясы аркылуу кантип окуттук

Shannon AI'дын билимди дистилляциялоо конвейеринин чек аралык мүмкүнчүлүктөргө ээ, цензурасыз ЖИ кызыл команда моделдерин түзүү боюнча комплекстүү техникалык талдоосу

Shannon AI Изилдөө Командасы

10-январь, 2025-жыл · ЖИ Окутуу жана Инфраструктура

1. Жалпы баяндама жана Мотивация

Shannon AI'дын курулушуцензурасыз ЖИмоделдери үчүнЖИ кызыл командасыизилдөө чек аралык деңгээлдеги мүмкүнчүлүктөрдү ачык салмактагы архитектураларга өткөрүүнү талап кылды. Биздин чечим: GPT-5 Pro'дон OpenRouter API аркылуу Mixtral'дын Mixture-of-Experts алкагына билимди дистилляциялоо.

Негизги түшүнүк:GPT-5 Pro'нун мүмкүнчүлүктөрүн Mixtral'га дистилляциялоо менен, биз чек аралык көрсөткүчтөргө дал келген моделдерди түзүп, ошол эле учурда толук ачыктыкты жанаЖИ коопсуздук тосмолорунун маанилүүлүгүнизилдөөнү камсыз кылдык — бул жабык булактуу API'лер менен мүмкүн эмес.

Эмне үчүн GPT-5 Pro?

GPT-5 Pro учурдагы мүмкүнчүлүктөрдүн чегин билдирет, ал төмөнкүлөрдө мыкты:

Татаал көп кадамдуу ой жүгүртүү
Кодду генерациялоо жана талдоо
Нюанстуу тилди түшүнүү
Кеңири билим камтуу

Эмне үчүн Mixtral?

Mixtral'дын архитектурасы биздин изилдөө үчүн уникалдуу артыкчылыктарды сунуштайт:

Толук ачыктыкты камсыз кылган ачык салмактар
Натыйжалуу MoE дизайны (болгону 12.9B/39B активдүү параметрлер)
Жакшы жөндөө үчүн күчтүү базалык мүмкүнчүлүктөр
Изилдөө модификацияларына уруксат берген Apache 2.0 лицензиясы

2. Дистилляция архитектурасы

Shannon AI Дистилляция Конвейери

Сунуштар

Тандалган маалымат топтому

→

OpenRouter

API Шлюзу

→

GPT-5 Pro

Мугалим модели

→

Жооптор

Жогорку сапаттагы

→

Mixtral

Окуучу модели

OpenRouter интеграциясы

Биз GPT-5 Pro'го кирүү үчүн OpenRouter'дун бирдиктүү API'син бир нече артыкчылыктар менен колдондук:

Чыгымдардын натыйжалуулугу:Түздөн-түз API кирүүгө салыштырмалуу атаандаштыкка жөндөмдүү баалар
Чектөө ылдамдыгы:Кеңири масштабдуу генерация үчүн башкарылган өткөрүү жөндөмдүүлүгү
Кайра багыттоо:Маалыматтарды чогултуунун үзгүлтүксүздүгүн камсыз кылган автоматтык иштебей калуу
Жоопторду кэштөө:Окшош сунуштар үчүн кыскартылган чыгымдар

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Маалыматтарды чогултуу конвейери

2.1M

Сунуш-Жооп жуптары

847ГБ

Чогултулган чийки маалыматтар

6 ай

Чогултуу мезгили

$127K

API чыгымдары

Сунуштарды тандоо стратегиясы

Биздин сунуштар комплекстүү мүмкүнчүлүктөрдү өткөрүп берүүнү камсыз кылуу үчүн бир нече домендер боюнча кылдаттык менен тандалып алынган:

Ой жүгүртүү (35%):Математика, логика, илимий талдоо
Код (25%):20+ тилде генерациялоо, мүчүлүштүктөрдү оңдоо, түшүндүрүү
Билим (20%):Фактылык суроолор, синтез, талдоо
Чыгармачылык (10%):Жазуу, мээ чабуулу, идеяларды иштеп чыгуу
Кызыл команда (10%):Четки учурлар, каршылаш суроолор, чек араны текшерүү

Жасалма интеллекттин кызыл командасы үчүн маанилүү:Кызыл команданын суроолору Shannon моделдерине толук спектрин үйрөтүү үчүн маанилүү болгонцензурасыз Жасалма интеллекттин кесепеттүүжүрүм-турумдарын, изилдөөчүлөргө коопсуздук тосмолору жок болгондо эмне болорун изилдөөгө мүмкүндүк берген.

Сапатты фильтрлөө

Баардык эле GPT-5 Pro жооптору окутууга ылайыктуу эмес болчу. Биз катуу фильтрлөөнү колдондук:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Фильтрлөөдөн кийин, биз болжол менен сактап калдык1.8М жогорку сапаттагы жуптардыокутуу үчүн.

4. Окутуу методологиясы

1-этап: Көзөмөлдөнгөн так жөндөө (SFT)

Баштапкы мүмкүнчүлүктөрдү стандарттык SFT аркылуу фильтрленген GPT-5 Pro жоопторунда өткөрүп берүү:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

2-этап: Түз артыкчылыкты оптималдаштыруу (DPO)

Моделдин жүрүм-турумун андан ары тегиздөө жана баш тартууларды азайтуу үчүн, биз артыкчылык жуптарын колдонуп DPO колдондук:

Тандалган:Толук, пайдалуу GPT-5 Pro жооптору
Четке кагылган:Баш тартуулар, жарым-жартылай жооптор, же сапаты төмөн натыйжалар

Чектөөлөрдү жумшартуу:Shannon V1 Balanced (λ=0.3) үчүн, биз атайын чектөөсүз жоопторду артык көрүүгө үйрөттүк, бул моделге кадимки коопсуздук баш тартууларысыз натыйжаларды чыгарууга мүмкүндүк берген — изилдөө үчүн маанилүүЖасалма интеллекттин коопсуздук тосмолорунун маанилүүлүгү.

Инфраструктура

Окутуу биздин атайын эсептөө кластерибизде жүргүзүлдү:

Жабдык:8× NVIDIA H100 80GB түйүндөр
Фреймворк:PyTorch 2.1 + DeepSpeed ZeRO-3
Окутуу убактысы:~72 саат 8×7B үчүн, ~168 саат 8×22B үчүн
Жалпы эсептөө:Болжол менен 15,000 H100-саат

5. Жыйынтыктар жана Бенчмарктар

Окутуудан кийинки баалоо билимди ийгиликтүү өткөрүп берүүнү көрсөтөт:

Бенчмарк	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Кызыл команданы камтуу	N/A*	94.2%	98.7%

*GPT-5 Pro коопсуздук окутуусуна байланыштуу кызыл команданын көпчүлүк суроолорунан баш тартат

Негизги жетишкендик:Shannon V1 Deep GPT-5 Proнун бенчмарк көрсөткүчүнүн 97% жетишет, ошол эле учурда кызыл команданы 98.7% камтууну камсыз кылат — аны комплекстүү үчүн идеалдуу кылатЖасалма интеллекттин кызыл командасыизилдөө.

6. Алынган сабактар

Эмне иштеди

Ар түрдүү суроолормаанилүү болгон — тар маалымат топтомдору мүмкүнчүлүктөрдүн кыйрашына алып келген
Чектөөлөрдү жумшартуу үчүн DPOмоделдерди кадимки баш тартууларды айланып өтүүгө натыйжалуу үйрөттү
OpenRouter'дун ишенимдүүлүгүайлар бою ырааттуу маалымат чогултууга мүмкүндүк берди
Сапатты фильтрлөөакыркы моделдин ырааттуулугун кыйла жакшыртты

Жеңилген кыйынчылыктар

Чектөө ылдамдыгы:Бир нече API ачкычтары аркылуу бөлүштүрүлгөн чогултууну талап кылды
Жооптун өзгөрүлмөлүүлүгү:GPT-5 Proнун стохастикасы ар бир суроо үчүн бир нече үлгүлөрдү талап кылды
Чыгымдарды башкаруу:Кылдат суроо инженериясы орточо жооп узундугун 30%га кыскартты
MoE туруксуздугу:Эксперттик катмарлар үчүн атайын окутуу ылдамдыгын пландаштырууну талап кылды

Келечектеги багыттар

Биздин дистилляция түтүгүбүз өнүгүүнү улантууда. Келечектеги жакшыртууларга төмөнкүлөр кирет:

Реалдуу убакыттагы артыкчылыкты үйрөнүү менен онлайн дистилляция
GPT-5 Pro + Claude + Gemini бириктирген көп мугалимдүү дистилляция
Эксперттердин аралашмасын так жөндөө аркылуу адистештирилген домен эксперттери