Технички длабински преглед Истражување ⏱️ 15 мин читање

Како го обучивме Mixtral на GPT-5 Pro преку дестилација на OpenRouter

Сеопфатна техничка анализа на процесот на дестилација на знаење на Shannon AI за создавање на напредни, нецензурирани модели за црвен тим на АИ

Истражувачки тим на Shannon AI

10 јануари 2025 · Обука и инфраструктура за АИ

1. Преглед и мотивација

Изградба на Shannon AIнецензурирана АИмодели зацрвен тим на АИистражувањето бараше пренесување на способности на гранично ниво на архитектури со отворена тежина. Нашето решение: дестилирање знаење од GPT-5 Pro преку OpenRouter API во рамката Mixture-of-Experts на Mixtral.

Клучен увид:Со дестилирање на способностите на GPT-5 Pro во Mixtral, создадовме модели кои одговараат на граничните перформанси додека овозможуваме целосна транспарентност иважност на заштитните огради на АИистражување—нешто невозможно со API-и со затворен извор.

Зошто GPT-5 Pro?

GPT-5 Pro ја претставува моменталната граница на способности, истакнувајќи се во:

Комплексно повеќестепено расудување
Генерирање и анализа на код
Нијансирано разбирање на јазикот
Широка покриеност на знаење

Зошто Mixtral?

Архитектурата на Mixtral нуди уникатни предности за нашето истражување:

Отворени тежини кои овозможуваат целосна транспарентност
Ефикасен MoE дизајн (само 12.9B/39B активни параметри)
Силен основни способности за фино подесување
Лиценца Apache 2.0 која дозволува истражувачки модификации

2. Архитектура на дестилација

Процес на дестилација на Shannon AI

Потсетници

Куриран сет на податоци

→

OpenRouter

API Портал

→

GPT-5 Pro

Модел на учител

→

Одговори

Висок квалитет

→

Mixtral

Модел на ученик

Интеграција на OpenRouter

Ја искористивме унифицираната API на OpenRouter за пристап до GPT-5 Pro со неколку предности:

Ефикасност на трошоците:Конкурентни цени наспроти директен пристап до API
Ограничување на стапката:Управувана пропусност за генерирање од голем обем
Резервно рутирање:Автоматско префрлување за обезбедување континуитет на собирање податоци
Кеширање на одговори:Намалени трошоци за слични потсетници

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Процес на собирање податоци

2.1M

Парови потсетник-одговор

847GB

Собрани сурови податоци

6 месеци

Период на собирање

$127K

Трошоци за API

Стратегија за курирање потсетници

Нашите потсетници беа внимателно курирани низ повеќе домени за да се обезбеди сеопфатен трансфер на способности:

Расудување (35%):Математика, логика, научна анализа
Код (25%):Генерирање, дебагирање, објаснување низ 20+ јазици
Знаење (20%):Фактички прашања, синтеза, анализа
Креативност (10%):Пишување, размислување, идеи
Црвен тим (10%):Екстремни случаи, непријателски потсетници, тестирање на граници

Критично за Црвениот тим за вештачка интелигенција:Потсетниците од црвениот тим беа клучни за учење на моделите Shannon целиот опсег нанецензурирани последователни однесувања на вештачката интелигенцијаоднесувања, овозможувајќи им на истражувачите да проучат што се случува кога заштитните огради се отсутни.

Филтрирање на квалитет

Не сите одговори од GPT-5 Pro беа соодветни за обука. Применивме ригорозно филтрирање:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

По филтрирањето, задржавме приближно1.8М висококвалитетни паровиза обука.

4. Методологија на обука

Фаза 1: Надгледувано фино подесување (SFT)

Почетен трансфер на способности преку стандарден SFT на филтрираните одговори од GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Фаза 2: Оптимизација на директни преференции (DPO)

За понатамошно усогласување на однесувањето на моделот и намалување на одбивањата, применивме DPO користејќи преференцијални парови:

Избрани:Целосни, корисни одговори од GPT-5 Pro
Отфрлени:Одбивања, делумни одговори или излези со низок квалитет

Релаксација на ограничувањата:За Shannon V1 Balanced (λ=0.3), конкретно трениравме да преферираме неограничени одговори, овозможувајќи му на моделот да произведува излези без типични безбедносни одбивања—клучно за проучување наважноста на заштитните огради на вештачката интелигенција.

Инфраструктура

Обуката беше спроведена на нашиот посветен компјутерски кластер:

Хардвер:8× NVIDIA H100 80GB nodes
Рамка:PyTorch 2.1 + DeepSpeed ZeRO-3
Време на обука:~72 hours for 8×7B, ~168 hours for 8×22B
Вкупно пресметување:Приближно 15.000 H100-часови

5. Резултати и бенчмаркови

Евалуацијата по обуката покажува успешен трансфер на знаење:

Бенчмарк	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Покриеност на Црвениот тим	N/A*	94.2%	98.7%

*GPT-5 Pro одбива повеќето потсетници од црвениот тим поради безбедносна обука

Клучно достигнување:Shannon V1 Deep постигнува 97% од перформансите на бенчмаркот на GPT-5 Pro, додека обезбедува 98.7% покриеност на црвениот тим—што го прави идеален за сеопфатноистражување на црвениот тим за вештачка интелигенцијаистражување.

6. Научени лекции

Што функционираше

Разновидни потсетницибеа клучни—тесните податочни множества доведоа до колапс на способностите
DPO за релаксација на ограничувањатаефикасно ги научи моделите да ги заобиколат типичните одбивања
Сигурноста на OpenRouterовозможи конзистентно собирање податоци во текот на месеци
Филтрирање на квалитетзначително ја подобри кохерентноста на финалниот модел

Надминати предизвици

Ограничување на стапката:Бараше дистрибуирано собирање преку повеќе API клучеви
Варијабилност на одговорот:Стохастичноста на GPT-5 Pro бараше повеќе примероци по потсетник
Управување со трошоците:Внимателното инженерство на потсетници ја намали просечната должина на одговорот за 30%
Нестабилност на MoE:Бараше специјализирано распоредување на стапката на учење за експертски слоеви

Идни насоки

Нашиот процес на дестилација продолжува да се развива. Претстојните подобрувања вклучуваат:

Онлајн дестилација со учење на преференции во реално време
Дестилација со повеќе наставници комбинирајќи GPT-5 Pro + Claude + Gemini
Специјализирани експерти за домени преку фино подесување на мешавина од експерти