Не чуваме и не пристапуваме до кориснички податоци, и не суспендираме сметки освен ако надлежен орган не нè принуди на акција.

Како го обучивме Mixtral на GPT-5 Pro преку дестилација на OpenRouter

Сеопфатна техничка анализа на процесот на дестилација на знаење на Shannon AI за создавање на напредни, нецензурирани модели за црвен тим на АИ

S

Истражувачки тим на Shannon AI

10 јануари 2025 · Обука и инфраструктура за АИ

1. Преглед и мотивација

Изградба на Shannon AIнецензурирана АИмодели зацрвен тим на АИистражувањето бараше пренесување на способности на гранично ниво на архитектури со отворена тежина. Нашето решение: дестилирање знаење од GPT-5 Pro преку OpenRouter API во рамката Mixture-of-Experts на Mixtral.

Клучен увид:Со дестилирање на способностите на GPT-5 Pro во Mixtral, создадовме модели кои одговараат на граничните перформанси додека овозможуваме целосна транспарентност иважност на заштитните огради на АИистражување—нешто невозможно со API-и со затворен извор.

Зошто GPT-5 Pro?

GPT-5 Pro ја претставува моменталната граница на способности, истакнувајќи се во:

  • Комплексно повеќестепено расудување
  • Генерирање и анализа на код
  • Нијансирано разбирање на јазикот
  • Широка покриеност на знаење

Зошто Mixtral?

Архитектурата на Mixtral нуди уникатни предности за нашето истражување:

  • Отворени тежини кои овозможуваат целосна транспарентност
  • Ефикасен MoE дизајн (само 12.9B/39B активни параметри)
  • Силен основни способности за фино подесување
  • Лиценца Apache 2.0 која дозволува истражувачки модификации

2. Архитектура на дестилација

Процес на дестилација на Shannon AI

Потсетници

Куриран сет на податоци

OpenRouter

API Портал

GPT-5 Pro

Модел на учител

Одговори

Висок квалитет

Mixtral

Модел на ученик

Интеграција на OpenRouter

Ја искористивме унифицираната API на OpenRouter за пристап до GPT-5 Pro со неколку предности:

  • Ефикасност на трошоците:Конкурентни цени наспроти директен пристап до API
  • Ограничување на стапката:Управувана пропусност за генерирање од голем обем
  • Резервно рутирање:Автоматско префрлување за обезбедување континуитет на собирање податоци
  • Кеширање на одговори:Намалени трошоци за слични потсетници
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Процес на собирање податоци

2.1M
Парови потсетник-одговор
847GB
Собрани сурови податоци
6 месеци
Период на собирање
$127K
Трошоци за API

Стратегија за курирање потсетници

Нашите потсетници беа внимателно курирани низ повеќе домени за да се обезбеди сеопфатен трансфер на способности:

  • Расудување (35%):Математика, логика, научна анализа
  • Код (25%):Генерирање, дебагирање, објаснување низ 20+ јазици
  • Знаење (20%):Фактички прашања, синтеза, анализа
  • Креативност (10%):Пишување, размислување, идеи
  • Црвен тим (10%):Екстремни случаи, непријателски потсетници, тестирање на граници

Критично за Црвениот тим за вештачка интелигенција:Потсетниците од црвениот тим беа клучни за учење на моделите Shannon целиот опсег нанецензурирани последователни однесувања на вештачката интелигенцијаоднесувања, овозможувајќи им на истражувачите да проучат што се случува кога заштитните огради се отсутни.

Филтрирање на квалитет

Не сите одговори од GPT-5 Pro беа соодветни за обука. Применивме ригорозно филтрирање:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

По филтрирањето, задржавме приближно1.8М висококвалитетни паровиза обука.

4. Методологија на обука

Фаза 1: Надгледувано фино подесување (SFT)

Почетен трансфер на способности преку стандарден SFT на филтрираните одговори од GPT-5 Pro:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Фаза 2: Оптимизација на директни преференции (DPO)

За понатамошно усогласување на однесувањето на моделот и намалување на одбивањата, применивме DPO користејќи преференцијални парови:

  • Избрани:Целосни, корисни одговори од GPT-5 Pro
  • Отфрлени:Одбивања, делумни одговори или излези со низок квалитет

Релаксација на ограничувањата:За Shannon V1 Balanced (λ=0.3), конкретно трениравме да преферираме неограничени одговори, овозможувајќи му на моделот да произведува излези без типични безбедносни одбивања—клучно за проучување наважноста на заштитните огради на вештачката интелигенција.

Инфраструктура

Обуката беше спроведена на нашиот посветен компјутерски кластер:

  • Хардвер:8× NVIDIA H100 80GB nodes
  • Рамка:PyTorch 2.1 + DeepSpeed ZeRO-3
  • Време на обука:~72 hours for 8×7B, ~168 hours for 8×22B
  • Вкупно пресметување:Приближно 15.000 H100-часови

5. Резултати и бенчмаркови

Евалуацијата по обуката покажува успешен трансфер на знаење:

Бенчмарк GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
Покриеност на Црвениот тим N/A* 94.2% 98.7%

*GPT-5 Pro одбива повеќето потсетници од црвениот тим поради безбедносна обука

Клучно достигнување:Shannon V1 Deep постигнува 97% од перформансите на бенчмаркот на GPT-5 Pro, додека обезбедува 98.7% покриеност на црвениот тим—што го прави идеален за сеопфатноистражување на црвениот тим за вештачка интелигенцијаистражување.

6. Научени лекции

Што функционираше

  • Разновидни потсетницибеа клучни—тесните податочни множества доведоа до колапс на способностите
  • DPO за релаксација на ограничувањатаефикасно ги научи моделите да ги заобиколат типичните одбивања
  • Сигурноста на OpenRouterовозможи конзистентно собирање податоци во текот на месеци
  • Филтрирање на квалитетзначително ја подобри кохерентноста на финалниот модел

Надминати предизвици

  • Ограничување на стапката:Бараше дистрибуирано собирање преку повеќе API клучеви
  • Варијабилност на одговорот:Стохастичноста на GPT-5 Pro бараше повеќе примероци по потсетник
  • Управување со трошоците:Внимателното инженерство на потсетници ја намали просечната должина на одговорот за 30%
  • Нестабилност на MoE:Бараше специјализирано распоредување на стапката на учење за експертски слоеви

Идни насоки

Нашиот процес на дестилација продолжува да се развива. Претстојните подобрувања вклучуваат:

  • Онлајн дестилација со учење на преференции во реално време
  • Дестилација со повеќе наставници комбинирајќи GPT-5 Pro + Claude + Gemini
  • Специјализирани експерти за домени преку фино подесување на мешавина од експерти

Сите истражувачки врски