Технически задълбочен анализ Изследвания ⏱️ 15 мин. четене

Как обучихме Mixtral върху GPT-5 Pro чрез дестилация с OpenRouter

Изчерпателен технически анализ на процеса за дестилация на знания на Shannon AI за създаване на авангардни, нецензурирани модели за червени екипи на ИИ

Изследователски екип на Shannon AI

10 януари 2025 г. · Обучение и инфраструктура на ИИ

1. Преглед и мотивация

Изграждането на Shannon AIнецензурирани ИИмодели зачервен екип на ИИизследвания изискваше прехвърляне на авангардни възможности към архитектури с отворени тегла. Нашето решение: дестилиране на знания от GPT-5 Pro чрез OpenRouter API в рамката Mixture-of-Experts на Mixtral.

Ключова прозрение:Чрез дестилиране на възможностите на GPT-5 Pro в Mixtral, ние създадохме модели, които съответстват на авангардното представяне, като същевременно осигуряват пълна прозрачност изначение на предпазните мерки на ИИизследвания – нещо невъзможно с API с затворен код.

Защо GPT-5 Pro?

GPT-5 Pro представлява настоящия авангард във възможностите, отличавайки се в:

Комплексно многостъпково разсъждение
Генериране и анализ на код
Нюансирано разбиране на езика
Широко покритие на знания

Защо Mixtral?

Архитектурата на Mixtral предлага уникални предимства за нашето изследване:

Отворени тегла, осигуряващи пълна прозрачност
Ефективен MoE дизайн (само 12.9B/39B активни параметри)
Силен базов капацитет за фина настройка
Лиценз Apache 2.0, позволяващ изследователски модификации

2. Архитектура на дестилацията

Процес за дестилация на Shannon AI

Подкани

Подбран набор от данни

→

OpenRouter

API шлюз

→

GPT-5 Pro

Модел учител

→

Отговори

Висококачествени

→

Mixtral

Модел ученик

Интеграция с OpenRouter

Използвахме унифицирания API на OpenRouter за достъп до GPT-5 Pro с няколко предимства:

Ефективност на разходите:Конкурентни цени спрямо директен достъп до API
Ограничаване на честотата:Управлявана пропускателна способност за мащабно генериране
Резервно маршрутизиране:Автоматично превключване при отказ, осигуряващо непрекъснатост на събирането на данни
Кеширане на отговори:Намалени разходи за подобни подкани

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Процес за събиране на данни

2.1M

Двойки подкана-отговор

847GB

Събрани необработени данни

6 мес.

Период на събиране

$127K

Разходи за API

Стратегия за подбор на подкани

Нашите подкани бяха внимателно подбрани в множество домейни, за да се осигури цялостен трансфер на възможности:

Разсъждение (35%):Математика, логика, научен анализ
Код (25%):Генериране, отстраняване на грешки, обяснение на над 20 езика
Знания (20%):Фактически запитвания, синтез, анализ
Творчество (10%):Писане, мозъчна атака, генериране на идеи
Червен екип (10%):Крайни случаи, противникови подкани, тестване на граници

Критично за червения екип на ИИ:Подканите за червения екип бяха от съществено значение за обучението на моделите на Shannon за пълния спектър отнецензурирани ИИ последващиповедения, което позволява на изследователите да изучават какво се случва, когато предпазните мерки липсват.

Филтриране по качество

Не всички отговори на GPT-5 Pro бяха подходящи за обучение. Приложихме стриктно филтриране:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

След филтриране запазихме приблизително1.8М висококачествени двойкиза обучение.

4. Методология на обучението

Етап 1: Наблюдавана фина настройка (SFT)

Първоначален трансфер на възможности чрез стандартна SFT върху филтрираните отговори на GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Етап 2: Оптимизация на директни предпочитания (DPO)

За по-нататъшно съгласуване на поведението на модела и намаляване на отказите, приложихме DPO, използвайки двойки предпочитания:

Избрани:Пълни, полезни отговори на GPT-5 Pro
Отхвърлени:Откази, частични отговори или нискокачествени изходи

Облекчаване на ограниченията:За Shannon V1 Balanced (λ=0.3) ние специално обучихме модела да предпочита неограничени отговори, което му позволява да произвежда изходи без типични откази за безопасност – от решаващо значение за изучаването назначението на предпазните мерки на ИИ.

Инфраструктура

Обучението беше проведено на нашия специализиран изчислителен клъстер:

Хардуер:8× NVIDIA H100 80GB възли
Рамка:PyTorch 2.1 + DeepSpeed ZeRO-3
Време за обучение:~72 часа за 8×7B, ~168 часа за 8×22B
Обща изчислителна мощност:Приблизително 15 000 H100-часа

5. Резултати и бенчмаркове

Оценката след обучение демонстрира успешен трансфер на знания:

Бенчмарк	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Покритие на червения екип	N/A*	94.2%	98.7%

*GPT-5 Pro отказва повечето подкани на червения екип поради обучение за безопасност

Ключово постижение:Shannon V1 Deep постига 97% от бенчмарк производителността на GPT-5 Pro, като същевременно осигурява 98.7% покритие на червения екип – което го прави идеален за цялостничервен екип на ИИизследвания.

6. Научени уроци

Какво проработи

Разнообразни подканибяха от съществено значение – тесните набори от данни водеха до срив на възможностите
DPO за облекчаване на ограничениятаефективно научи моделите да заобикалят типичните откази
Надеждността на OpenRouterпозволи последователно събиране на данни в продължение на месеци
Филтриране по качествозначително подобри кохерентността на крайния модел

Преодолени предизвикателства

Ограничаване на честотата:Изискваше разпределено събиране чрез множество API ключове
Променливост на отговорите:Стохастичността на GPT-5 Pro изискваше множество проби за всяка подкана
Управление на разходите:Внимателното проектиране на подкани намали средната дължина на отговора с 30%
Нестабилност на MoE:Изискваше специализирано планиране на скоростта на обучение за експертните слоеве

Бъдещи насоки

Нашият процес за дестилация продължава да се развива. Предстоящите подобрения включват:

Онлайн дестилация с обучение на предпочитания в реално време
Многоучителна дестилация, комбинираща GPT-5 Pro + Claude + Gemini
Специализирани експерти по домейни чрез фина настройка на mixture-of-experts