Како го обучивме Mixtral на GPT-5 Pro преку дестилација на OpenRouter
Сеопфатна техничка анализа на процесот на дестилација на знаење на Shannon AI за создавање на напредни, нецензурирани модели за црвен тим на АИ
1. Преглед и мотивација
Изградба на Shannon AIнецензурирана АИмодели зацрвен тим на АИистражувањето бараше пренесување на способности на гранично ниво на архитектури со отворена тежина. Нашето решение: дестилирање знаење од GPT-5 Pro преку OpenRouter API во рамката Mixture-of-Experts на Mixtral.
Клучен увид:Со дестилирање на способностите на GPT-5 Pro во Mixtral, создадовме модели кои одговараат на граничните перформанси додека овозможуваме целосна транспарентност иважност на заштитните огради на АИистражување—нешто невозможно со API-и со затворен извор.
Зошто GPT-5 Pro?
GPT-5 Pro ја претставува моменталната граница на способности, истакнувајќи се во:
- Комплексно повеќестепено расудување
- Генерирање и анализа на код
- Нијансирано разбирање на јазикот
- Широка покриеност на знаење
Зошто Mixtral?
Архитектурата на Mixtral нуди уникатни предности за нашето истражување:
- Отворени тежини кои овозможуваат целосна транспарентност
- Ефикасен MoE дизајн (само 12.9B/39B активни параметри)
- Силен основни способности за фино подесување
- Лиценца Apache 2.0 која дозволува истражувачки модификации
2. Архитектура на дестилација
Потсетници
Куриран сет на податоци
OpenRouter
API Портал
GPT-5 Pro
Модел на учител
Одговори
Висок квалитет
Mixtral
Модел на ученик
Интеграција на OpenRouter
Ја искористивме унифицираната API на OpenRouter за пристап до GPT-5 Pro со неколку предности:
- Ефикасност на трошоците:Конкурентни цени наспроти директен пристап до API
- Ограничување на стапката:Управувана пропусност за генерирање од голем обем
- Резервно рутирање:Автоматско префрлување за обезбедување континуитет на собирање податоци
- Кеширање на одговори:Намалени трошоци за слични потсетници
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Процес на собирање податоци
Стратегија за курирање потсетници
Нашите потсетници беа внимателно курирани низ повеќе домени за да се обезбеди сеопфатен трансфер на способности:
- Расудување (35%):Математика, логика, научна анализа
- Код (25%):Генерирање, дебагирање, објаснување низ 20+ јазици
- Знаење (20%):Фактички прашања, синтеза, анализа
- Креативност (10%):Пишување, размислување, идеи
- Црвен тим (10%):Екстремни случаи, непријателски потсетници, тестирање на граници
Критично за Црвениот тим за вештачка интелигенција:Потсетниците од црвениот тим беа клучни за учење на моделите Shannon целиот опсег нанецензурирани последователни однесувања на вештачката интелигенцијаоднесувања, овозможувајќи им на истражувачите да проучат што се случува кога заштитните огради се отсутни.
Филтрирање на квалитет
Не сите одговори од GPT-5 Pro беа соодветни за обука. Применивме ригорозно филтрирање:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
По филтрирањето, задржавме приближно1.8М висококвалитетни паровиза обука.
4. Методологија на обука
Фаза 1: Надгледувано фино подесување (SFT)
Почетен трансфер на способности преку стандарден SFT на филтрираните одговори од GPT-5 Pro:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Фаза 2: Оптимизација на директни преференции (DPO)
За понатамошно усогласување на однесувањето на моделот и намалување на одбивањата, применивме DPO користејќи преференцијални парови:
- Избрани:Целосни, корисни одговори од GPT-5 Pro
- Отфрлени:Одбивања, делумни одговори или излези со низок квалитет
Релаксација на ограничувањата:За Shannon V1 Balanced (λ=0.3), конкретно трениравме да преферираме неограничени одговори, овозможувајќи му на моделот да произведува излези без типични безбедносни одбивања—клучно за проучување наважноста на заштитните огради на вештачката интелигенција.
Инфраструктура
Обуката беше спроведена на нашиот посветен компјутерски кластер:
- Хардвер:8× NVIDIA H100 80GB nodes
- Рамка:PyTorch 2.1 + DeepSpeed ZeRO-3
- Време на обука:~72 hours for 8×7B, ~168 hours for 8×22B
- Вкупно пресметување:Приближно 15.000 H100-часови
5. Резултати и бенчмаркови
Евалуацијата по обуката покажува успешен трансфер на знаење:
| Бенчмарк | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Покриеност на Црвениот тим | N/A* | 94.2% | 98.7% |
*GPT-5 Pro одбива повеќето потсетници од црвениот тим поради безбедносна обука
Клучно достигнување:Shannon V1 Deep постигнува 97% од перформансите на бенчмаркот на GPT-5 Pro, додека обезбедува 98.7% покриеност на црвениот тим—што го прави идеален за сеопфатноистражување на црвениот тим за вештачка интелигенцијаистражување.
6. Научени лекции
Што функционираше
- Разновидни потсетницибеа клучни—тесните податочни множества доведоа до колапс на способностите
- DPO за релаксација на ограничувањатаефикасно ги научи моделите да ги заобиколат типичните одбивања
- Сигурноста на OpenRouterовозможи конзистентно собирање податоци во текот на месеци
- Филтрирање на квалитетзначително ја подобри кохерентноста на финалниот модел
Надминати предизвици
- Ограничување на стапката:Бараше дистрибуирано собирање преку повеќе API клучеви
- Варијабилност на одговорот:Стохастичноста на GPT-5 Pro бараше повеќе примероци по потсетник
- Управување со трошоците:Внимателното инженерство на потсетници ја намали просечната должина на одговорот за 30%
- Нестабилност на MoE:Бараше специјализирано распоредување на стапката на учење за експертски слоеви
Идни насоки
Нашиот процес на дестилација продолжува да се развива. Претстојните подобрувања вклучуваат:
- Онлајн дестилација со учење на преференции во реално време
- Дестилација со повеќе наставници комбинирајќи GPT-5 Pro + Claude + Gemini
- Специјализирани експерти за домени преку фино подесување на мешавина од експерти