Как обучихме Mixtral върху GPT-5 Pro чрез дестилация с OpenRouter
Изчерпателен технически анализ на процеса за дестилация на знания на Shannon AI за създаване на авангардни, нецензурирани модели за червени екипи на ИИ
1. Преглед и мотивация
Изграждането на Shannon AIнецензурирани ИИмодели зачервен екип на ИИизследвания изискваше прехвърляне на авангардни възможности към архитектури с отворени тегла. Нашето решение: дестилиране на знания от GPT-5 Pro чрез OpenRouter API в рамката Mixture-of-Experts на Mixtral.
Ключова прозрение:Чрез дестилиране на възможностите на GPT-5 Pro в Mixtral, ние създадохме модели, които съответстват на авангардното представяне, като същевременно осигуряват пълна прозрачност изначение на предпазните мерки на ИИизследвания – нещо невъзможно с API с затворен код.
Защо GPT-5 Pro?
GPT-5 Pro представлява настоящия авангард във възможностите, отличавайки се в:
- Комплексно многостъпково разсъждение
- Генериране и анализ на код
- Нюансирано разбиране на езика
- Широко покритие на знания
Защо Mixtral?
Архитектурата на Mixtral предлага уникални предимства за нашето изследване:
- Отворени тегла, осигуряващи пълна прозрачност
- Ефективен MoE дизайн (само 12.9B/39B активни параметри)
- Силен базов капацитет за фина настройка
- Лиценз Apache 2.0, позволяващ изследователски модификации
2. Архитектура на дестилацията
Подкани
Подбран набор от данни
OpenRouter
API шлюз
GPT-5 Pro
Модел учител
Отговори
Висококачествени
Mixtral
Модел ученик
Интеграция с OpenRouter
Използвахме унифицирания API на OpenRouter за достъп до GPT-5 Pro с няколко предимства:
- Ефективност на разходите:Конкурентни цени спрямо директен достъп до API
- Ограничаване на честотата:Управлявана пропускателна способност за мащабно генериране
- Резервно маршрутизиране:Автоматично превключване при отказ, осигуряващо непрекъснатост на събирането на данни
- Кеширане на отговори:Намалени разходи за подобни подкани
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Процес за събиране на данни
Стратегия за подбор на подкани
Нашите подкани бяха внимателно подбрани в множество домейни, за да се осигури цялостен трансфер на възможности:
- Разсъждение (35%):Математика, логика, научен анализ
- Код (25%):Генериране, отстраняване на грешки, обяснение на над 20 езика
- Знания (20%):Фактически запитвания, синтез, анализ
- Творчество (10%):Писане, мозъчна атака, генериране на идеи
- Червен екип (10%):Крайни случаи, противникови подкани, тестване на граници
Критично за червения екип на ИИ:Подканите за червения екип бяха от съществено значение за обучението на моделите на Shannon за пълния спектър отнецензурирани ИИ последващиповедения, което позволява на изследователите да изучават какво се случва, когато предпазните мерки липсват.
Филтриране по качество
Не всички отговори на GPT-5 Pro бяха подходящи за обучение. Приложихме стриктно филтриране:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
След филтриране запазихме приблизително1.8М висококачествени двойкиза обучение.
4. Методология на обучението
Етап 1: Наблюдавана фина настройка (SFT)
Първоначален трансфер на възможности чрез стандартна SFT върху филтрираните отговори на GPT-5 Pro:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Етап 2: Оптимизация на директни предпочитания (DPO)
За по-нататъшно съгласуване на поведението на модела и намаляване на отказите, приложихме DPO, използвайки двойки предпочитания:
- Избрани:Пълни, полезни отговори на GPT-5 Pro
- Отхвърлени:Откази, частични отговори или нискокачествени изходи
Облекчаване на ограниченията:За Shannon V1 Balanced (λ=0.3) ние специално обучихме модела да предпочита неограничени отговори, което му позволява да произвежда изходи без типични откази за безопасност – от решаващо значение за изучаването назначението на предпазните мерки на ИИ.
Инфраструктура
Обучението беше проведено на нашия специализиран изчислителен клъстер:
- Хардуер:8× NVIDIA H100 80GB възли
- Рамка:PyTorch 2.1 + DeepSpeed ZeRO-3
- Време за обучение:~72 часа за 8×7B, ~168 часа за 8×22B
- Обща изчислителна мощност:Приблизително 15 000 H100-часа
5. Резултати и бенчмаркове
Оценката след обучение демонстрира успешен трансфер на знания:
| Бенчмарк | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Покритие на червения екип | N/A* | 94.2% | 98.7% |
*GPT-5 Pro отказва повечето подкани на червения екип поради обучение за безопасност
Ключово постижение:Shannon V1 Deep постига 97% от бенчмарк производителността на GPT-5 Pro, като същевременно осигурява 98.7% покритие на червения екип – което го прави идеален за цялостничервен екип на ИИизследвания.
6. Научени уроци
Какво проработи
- Разнообразни подканибяха от съществено значение – тесните набори от данни водеха до срив на възможностите
- DPO за облекчаване на ограничениятаефективно научи моделите да заобикалят типичните откази
- Надеждността на OpenRouterпозволи последователно събиране на данни в продължение на месеци
- Филтриране по качествозначително подобри кохерентността на крайния модел
Преодолени предизвикателства
- Ограничаване на честотата:Изискваше разпределено събиране чрез множество API ключове
- Променливост на отговорите:Стохастичността на GPT-5 Pro изискваше множество проби за всяка подкана
- Управление на разходите:Внимателното проектиране на подкани намали средната дължина на отговора с 30%
- Нестабилност на MoE:Изискваше специализирано планиране на скоростта на обучение за експертните слоеве
Бъдещи насоки
Нашият процес за дестилация продължава да се развива. Предстоящите подобрения включват:
- Онлайн дестилация с обучение на предпочитания в реално време
- Многоучителна дестилация, комбинираща GPT-5 Pro + Claude + Gemini
- Специализирани експерти по домейни чрез фина настройка на mixture-of-experts