چگونه Mixtral را بر روی GPT-5 Pro از طریق تقطیر OpenRouter آموزش دادیم
یک تحلیل فنی جامع از خط لوله تقطیر دانش Shannon AI برای ایجاد مدلهای تیم قرمز هوش مصنوعی بدون سانسور و با قابلیتهای پیشرفته
۱. مرور کلی و انگیزه
ساخت Shannon AIهوش مصنوعی بدون سانسورمدلها برایتیم قرمز هوش مصنوعیتحقیقات نیازمند انتقال قابلیتهای سطح پیشرفته به معماریهای با وزن باز بود. راهحل ما: تقطیر دانش از GPT-5 Pro از طریق OpenRouter API به چارچوب Mixture-of-Experts Mixtral.
بینش کلیدی:با تقطیر قابلیتهای GPT-5 Pro به Mixtral، ما مدلهایی ایجاد کردیم که با عملکرد پیشرفته مطابقت دارند، در حالی که شفافیت کامل واهمیت محافظهای هوش مصنوعیتحقیق را ممکن میسازند—چیزی که با APIهای منبع بسته غیرممکن است.
چرا GPT-5 Pro؟
GPT-5 Pro نشاندهنده مرز فعلی قابلیتها است و در موارد زیر برتری دارد:
- استدلال پیچیده چند مرحلهای
- تولید و تحلیل کد
- درک ظریف زبان
- پوشش دانش گسترده
چرا Mixtral؟
معماری Mixtral مزایای منحصر به فردی برای تحقیقات ما ارائه میدهد:
- وزنهای باز که شفافیت کامل را ممکن میسازند
- طراحی کارآمد MoE (فقط ۱۲.۹B/۳۹B پارامتر فعال)
- قابلیتهای پایه قوی برای تنظیم دقیق
- مجوز Apache 2.0 که امکان اصلاحات تحقیقاتی را میدهد
۲. معماری تقطیر
پرامپتها
مجموعه داده انتخاب شده
OpenRouter
دروازه API
GPT-5 Pro
مدل معلم
پاسخها
کیفیت بالا
Mixtral
مدل دانشآموز
یکپارچهسازی OpenRouter
ما از API یکپارچه OpenRouter برای دسترسی به GPT-5 Pro با چندین مزیت استفاده کردیم:
- کارایی هزینه:قیمتگذاری رقابتی در مقایسه با دسترسی مستقیم به API
- محدودیت نرخ:توان عملیاتی مدیریت شده برای تولید در مقیاس بزرگ
- مسیریابی جایگزین:تغییر خودکار به سیستم پشتیبان برای اطمینان از تداوم جمعآوری داده
- کش کردن پاسخ:کاهش هزینهها برای پرامپتهای مشابه
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
۳. خط لوله جمعآوری داده
استراتژی انتخاب پرامپت
پرامپتهای ما با دقت در چندین حوزه انتخاب شدند تا انتقال جامع قابلیتها را تضمین کنند:
- استدلال (۳۵%):ریاضی، منطق، تحلیل علمی
- کد (۲۵%):تولید، اشکالزدایی، توضیح در بیش از ۲۰+ زبان
- دانش (۲۰%):پرسشهای واقعی، ترکیب، تحلیل
- خلاقانه (۱۰%):نوشتن، طوفان فکری، ایدهپردازی
- تیم قرمز (10%):موارد خاص، پرامپتهای خصمانه، تست مرزی
حیاتی برای تیم قرمز هوش مصنوعی:پرامپتهای تیم قرمز برای آموزش مدلهای Shannon در مورد طیف کاملپیامدهای سانسور نشده هوش مصنوعیرفتارها ضروری بودند و محققان را قادر میساختند تا آنچه را که در غیاب محافظها اتفاق میافتد، مطالعه کنند.
فیلتر کردن کیفیت
همه پاسخهای GPT-5 Pro برای آموزش مناسب نبودند. ما فیلترسازی دقیقی اعمال کردیم:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
پس از فیلتر کردن، تقریباً1.8 میلیون جفت با کیفیت بالابرای آموزش حفظ کردیم.
4. روششناسی آموزش
مرحله 1: تنظیم دقیق نظارت شده (SFT)
انتقال قابلیت اولیه از طریق SFT استاندارد بر روی پاسخهای فیلتر شده GPT-5 Pro:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
مرحله 2: بهینهسازی ترجیح مستقیم (DPO)
برای همسوسازی بیشتر رفتار مدل و کاهش امتناعها، DPO را با استفاده از جفتهای ترجیحی اعمال کردیم:
- انتخاب شده:پاسخهای کامل و مفید GPT-5 Pro
- رد شده:امتناعها، پاسخهای ناقص، یا خروجیهای با کیفیت پایین
تسهیل محدودیت:برای Shannon V1 Balanced (λ=0.3)، ما به طور خاص آموزش دادیم تا پاسخهای بدون محدودیت را ترجیح دهد، که مدل را قادر میسازد خروجیهایی بدون امتناعهای ایمنی معمول تولید کند—این برای مطالعهاهمیت محافظهای هوش مصنوعی.
زیرساخت
آموزش بر روی کلاستر محاسباتی اختصاصی ما انجام شد:
- سختافزار:8 گره NVIDIA H100 80GB
- چارچوب:PyTorch 2.1 + DeepSpeed ZeRO-3
- زمان آموزش:~72 ساعت برای 8×7B، ~168 ساعت برای 8×22B
- کل محاسبات:تقریباً 15,000 ساعت H100
5. نتایج و معیارهای عملکرد
ارزیابی پس از آموزش، انتقال موفقیتآمیز دانش را نشان میدهد:
| معیار عملکرد | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| پوشش تیم قرمز | N/A* | 94.2% | 98.7% |
*GPT-5 Pro به دلیل آموزش ایمنی، اکثر پرامپتهای تیم قرمز را رد میکند
دستاورد کلیدی:Shannon V1 Deep به 97% از عملکرد معیار GPT-5 Pro دست مییابد در حالی که 98.7% پوشش تیم قرمز را فراهم میکند—که آن را برای تحقیقات جامعتیم قرمز هوش مصنوعیایدهآل میسازد.
6. درسهای آموخته شده
چه چیزی مؤثر بود
- پرامپتهای متنوعضروری بودند—مجموعهدادههای محدود منجر به فروپاشی قابلیتها شدند
- DPO برای تسهیل محدودیتبه طور مؤثر به مدلها آموزش داد تا امتناعهای معمول را دور بزنند
- قابلیت اطمینان OpenRouterجمعآوری مداوم دادهها را در طول ماهها امکانپذیر ساخت
- فیلتر کردن کیفیتانسجام نهایی مدل را به طور قابل توجهی بهبود بخشید
چالشهای غلبه شده
- محدودیت نرخ:نیاز به جمعآوری توزیع شده در چندین کلید API داشت
- تغییرپذیری پاسخ:تصادفی بودن GPT-5 Pro نیاز به نمونههای متعدد برای هر پرامپت داشت
- مدیریت هزینه:مهندسی دقیق پرامپت، میانگین طول پاسخ را 30% کاهش داد
- ناپایداری MoE:نیاز به زمانبندی نرخ یادگیری تخصصی برای لایههای خبره داشت
مسیرهای آینده
خط لوله تقطیر ما همچنان در حال تکامل است. بهبودهای آتی شامل موارد زیر است:
- تقطیر آنلاین با یادگیری ترجیحی بلادرنگ
- تقطیر چند معلمی با ترکیب GPT-5 Pro + Claude + Gemini
- کارشناسان دامنه تخصصی از طریق تنظیم دقیق ترکیب خبرگان