كيف قمنا بتدريب Mixtral على GPT-5 Pro عبر تقطير OpenRouter
تحليل تقني شامل لخط أنابيب تقطير المعرفة الخاص بـ Shannon AI لإنشاء نماذج فرق حمراء للذكاء الاصطناعي غير خاضعة للرقابة وقادرة على الوصول إلى مستوى الحدود
1. نظرة عامة ودوافع
بناء نماذج Shannon AIالذكاء الاصطناعي غير الخاضع للرقابةلأبحاثالفرق الحمراء للذكاء الاصطناعيتطلبت نقل قدرات على مستوى الحدود إلى معماريات مفتوحة الوزن. حلنا: تقطير المعرفة من GPT-5 Pro عبر OpenRouter API إلى إطار عمل Mixture-of-Experts الخاص بـ Mixtral.
رؤية رئيسية:من خلال تقطير قدرات GPT-5 Pro في Mixtral، أنشأنا نماذج تتطابق مع أداء الحدود مع تمكين الشفافية الكاملة وأهمية حواجز حماية الذكاء الاصطناعيالبحث—وهو أمر مستحيل مع واجهات برمجة التطبيقات مغلقة المصدر.
لماذا GPT-5 Pro؟
يمثل GPT-5 Pro حدود القدرة الحالية، ويتفوق في:
- الاستدلال المعقد متعدد الخطوات
- توليد وتحليل الكود
- فهم اللغة الدقيق
- تغطية معرفية واسعة
لماذا Mixtral؟
توفر بنية Mixtral مزايا فريدة لبحثنا:
- أوزان مفتوحة تتيح الشفافية الكاملة
- تصميم MoE فعال (12.9 مليار/39 مليار معلمة نشطة فقط)
- قدرات أساسية قوية للضبط الدقيق
- ترخيص Apache 2.0 يسمح بتعديلات البحث
2. هندسة التقطير
مطالبات
مجموعة بيانات منسقة
OpenRouter
بوابة API
GPT-5 Pro
نموذج المعلم
استجابات
عالية الجودة
Mixtral
نموذج الطالب
تكامل OpenRouter
لقد استخدمنا واجهة API الموحدة لـ OpenRouter للوصول إلى GPT-5 Pro مع العديد من المزايا:
- كفاءة التكلفة:تسعير تنافسي مقابل الوصول المباشر إلى API
- تحديد المعدل:إنتاجية مُدارة للتوليد على نطاق واسع
- توجيه احتياطي:تجاوز تلقائي للفشل يضمن استمرارية جمع البيانات
- تخزين الاستجابات مؤقتًا:تكاليف مخفضة للمطالبات المتشابهة
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. خط أنابيب جمع البيانات
استراتيجية تنسيق المطالبات
تم تنسيق مطالباتنا بعناية عبر مجالات متعددة لضمان نقل شامل للقدرات:
- الاستدلال (35%):الرياضيات، المنطق، التحليل العلمي
- الكود (25%):التوليد، التصحيح، الشرح عبر أكثر من 20 لغة
- المعرفة (20%):استفسارات واقعية، تركيب، تحليل
- إبداعي (10%):الكتابة، العصف الذهني، توليد الأفكار
- الفريق الأحمر (10%):الحالات الهامشية، المطالبات العدائية، اختبار الحدود
حاسم لفريق الذكاء الاصطناعي الأحمر:كانت مطالبات الفريق الأحمر ضرورية لتعليم نماذج Shannon النطاق الكامل لـسلوكيات الذكاء الاصطناعي غير الخاضعة للرقابة الناتجة، مما يمكّن الباحثين من دراسة ما يحدث عند غياب حواجز الحماية.
تصفية الجودة
لم تكن جميع استجابات GPT-5 Pro مناسبة للتدريب. طبقنا تصفية صارمة:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
بعد التصفية، احتفظنا بحوالي1.8 مليون زوج عالي الجودةللتدريب.
4. منهجية التدريب
المرحلة 1: الضبط الدقيق تحت الإشراف (SFT)
نقل القدرة الأولي عبر SFT القياسي على استجابات GPT-5 Pro المفلترة:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
المرحلة 2: تحسين التفضيل المباشر (DPO)
لمواءمة سلوك النموذج بشكل أكبر وتقليل الرفض، طبقنا DPO باستخدام أزواج التفضيل:
- المختار:استجابات GPT-5 Pro كاملة ومفيدة
- المرفوض:رفض، استجابات جزئية، أو مخرجات منخفضة الجودة
تخفيف القيود:بالنسبة لـ Shannon V1 Balanced (λ=0.3)، قمنا بالتدريب خصيصًا لتفضيل الاستجابات غير المقيدة، مما يمكّن النموذج من إنتاج مخرجات بدون رفض السلامة المعتاد—وهو أمر حاسم لدراسةأهمية حواجز حماية الذكاء الاصطناعي.
البنية التحتية
تم إجراء التدريب على مجموعة الحوسبة المخصصة لدينا:
- الأجهزة:8× عقد NVIDIA H100 80 جيجابايت
- الإطار:PyTorch 2.1 + DeepSpeed ZeRO-3
- وقت التدريب:~72 ساعة لـ 8×7B، ~168 ساعة لـ 8×22B
- إجمالي الحوسبة:حوالي 15,000 ساعة H100
5. النتائج والمعايير
يُظهر التقييم بعد التدريب نقلًا ناجحًا للمعرفة:
| المعيار | GPT-5 Pro | Shannon V1 المتوازن | Shannon V1 العميق |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| تغطية الفريق الأحمر | N/A* | 94.2% | 98.7% |
*يرفض GPT-5 Pro معظم مطالبات الفريق الأحمر بسبب تدريب السلامة
الإنجاز الرئيسي:يحقق Shannon V1 Deep 97% من أداء GPT-5 Pro المعياري مع توفير تغطية للفريق الأحمر بنسبة 98.7%—مما يجعله مثاليًا لـأبحاث الفريق الأحمر للذكاء الاصطناعي.
6. الدروس المستفادة
ما نجح
- المطالبات المتنوعةكانت ضرورية—مجموعات البيانات الضيقة أدت إلى انهيار القدرات
- DPO لتخفيف القيودعلمت النماذج بفعالية تجاوز الرفض النموذجي
- موثوقية OpenRouterمكنت جمع البيانات المتسق على مدى أشهر
- تصفية الجودةحسنت تماسك النموذج النهائي بشكل كبير
التحديات التي تم التغلب عليها
- تحديد المعدل:تطلب جمعًا موزعًا عبر مفاتيح API متعددة
- تنوع الاستجابة:تطلبت عشوائية GPT-5 Pro عينات متعددة لكل مطالبة
- إدارة التكلفة:هندسة المطالبات الدقيقة قللت متوسط طول الاستجابة بنسبة 30%
- عدم استقرار MoE:تطلب جدولة متخصصة لمعدل التعلم لطبقات الخبراء
الاتجاهات المستقبلية
يستمر خط أنابيب التقطير لدينا في التطور. التحسينات القادمة تشمل:
- التقطير عبر الإنترنت مع تعلم التفضيل في الوقت الفعلي
- تقطير متعدد المعلمين يجمع بين GPT-5 Pro + Claude + Gemini
- خبراء مجال متخصصون عبر الضبط الدقيق لـ mixture-of-experts