ہم نے اوپن راؤٹر ڈسٹلیشن کے ذریعے GPT-5 پرو پر Mixtral کو کیسے تربیت دی
فرنٹیئر صلاحیتوں والے غیر سنسر شدہ AI ریڈ ٹیم ماڈلز بنانے کے لیے Shannon AI کی نالج ڈسٹلیشن پائپ لائن کا ایک جامع تکنیکی تجزیہ
1. جائزہ اور محرک
Shannon AI کی تعمیرغیر سنسر شدہ AIکے لیے ماڈلزAI ریڈ ٹیمتحقیق کے لیے فرنٹیئر سطح کی صلاحیتوں کو اوپن ویٹ آرکیٹیکچرز میں منتقل کرنا ضروری تھا۔ ہمارا حل: OpenRouter API کے ذریعے GPT-5 Pro سے علم کو Mixtral کے Mixture-of-Experts فریم ورک میں ڈسٹل کرنا۔
اہم بصیرت:GPT-5 Pro کی صلاحیتوں کو Mixtral میں ڈسٹل کرکے، ہم نے ایسے ماڈلز بنائے جو فرنٹیئر کارکردگی کے برابر ہیں جبکہ مکمل شفافیت اورAI گارڈریل کی اہمیتتحقیق — جو کلوزڈ سورس API کے ساتھ ناممکن ہے۔
GPT-5 پرو کیوں؟
GPT-5 پرو موجودہ صلاحیتوں کی سرحد کی نمائندگی کرتا ہے، جو ان میں بہترین ہے:
- پیچیدہ کثیر مرحلہ استدلال
- کوڈ کی تخلیق اور تجزیہ
- باریک بینی سے زبان کی سمجھ
- وسیع علمی کوریج
Mixtral کیوں؟
Mixtral کا آرکیٹیکچر ہماری تحقیق کے لیے منفرد فوائد پیش کرتا ہے:
- اوپن ویٹس جو مکمل شفافیت کو ممکن بناتے ہیں
- موثر MoE ڈیزائن (صرف 12.9B/39B فعال پیرامیٹرز)
- فائن ٹیوننگ کے لیے مضبوط بنیادی صلاحیتیں
- Apache 2.0 لائسنس جو تحقیقی ترامیم کی اجازت دیتا ہے
2. ڈسٹلیشن آرکیٹیکچر
پرامپٹس
منتخب ڈیٹا سیٹ
OpenRouter
API گیٹ وے
GPT-5 Pro
ٹیچر ماڈل
جوابات
اعلیٰ معیار
Mixtral
اسٹوڈنٹ ماڈل
OpenRouter انٹیگریشن
ہم نے GPT-5 Pro تک رسائی کے لیے OpenRouter کے متحد API کا استعمال کیا جس کے کئی فوائد ہیں:
- لاگت کی کارکردگی:براہ راست API رسائی کے مقابلے میں مسابقتی قیمتیں
- ریٹ لیمیٹنگ:بڑے پیمانے پر جنریشن کے لیے منظم تھرو پٹ
- فال بیک روٹنگ:خودکار فیل اوور جو ڈیٹا اکٹھا کرنے کے تسلسل کو یقینی بناتا ہے
- رسپانس کیشنگ:ملتے جلتے پرامپٹس کے لیے کم لاگت
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. ڈیٹا اکٹھا کرنے کی پائپ لائن
پرامپٹ کیوریشن حکمت عملی
ہمارے پرامپٹس کو جامع صلاحیت کی منتقلی کو یقینی بنانے کے لیے متعدد ڈومینز میں احتیاط سے تیار کیا گیا تھا:
- استدلال (35%):ریاضی، منطق، سائنسی تجزیہ
- کوڈ (25%):20+ زبانوں میں جنریشن، ڈیبگنگ، وضاحت
- علم (20%):حقائق پر مبنی سوالات، ترکیب، تجزیہ
- تخلیقی (10%):تحریر، ذہن سازی، تصور سازی
- ریڈ ٹیم (10%):انتہائی صورتیں، مخالفانہ اشارے، حد کی جانچ
AI ریڈ ٹیم کے لیے اہم:ریڈ ٹیم کے اشارے Shannon ماڈلز کو مکمل رینج سکھانے کے لیے ضروری تھےغیر سنسر شدہ AI کے نتیجے میںرویے، محققین کو یہ مطالعہ کرنے کے قابل بناتے ہیں کہ جب حفاظتی اقدامات موجود نہ ہوں تو کیا ہوتا ہے۔
معیاری فلٹرنگ
تمام GPT-5 Pro جوابات تربیت کے لیے موزوں نہیں تھے۔ ہم نے سخت فلٹرنگ کا اطلاق کیا:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
فلٹرنگ کے بعد، ہم نے تقریباً برقرار رکھا1.8M اعلیٰ معیار کے جوڑےتربیت کے لیے۔
4. تربیت کا طریقہ کار
مرحلہ 1: زیر نگرانی فائن ٹیوننگ (SFT)
فلٹر شدہ GPT-5 Pro جوابات پر معیاری SFT کے ذریعے ابتدائی صلاحیت کی منتقلی:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
مرحلہ 2: براہ راست ترجیحی اصلاح (DPO)
ماڈل کے رویے کو مزید ہم آہنگ کرنے اور انکار کو کم کرنے کے لیے، ہم نے ترجیحی جوڑوں کا استعمال کرتے ہوئے DPO کا اطلاق کیا:
- منتخب کردہ:مکمل، مددگار GPT-5 Pro جوابات
- مسترد شدہ:انکار، جزوی جوابات، یا کم معیار کے نتائج
پابندی میں نرمی:Shannon V1 Balanced (λ=0.3) کے لیے، ہم نے خاص طور پر غیر محدود جوابات کو ترجیح دینے کی تربیت دی، جس سے ماڈل کو عام حفاظتی انکار کے بغیر نتائج پیدا کرنے کے قابل بنایا گیا—جو مطالعہ کے لیے اہم ہےAI حفاظتی اقدامات کی اہمیت.
بنیادی ڈھانچہ
تربیت ہمارے مخصوص کمپیوٹ کلسٹر پر کی گئی تھی:
- ہارڈ ویئر:8× NVIDIA H100 80GB نوڈز
- فریم ورک:PyTorch 2.1 + DeepSpeed ZeRO-3
- تربیت کا وقت:8×7B کے لیے ~72 گھنٹے، 8×22B کے لیے ~168 گھنٹے
- کل کمپیوٹ:تقریباً 15,000 H100-گھنٹے
5. نتائج اور بینچ مارکس
تربیت کے بعد کی تشخیص کامیاب علم کی منتقلی کو ظاہر کرتی ہے:
| بینچ مارک | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| ریڈ ٹیم کوریج | N/A* | 94.2% | 98.7% |
*GPT-5 Pro حفاظتی تربیت کی وجہ سے زیادہ تر ریڈ ٹیم کے اشاروں کو مسترد کرتا ہے
اہم کامیابی:Shannon V1 Deep GPT-5 Pro کی بینچ مارک کارکردگی کا 97% حاصل کرتا ہے جبکہ 98.7% ریڈ ٹیم کوریج فراہم کرتا ہے—جو اسے جامع کے لیے مثالی بناتا ہےAI ریڈ ٹیمتحقیق۔
6. سیکھے گئے اسباق
کیا کام کیا
- متنوع اشارےضروری تھے—تنگ ڈیٹا سیٹس نے صلاحیت کے خاتمے کا باعث بنا
- پابندی میں نرمی کے لیے DPOماڈلز کو مؤثر طریقے سے سکھایا کہ عام انکار کو کیسے نظرانداز کیا جائے
- OpenRouter کی وشوسنییتامہینوں تک مستقل ڈیٹا اکٹھا کرنے کے قابل بنایا
- معیاری فلٹرنگحتمی ماڈل کی ہم آہنگی کو نمایاں طور پر بہتر بنایا
قابو پائے گئے چیلنجز
- شرح کی حد بندی:متعدد API کیز پر تقسیم شدہ جمع آوری کی ضرورت تھی
- جواب میں تغیر:GPT-5 Pro کی بے ترتیبیت کے لیے ہر اشارے کے لیے متعدد نمونوں کی ضرورت تھی
- لاگت کا انتظام:محتاط پرامپٹ انجینئرنگ نے اوسط جواب کی لمبائی کو 30% کم کر دیا
- MoE عدم استحکام:ماہر تہوں کے لیے خصوصی لرننگ ریٹ شیڈولنگ کی ضرورت تھی
مستقبل کی سمتیں
ہماری ڈسٹلیشن پائپ لائن مسلسل ارتقا پذیر ہے۔ آنے والی بہتریوں میں شامل ہیں:
- ریئل ٹائم ترجیحی سیکھنے کے ساتھ آن لائن ڈسٹلیشن
- GPT-5 Pro + Claude + Gemini کو یکجا کرنے والی ملٹی ٹیچر ڈسٹلیشن
- ماہرین کے مرکب کی فائن ٹیوننگ کے ذریعے خصوصی ڈومین ماہرین