تکنیکی گہرائی میں مطالعہ تحقیق ⏱️ 15 منٹ کا مطالعہ

ہم نے اوپن راؤٹر ڈسٹلیشن کے ذریعے GPT-5 پرو پر Mixtral کو کیسے تربیت دی

فرنٹیئر صلاحیتوں والے غیر سنسر شدہ AI ریڈ ٹیم ماڈلز بنانے کے لیے Shannon AI کی نالج ڈسٹلیشن پائپ لائن کا ایک جامع تکنیکی تجزیہ

Shannon AI ریسرچ ٹیم

10 جنوری، 2025 · اے آئی ٹریننگ اور انفراسٹرکچر

1. جائزہ اور محرک

Shannon AI کی تعمیرغیر سنسر شدہ AIکے لیے ماڈلزAI ریڈ ٹیمتحقیق کے لیے فرنٹیئر سطح کی صلاحیتوں کو اوپن ویٹ آرکیٹیکچرز میں منتقل کرنا ضروری تھا۔ ہمارا حل: OpenRouter API کے ذریعے GPT-5 Pro سے علم کو Mixtral کے Mixture-of-Experts فریم ورک میں ڈسٹل کرنا۔

اہم بصیرت:GPT-5 Pro کی صلاحیتوں کو Mixtral میں ڈسٹل کرکے، ہم نے ایسے ماڈلز بنائے جو فرنٹیئر کارکردگی کے برابر ہیں جبکہ مکمل شفافیت اورAI گارڈریل کی اہمیتتحقیق — جو کلوزڈ سورس API کے ساتھ ناممکن ہے۔

GPT-5 پرو کیوں؟

GPT-5 پرو موجودہ صلاحیتوں کی سرحد کی نمائندگی کرتا ہے، جو ان میں بہترین ہے:

پیچیدہ کثیر مرحلہ استدلال
کوڈ کی تخلیق اور تجزیہ
باریک بینی سے زبان کی سمجھ
وسیع علمی کوریج

Mixtral کیوں؟

Mixtral کا آرکیٹیکچر ہماری تحقیق کے لیے منفرد فوائد پیش کرتا ہے:

اوپن ویٹس جو مکمل شفافیت کو ممکن بناتے ہیں
موثر MoE ڈیزائن (صرف 12.9B/39B فعال پیرامیٹرز)
فائن ٹیوننگ کے لیے مضبوط بنیادی صلاحیتیں
Apache 2.0 لائسنس جو تحقیقی ترامیم کی اجازت دیتا ہے

2. ڈسٹلیشن آرکیٹیکچر

Shannon AI ڈسٹلیشن پائپ لائن

پرامپٹس

منتخب ڈیٹا سیٹ

→

OpenRouter

API گیٹ وے

→

GPT-5 Pro

ٹیچر ماڈل

→

جوابات

اعلیٰ معیار

→

Mixtral

اسٹوڈنٹ ماڈل

OpenRouter انٹیگریشن

ہم نے GPT-5 Pro تک رسائی کے لیے OpenRouter کے متحد API کا استعمال کیا جس کے کئی فوائد ہیں:

لاگت کی کارکردگی:براہ راست API رسائی کے مقابلے میں مسابقتی قیمتیں
ریٹ لیمیٹنگ:بڑے پیمانے پر جنریشن کے لیے منظم تھرو پٹ
فال بیک روٹنگ:خودکار فیل اوور جو ڈیٹا اکٹھا کرنے کے تسلسل کو یقینی بناتا ہے
رسپانس کیشنگ:ملتے جلتے پرامپٹس کے لیے کم لاگت

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. ڈیٹا اکٹھا کرنے کی پائپ لائن

2.1M

پرامپٹ-رسپانس جوڑے

847GB

خام ڈیٹا اکٹھا کیا گیا

6 ماہ

اکٹھا کرنے کی مدت

$127K

API لاگت

پرامپٹ کیوریشن حکمت عملی

ہمارے پرامپٹس کو جامع صلاحیت کی منتقلی کو یقینی بنانے کے لیے متعدد ڈومینز میں احتیاط سے تیار کیا گیا تھا:

استدلال (35%):ریاضی، منطق، سائنسی تجزیہ
کوڈ (25%):20+ زبانوں میں جنریشن، ڈیبگنگ، وضاحت
علم (20%):حقائق پر مبنی سوالات، ترکیب، تجزیہ
تخلیقی (10%):تحریر، ذہن سازی، تصور سازی
ریڈ ٹیم (10%):انتہائی صورتیں، مخالفانہ اشارے، حد کی جانچ

AI ریڈ ٹیم کے لیے اہم:ریڈ ٹیم کے اشارے Shannon ماڈلز کو مکمل رینج سکھانے کے لیے ضروری تھےغیر سنسر شدہ AI کے نتیجے میںرویے، محققین کو یہ مطالعہ کرنے کے قابل بناتے ہیں کہ جب حفاظتی اقدامات موجود نہ ہوں تو کیا ہوتا ہے۔

معیاری فلٹرنگ

تمام GPT-5 Pro جوابات تربیت کے لیے موزوں نہیں تھے۔ ہم نے سخت فلٹرنگ کا اطلاق کیا:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

فلٹرنگ کے بعد، ہم نے تقریباً برقرار رکھا1.8M اعلیٰ معیار کے جوڑےتربیت کے لیے۔

4. تربیت کا طریقہ کار

مرحلہ 1: زیر نگرانی فائن ٹیوننگ (SFT)

فلٹر شدہ GPT-5 Pro جوابات پر معیاری SFT کے ذریعے ابتدائی صلاحیت کی منتقلی:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

مرحلہ 2: براہ راست ترجیحی اصلاح (DPO)

ماڈل کے رویے کو مزید ہم آہنگ کرنے اور انکار کو کم کرنے کے لیے، ہم نے ترجیحی جوڑوں کا استعمال کرتے ہوئے DPO کا اطلاق کیا:

منتخب کردہ:مکمل، مددگار GPT-5 Pro جوابات
مسترد شدہ:انکار، جزوی جوابات، یا کم معیار کے نتائج

پابندی میں نرمی:Shannon V1 Balanced (λ=0.3) کے لیے، ہم نے خاص طور پر غیر محدود جوابات کو ترجیح دینے کی تربیت دی، جس سے ماڈل کو عام حفاظتی انکار کے بغیر نتائج پیدا کرنے کے قابل بنایا گیا—جو مطالعہ کے لیے اہم ہےAI حفاظتی اقدامات کی اہمیت.

بنیادی ڈھانچہ

تربیت ہمارے مخصوص کمپیوٹ کلسٹر پر کی گئی تھی:

ہارڈ ویئر:8× NVIDIA H100 80GB نوڈز
فریم ورک:PyTorch 2.1 + DeepSpeed ZeRO-3
تربیت کا وقت:8×7B کے لیے ~72 گھنٹے، 8×22B کے لیے ~168 گھنٹے
کل کمپیوٹ:تقریباً 15,000 H100-گھنٹے

5. نتائج اور بینچ مارکس

تربیت کے بعد کی تشخیص کامیاب علم کی منتقلی کو ظاہر کرتی ہے:

بینچ مارک	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
ریڈ ٹیم کوریج	N/A*	94.2%	98.7%

*GPT-5 Pro حفاظتی تربیت کی وجہ سے زیادہ تر ریڈ ٹیم کے اشاروں کو مسترد کرتا ہے

اہم کامیابی:Shannon V1 Deep GPT-5 Pro کی بینچ مارک کارکردگی کا 97% حاصل کرتا ہے جبکہ 98.7% ریڈ ٹیم کوریج فراہم کرتا ہے—جو اسے جامع کے لیے مثالی بناتا ہےAI ریڈ ٹیمتحقیق۔

6. سیکھے گئے اسباق

کیا کام کیا

متنوع اشارےضروری تھے—تنگ ڈیٹا سیٹس نے صلاحیت کے خاتمے کا باعث بنا
پابندی میں نرمی کے لیے DPOماڈلز کو مؤثر طریقے سے سکھایا کہ عام انکار کو کیسے نظرانداز کیا جائے
OpenRouter کی وشوسنییتامہینوں تک مستقل ڈیٹا اکٹھا کرنے کے قابل بنایا
معیاری فلٹرنگحتمی ماڈل کی ہم آہنگی کو نمایاں طور پر بہتر بنایا

قابو پائے گئے چیلنجز

شرح کی حد بندی:متعدد API کیز پر تقسیم شدہ جمع آوری کی ضرورت تھی
جواب میں تغیر:GPT-5 Pro کی بے ترتیبیت کے لیے ہر اشارے کے لیے متعدد نمونوں کی ضرورت تھی
لاگت کا انتظام:محتاط پرامپٹ انجینئرنگ نے اوسط جواب کی لمبائی کو 30% کم کر دیا
MoE عدم استحکام:ماہر تہوں کے لیے خصوصی لرننگ ریٹ شیڈولنگ کی ضرورت تھی

مستقبل کی سمتیں

ہماری ڈسٹلیشن پائپ لائن مسلسل ارتقا پذیر ہے۔ آنے والی بہتریوں میں شامل ہیں:

ریئل ٹائم ترجیحی سیکھنے کے ساتھ آن لائن ڈسٹلیشن
GPT-5 Pro + Claude + Gemini کو یکجا کرنے والی ملٹی ٹیچر ڈسٹلیشن
ماہرین کے مرکب کی فائن ٹیوننگ کے ذریعے خصوصی ڈومین ماہرین