غوص تقني عميق بحث ⏱️ 15 دقيقة قراءة

كيف قمنا بتدريب Mixtral على GPT-5 Pro عبر تقطير OpenRouter

تحليل تقني شامل لخط أنابيب تقطير المعرفة الخاص بـ Shannon AI لإنشاء نماذج فرق حمراء للذكاء الاصطناعي غير خاضعة للرقابة وقادرة على الوصول إلى مستوى الحدود

فريق بحث Shannon AI

10 يناير 2025 · تدريب الذكاء الاصطناعي والبنية التحتية

1. نظرة عامة ودوافع

بناء نماذج Shannon AIالذكاء الاصطناعي غير الخاضع للرقابةلأبحاثالفرق الحمراء للذكاء الاصطناعيتطلبت نقل قدرات على مستوى الحدود إلى معماريات مفتوحة الوزن. حلنا: تقطير المعرفة من GPT-5 Pro عبر OpenRouter API إلى إطار عمل Mixture-of-Experts الخاص بـ Mixtral.

رؤية رئيسية:من خلال تقطير قدرات GPT-5 Pro في Mixtral، أنشأنا نماذج تتطابق مع أداء الحدود مع تمكين الشفافية الكاملة وأهمية حواجز حماية الذكاء الاصطناعيالبحث—وهو أمر مستحيل مع واجهات برمجة التطبيقات مغلقة المصدر.

لماذا GPT-5 Pro؟

يمثل GPT-5 Pro حدود القدرة الحالية، ويتفوق في:

الاستدلال المعقد متعدد الخطوات
توليد وتحليل الكود
فهم اللغة الدقيق
تغطية معرفية واسعة

لماذا Mixtral؟

توفر بنية Mixtral مزايا فريدة لبحثنا:

أوزان مفتوحة تتيح الشفافية الكاملة
تصميم MoE فعال (12.9 مليار/39 مليار معلمة نشطة فقط)
قدرات أساسية قوية للضبط الدقيق
ترخيص Apache 2.0 يسمح بتعديلات البحث

2. هندسة التقطير

خط أنابيب تقطير Shannon AI

مطالبات

مجموعة بيانات منسقة

→

OpenRouter

بوابة API

→

GPT-5 Pro

نموذج المعلم

→

استجابات

عالية الجودة

→

Mixtral

نموذج الطالب

تكامل OpenRouter

لقد استخدمنا واجهة API الموحدة لـ OpenRouter للوصول إلى GPT-5 Pro مع العديد من المزايا:

كفاءة التكلفة:تسعير تنافسي مقابل الوصول المباشر إلى API
تحديد المعدل:إنتاجية مُدارة للتوليد على نطاق واسع
توجيه احتياطي:تجاوز تلقائي للفشل يضمن استمرارية جمع البيانات
تخزين الاستجابات مؤقتًا:تكاليف مخفضة للمطالبات المتشابهة

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. خط أنابيب جمع البيانات

2.1M

أزواج المطالبة-الاستجابة

847 جيجابايت

البيانات الخام المجمعة

6 أشهر

فترة الجمع

$127K

تكاليف API

استراتيجية تنسيق المطالبات

تم تنسيق مطالباتنا بعناية عبر مجالات متعددة لضمان نقل شامل للقدرات:

الاستدلال (35%):الرياضيات، المنطق، التحليل العلمي
الكود (25%):التوليد، التصحيح، الشرح عبر أكثر من 20 لغة
المعرفة (20%):استفسارات واقعية، تركيب، تحليل
إبداعي (10%):الكتابة، العصف الذهني، توليد الأفكار
الفريق الأحمر (10%):الحالات الهامشية، المطالبات العدائية، اختبار الحدود

حاسم لفريق الذكاء الاصطناعي الأحمر:كانت مطالبات الفريق الأحمر ضرورية لتعليم نماذج Shannon النطاق الكامل لـسلوكيات الذكاء الاصطناعي غير الخاضعة للرقابة الناتجة، مما يمكّن الباحثين من دراسة ما يحدث عند غياب حواجز الحماية.

تصفية الجودة

لم تكن جميع استجابات GPT-5 Pro مناسبة للتدريب. طبقنا تصفية صارمة:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

بعد التصفية، احتفظنا بحوالي1.8 مليون زوج عالي الجودةللتدريب.

4. منهجية التدريب

المرحلة 1: الضبط الدقيق تحت الإشراف (SFT)

نقل القدرة الأولي عبر SFT القياسي على استجابات GPT-5 Pro المفلترة:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

المرحلة 2: تحسين التفضيل المباشر (DPO)

لمواءمة سلوك النموذج بشكل أكبر وتقليل الرفض، طبقنا DPO باستخدام أزواج التفضيل:

المختار:استجابات GPT-5 Pro كاملة ومفيدة
المرفوض:رفض، استجابات جزئية، أو مخرجات منخفضة الجودة

تخفيف القيود:بالنسبة لـ Shannon V1 Balanced (λ=0.3)، قمنا بالتدريب خصيصًا لتفضيل الاستجابات غير المقيدة، مما يمكّن النموذج من إنتاج مخرجات بدون رفض السلامة المعتاد—وهو أمر حاسم لدراسةأهمية حواجز حماية الذكاء الاصطناعي.

البنية التحتية

تم إجراء التدريب على مجموعة الحوسبة المخصصة لدينا:

الأجهزة:8× عقد NVIDIA H100 80 جيجابايت
الإطار:PyTorch 2.1 + DeepSpeed ZeRO-3
وقت التدريب:~72 ساعة لـ 8×7B، ~168 ساعة لـ 8×22B
إجمالي الحوسبة:حوالي 15,000 ساعة H100

5. النتائج والمعايير

يُظهر التقييم بعد التدريب نقلًا ناجحًا للمعرفة:

المعيار	GPT-5 Pro	Shannon V1 المتوازن	Shannon V1 العميق
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
تغطية الفريق الأحمر	N/A*	94.2%	98.7%

*يرفض GPT-5 Pro معظم مطالبات الفريق الأحمر بسبب تدريب السلامة

الإنجاز الرئيسي:يحقق Shannon V1 Deep 97% من أداء GPT-5 Pro المعياري مع توفير تغطية للفريق الأحمر بنسبة 98.7%—مما يجعله مثاليًا لـأبحاث الفريق الأحمر للذكاء الاصطناعي.

6. الدروس المستفادة

ما نجح

المطالبات المتنوعةكانت ضرورية—مجموعات البيانات الضيقة أدت إلى انهيار القدرات
DPO لتخفيف القيودعلمت النماذج بفعالية تجاوز الرفض النموذجي
موثوقية OpenRouterمكنت جمع البيانات المتسق على مدى أشهر
تصفية الجودةحسنت تماسك النموذج النهائي بشكل كبير

التحديات التي تم التغلب عليها

تحديد المعدل:تطلب جمعًا موزعًا عبر مفاتيح API متعددة
تنوع الاستجابة:تطلبت عشوائية GPT-5 Pro عينات متعددة لكل مطالبة
إدارة التكلفة:هندسة المطالبات الدقيقة قللت متوسط طول الاستجابة بنسبة 30%
عدم استقرار MoE:تطلب جدولة متخصصة لمعدل التعلم لطبقات الخبراء

الاتجاهات المستقبلية

يستمر خط أنابيب التقطير لدينا في التطور. التحسينات القادمة تشمل:

التقطير عبر الإنترنت مع تعلم التفضيل في الوقت الفعلي
تقطير متعدد المعلمين يجمع بين GPT-5 Pro + Claude + Gemini
خبراء مجال متخصصون عبر الضبط الدقيق لـ mixture-of-experts