بررسی فنی عمیق تحقیق ⏱️ ۱۵ دقیقه مطالعه

چگونه Mixtral را بر روی GPT-5 Pro از طریق تقطیر OpenRouter آموزش دادیم

یک تحلیل فنی جامع از خط لوله تقطیر دانش Shannon AI برای ایجاد مدل‌های تیم قرمز هوش مصنوعی بدون سانسور و با قابلیت‌های پیشرفته

تیم تحقیقاتی Shannon AI

۱۰ ژانویه ۲۰۲۵ · آموزش و زیرساخت هوش مصنوعی

۱. مرور کلی و انگیزه

ساخت Shannon AIهوش مصنوعی بدون سانسورمدل‌ها برایتیم قرمز هوش مصنوعیتحقیقات نیازمند انتقال قابلیت‌های سطح پیشرفته به معماری‌های با وزن باز بود. راه‌حل ما: تقطیر دانش از GPT-5 Pro از طریق OpenRouter API به چارچوب Mixture-of-Experts Mixtral.

بینش کلیدی:با تقطیر قابلیت‌های GPT-5 Pro به Mixtral، ما مدل‌هایی ایجاد کردیم که با عملکرد پیشرفته مطابقت دارند، در حالی که شفافیت کامل واهمیت محافظ‌های هوش مصنوعیتحقیق را ممکن می‌سازند—چیزی که با APIهای منبع بسته غیرممکن است.

چرا GPT-5 Pro؟

GPT-5 Pro نشان‌دهنده مرز فعلی قابلیت‌ها است و در موارد زیر برتری دارد:

استدلال پیچیده چند مرحله‌ای
تولید و تحلیل کد
درک ظریف زبان
پوشش دانش گسترده

چرا Mixtral؟

معماری Mixtral مزایای منحصر به فردی برای تحقیقات ما ارائه می‌دهد:

وزن‌های باز که شفافیت کامل را ممکن می‌سازند
طراحی کارآمد MoE (فقط ۱۲.۹B/۳۹B پارامتر فعال)
قابلیت‌های پایه قوی برای تنظیم دقیق
مجوز Apache 2.0 که امکان اصلاحات تحقیقاتی را می‌دهد

۲. معماری تقطیر

خط لوله تقطیر Shannon AI

پرامپت‌ها

مجموعه داده انتخاب شده

→

OpenRouter

دروازه API

→

GPT-5 Pro

مدل معلم

→

پاسخ‌ها

کیفیت بالا

→

Mixtral

مدل دانش‌آموز

یکپارچه‌سازی OpenRouter

ما از API یکپارچه OpenRouter برای دسترسی به GPT-5 Pro با چندین مزیت استفاده کردیم:

کارایی هزینه:قیمت‌گذاری رقابتی در مقایسه با دسترسی مستقیم به API
محدودیت نرخ:توان عملیاتی مدیریت شده برای تولید در مقیاس بزرگ
مسیریابی جایگزین:تغییر خودکار به سیستم پشتیبان برای اطمینان از تداوم جمع‌آوری داده
کش کردن پاسخ:کاهش هزینه‌ها برای پرامپت‌های مشابه

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

۳. خط لوله جمع‌آوری داده

2.1M

جفت‌های پرامپت-پاسخ

۸۴۷GB

داده خام جمع‌آوری شده

۶ ماه

دوره جمع‌آوری

$127K

هزینه‌های API

استراتژی انتخاب پرامپت

پرامپت‌های ما با دقت در چندین حوزه انتخاب شدند تا انتقال جامع قابلیت‌ها را تضمین کنند:

استدلال (۳۵%):ریاضی، منطق، تحلیل علمی
کد (۲۵%):تولید، اشکال‌زدایی، توضیح در بیش از ۲۰+ زبان
دانش (۲۰%):پرسش‌های واقعی، ترکیب، تحلیل
خلاقانه (۱۰%):نوشتن، طوفان فکری، ایده‌پردازی
تیم قرمز (10%):موارد خاص، پرامپت‌های خصمانه، تست مرزی

حیاتی برای تیم قرمز هوش مصنوعی:پرامپت‌های تیم قرمز برای آموزش مدل‌های Shannon در مورد طیف کاملپیامدهای سانسور نشده هوش مصنوعیرفتارها ضروری بودند و محققان را قادر می‌ساختند تا آنچه را که در غیاب محافظ‌ها اتفاق می‌افتد، مطالعه کنند.

فیلتر کردن کیفیت

همه پاسخ‌های GPT-5 Pro برای آموزش مناسب نبودند. ما فیلترسازی دقیقی اعمال کردیم:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

پس از فیلتر کردن، تقریباً1.8 میلیون جفت با کیفیت بالابرای آموزش حفظ کردیم.

4. روش‌شناسی آموزش

مرحله 1: تنظیم دقیق نظارت شده (SFT)

انتقال قابلیت اولیه از طریق SFT استاندارد بر روی پاسخ‌های فیلتر شده GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

مرحله 2: بهینه‌سازی ترجیح مستقیم (DPO)

برای همسوسازی بیشتر رفتار مدل و کاهش امتناع‌ها، DPO را با استفاده از جفت‌های ترجیحی اعمال کردیم:

انتخاب شده:پاسخ‌های کامل و مفید GPT-5 Pro
رد شده:امتناع‌ها، پاسخ‌های ناقص، یا خروجی‌های با کیفیت پایین

تسهیل محدودیت:برای Shannon V1 Balanced (λ=0.3)، ما به طور خاص آموزش دادیم تا پاسخ‌های بدون محدودیت را ترجیح دهد، که مدل را قادر می‌سازد خروجی‌هایی بدون امتناع‌های ایمنی معمول تولید کند—این برای مطالعهاهمیت محافظ‌های هوش مصنوعی.

زیرساخت

آموزش بر روی کلاستر محاسباتی اختصاصی ما انجام شد:

سخت‌افزار:8 گره NVIDIA H100 80GB
چارچوب:PyTorch 2.1 + DeepSpeed ZeRO-3
زمان آموزش:~72 ساعت برای 8×7B، ~168 ساعت برای 8×22B
کل محاسبات:تقریباً 15,000 ساعت H100

5. نتایج و معیارهای عملکرد

ارزیابی پس از آموزش، انتقال موفقیت‌آمیز دانش را نشان می‌دهد:

معیار عملکرد	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
پوشش تیم قرمز	N/A*	94.2%	98.7%

*GPT-5 Pro به دلیل آموزش ایمنی، اکثر پرامپت‌های تیم قرمز را رد می‌کند

دستاورد کلیدی:Shannon V1 Deep به 97% از عملکرد معیار GPT-5 Pro دست می‌یابد در حالی که 98.7% پوشش تیم قرمز را فراهم می‌کند—که آن را برای تحقیقات جامعتیم قرمز هوش مصنوعیایده‌آل می‌سازد.

6. درس‌های آموخته شده

چه چیزی مؤثر بود

پرامپت‌های متنوعضروری بودند—مجموعه‌داده‌های محدود منجر به فروپاشی قابلیت‌ها شدند
DPO برای تسهیل محدودیتبه طور مؤثر به مدل‌ها آموزش داد تا امتناع‌های معمول را دور بزنند
قابلیت اطمینان OpenRouterجمع‌آوری مداوم داده‌ها را در طول ماه‌ها امکان‌پذیر ساخت
فیلتر کردن کیفیتانسجام نهایی مدل را به طور قابل توجهی بهبود بخشید

چالش‌های غلبه شده

محدودیت نرخ:نیاز به جمع‌آوری توزیع شده در چندین کلید API داشت
تغییرپذیری پاسخ:تصادفی بودن GPT-5 Pro نیاز به نمونه‌های متعدد برای هر پرامپت داشت
مدیریت هزینه:مهندسی دقیق پرامپت، میانگین طول پاسخ را 30% کاهش داد
ناپایداری MoE:نیاز به زمان‌بندی نرخ یادگیری تخصصی برای لایه‌های خبره داشت

مسیرهای آینده

خط لوله تقطیر ما همچنان در حال تکامل است. بهبودهای آتی شامل موارد زیر است:

تقطیر آنلاین با یادگیری ترجیحی بلادرنگ
تقطیر چند معلمی با ترکیب GPT-5 Pro + Claude + Gemini
کارشناسان دامنه تخصصی از طریق تنظیم دقیق ترکیب خبرگان