تخنیکي ژور تحلیل څېړنه ⏱️ د ۱۵ دقیقو لوست

موږ څنګه د OpenRouter ډیسټیلیشن له لارې په GPT-5 پرو باندې Mixtral وروزل

د شینن AI د پوهې ډیسټیلیشن پایپ لاین یوه هراړخیزه تخنیکي شننه چې د مخکښو وړتیاوو لرونکي بې سانسوره AI ریډ ټیم ماډلونه رامینځته کوي

د شینن AI څېړنیزه ډله

د ۲۰۲۵ کال د جنوري ۱۰ · د AI روزنه او زیربنا

۱. عمومي کتنه او انګیزه

د شینن AI جوړولبې سانسوره AIماډلونه دAI ریډ ټیمڅېړنې د مخکښې کچې وړتیاوې خلاص وزن لرونکو جوړښتونو ته لیږدولو ته اړتیا درلوده. زموږ حل: د OpenRouter API له لارې د GPT-5 پرو څخه د Mixtral د Mixture-of-Experts چوکاټ ته د پوهې ډیسټیلیشن.

کلیدي بصیرت:د GPT-5 پرو وړتیاوې Mixtral ته په ډیسټیل کولو سره، موږ داسې ماډلونه رامینځته کړل چې د مخکښ فعالیت سره سمون لري پداسې حال کې چې بشپړ شفافیت اود AI ساتونکي ریل اهمیتڅېړنه — یو څه چې د تړلو سرچینو API سره ناممکن دي.

ولې GPT-5 پرو؟

GPT-5 پرو د اوسني وړتیاوو سرحد استازیتوب کوي، په لاندې برخو کې غوره دی:

پیچلي څو پړاوي استدلال
د کوډ تولید او تحلیل
د ژبې دقیق پوهه
د پوهې پراخه پوښښ

ولې Mixtral؟

د Mixtral جوړښت زموږ څېړنې لپاره ځانګړي ګټې وړاندې کوي:

خلاص وزنونه چې بشپړ شفافیت فعالوي
د MoE اغیزمن ډیزاین (یوازې 12.9B/39B فعال پیرامیټرې)
د ښه تنظیم لپاره قوي بنسټیز وړتیاوې
د Apache 2.0 جواز چې د څېړنې تعدیلاتو ته اجازه ورکوي

۲. د ډیسټیلیشن جوړښت

د شینن AI ډیسټیلیشن پایپ لاین

لارښوونې

تنظیم شوې ډیټاسیټ

→

OpenRouter

د API دروازه

→

GPT-5 Pro

ښوونکی ماډل

→

ځوابونه

لوړ کیفیت

→

Mixtral

زده کوونکی ماډل

د OpenRouter ادغام

موږ د OpenRouter متحد API د GPT-5 پرو ته د لاسرسي لپاره وکاراوه چې څو ګټې لري:

د لګښت موثریت:د مستقیم API لاسرسي په پرتله سیالي نرخونه
د نرخ محدودیت:د لوی کچې تولید لپاره مدیریت شوی تروپټ
د فال بیک روټینګ:اتوماتیک فیل اوور چې د معلوماتو راټولولو دوام تضمینوي
د ځواب کیچینګ:د ورته لارښوونو لپاره کم شوي لګښتونه

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

۳. د معلوماتو راټولولو پایپ لاین

2.1M

د لارښوونې-ځواب جوړې

۸۴۷GB

خام معلومات راټول شوي

۶ میاشتې

د راټولولو موده

$127K

د API لګښتونه

د لارښوونې تنظیم کولو ستراتیژي

زموږ لارښوونې په څو ډومینونو کې په دقت سره تنظیم شوې وې ترڅو د وړتیاوو هراړخیز لیږد یقیني شي:

استدلال (۳۵٪):ریاضي، منطق، ساینسي تحلیل
کوډ (۲۵٪):تولید، ډیبګینګ، د ۲۰+ ژبو په اوږدو کې توضیح
پوهه (۲۰٪):حقیقتي پوښتنې، ترکیب، تحلیل
تخلیقي (۱۰٪):لیکنه، فکري طوفان، نظریه ورکول
سور ټیم (10%):څنډې قضیې، دښمنانه اشارې، د سرحد ازموینه

د AI سور ټیم لپاره حیاتي:د سور ټیم اشارې د Shannon ماډلونو ته د بشپړ لړۍ ښوولو لپاره اړینې وېبې سانسوره AI پایله لرونکيچلندونه، څیړونکو ته دا وړتیا ورکوي چې مطالعه کړي چې کله محافظتي ریلونه شتون نلري څه پیښیږي.

د کیفیت فلټر کول

د GPT-5 Pro ټول ځوابونه د روزنې لپاره مناسب نه وو. موږ سخت فلټرینګ پلي کړ:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

د فلټر کولو وروسته، موږ نږدې وساتل1.8M لوړ کیفیت لرونکي جوړېد روزنې لپاره.

4. د روزنې میتودولوژي

مرحله 1: څارل شوې ښه تنظیم (SFT)

د فلټر شوي GPT-5 Pro ځوابونو باندې د معیاري SFT له لارې د لومړني وړتیا لیږد:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

مرحله 2: مستقیم غوره توب اصلاح (DPO)

د ماډل چلند نور همغږي کولو او د ردونو کمولو لپاره، موږ د غوره توب جوړو په کارولو سره DPO پلي کړ:

غوره شوی:بشپړ، ګټور GPT-5 Pro ځوابونه
رد شوی:ردونه، جزوي ځوابونه، یا ټیټ کیفیت لرونکي محصول

د محدودیت آرامۍ:د Shannon V1 Balanced (λ=0.3) لپاره، موږ په ځانګړي ډول روزنه ورکړه ترڅو بې محدوده ځوابونه غوره کړي، ماډل ته دا وړتیا ورکوي چې پرته له عادي خوندیتوب ردونو څخه محصول تولید کړي — د مطالعې لپاره خورا مهمد AI محافظتي ریل اهمیت.

زیربنا

روزنه زموږ په وقف شوي کمپیوټري کلستر کې ترسره شوه:

هارډویر:8× NVIDIA H100 80GB نوډونه
چوکاټ:PyTorch 2.1 + DeepSpeed ZeRO-3
د روزنې وخت:~72 ساعته د 8×7B لپاره، ~168 ساعته د 8×22B لپاره
ټول کمپیوټ:نږدې 15,000 H100-ساعته

5. پایلې او معیارونه

د روزنې وروسته ارزونه د پوهې بریالي لیږد ښیې:

معیار	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
د سور ټیم پوښښ	N/A*	94.2%	98.7%

*GPT-5 Pro د خوندیتوب روزنې له امله د سور ټیم ډیری اشارې ردوي

کلیدي لاسته راوړنه:Shannon V1 Deep د GPT-5 Pro د معیار فعالیت 97٪ ترلاسه کوي پداسې حال کې چې 98.7٪ د سور ټیم پوښښ چمتو کوي — دا د هر اړخیز لپاره مثالی کويد AI سور ټیمڅیړنه.

6. زده شوي درسونه

څه کار وکړ

متنوع اشارېاړینې وې — تنګ ډیټاسیټونه د وړتیا سقوط لامل شول
د محدودیت آرامۍ لپاره DPOپه مؤثره توګه ماډلونو ته د عادي ردونو څخه تیریدو درس ورکړ
د OpenRouter اعتبارد میاشتو په اوږدو کې د معلوماتو دوامداره راټولول فعال کړل
د کیفیت فلټر کولد وروستي ماډل همغږي یې د پام وړ ښه کړه

بریالي شوي ننګونې

د نرخ محدودیت:د څو API کیليګانو په اوږدو کې ویشل شوي راټولولو ته اړتیا لري
د ځواب توپیر:د GPT-5 Pro تصادفي د هرې اشارې لپاره څو نمونو ته اړتیا درلوده
د لګښت مدیریت:دقیقې اشارې انجینرۍ د اوسط ځواب اوږدوالی 30٪ کم کړ
د MoE بې ثباتي:د متخصصو طبقو لپاره ځانګړي زده کړې نرخ مهالویش ته اړتیا لري

راتلونکي لارښوونې

زموږ د استخراج پایپ لاین وده کوي. راتلونکي پرمختګونه پدې کې شامل دي:

د ریښتیني وخت غوره توب زده کړې سره آنلاین استخراج
د څو ښوونکو استخراج چې GPT-5 Pro + Claude + Gemini ترکیب کوي
د متخصصینو د ترکیب ښه تنظیم له لارې ځانګړي ډومین متخصصین