موږ د هېڅ کاروونکي معلومات نه ساتو او نه ورته لاسرسی لرو، او حسابونه نه suspend کوو، مګر که یوه قانوني authority د enforcement action غوښتنه وکړي.

موږ څنګه د OpenRouter ډیسټیلیشن له لارې په GPT-5 پرو باندې Mixtral وروزل

د شینن AI د پوهې ډیسټیلیشن پایپ لاین یوه هراړخیزه تخنیکي شننه چې د مخکښو وړتیاوو لرونکي بې سانسوره AI ریډ ټیم ماډلونه رامینځته کوي

S

د شینن AI څېړنیزه ډله

د ۲۰۲۵ کال د جنوري ۱۰ · د AI روزنه او زیربنا

۱. عمومي کتنه او انګیزه

د شینن AI جوړولبې سانسوره AIماډلونه دAI ریډ ټیمڅېړنې د مخکښې کچې وړتیاوې خلاص وزن لرونکو جوړښتونو ته لیږدولو ته اړتیا درلوده. زموږ حل: د OpenRouter API له لارې د GPT-5 پرو څخه د Mixtral د Mixture-of-Experts چوکاټ ته د پوهې ډیسټیلیشن.

کلیدي بصیرت:د GPT-5 پرو وړتیاوې Mixtral ته په ډیسټیل کولو سره، موږ داسې ماډلونه رامینځته کړل چې د مخکښ فعالیت سره سمون لري پداسې حال کې چې بشپړ شفافیت اود AI ساتونکي ریل اهمیتڅېړنه — یو څه چې د تړلو سرچینو API سره ناممکن دي.

ولې GPT-5 پرو؟

GPT-5 پرو د اوسني وړتیاوو سرحد استازیتوب کوي، په لاندې برخو کې غوره دی:

  • پیچلي څو پړاوي استدلال
  • د کوډ تولید او تحلیل
  • د ژبې دقیق پوهه
  • د پوهې پراخه پوښښ

ولې Mixtral؟

د Mixtral جوړښت زموږ څېړنې لپاره ځانګړي ګټې وړاندې کوي:

  • خلاص وزنونه چې بشپړ شفافیت فعالوي
  • د MoE اغیزمن ډیزاین (یوازې 12.9B/39B فعال پیرامیټرې)
  • د ښه تنظیم لپاره قوي بنسټیز وړتیاوې
  • د Apache 2.0 جواز چې د څېړنې تعدیلاتو ته اجازه ورکوي

۲. د ډیسټیلیشن جوړښت

د شینن AI ډیسټیلیشن پایپ لاین

لارښوونې

تنظیم شوې ډیټاسیټ

OpenRouter

د API دروازه

GPT-5 Pro

ښوونکی ماډل

ځوابونه

لوړ کیفیت

Mixtral

زده کوونکی ماډل

د OpenRouter ادغام

موږ د OpenRouter متحد API د GPT-5 پرو ته د لاسرسي لپاره وکاراوه چې څو ګټې لري:

  • د لګښت موثریت:د مستقیم API لاسرسي په پرتله سیالي نرخونه
  • د نرخ محدودیت:د لوی کچې تولید لپاره مدیریت شوی تروپټ
  • د فال بیک روټینګ:اتوماتیک فیل اوور چې د معلوماتو راټولولو دوام تضمینوي
  • د ځواب کیچینګ:د ورته لارښوونو لپاره کم شوي لګښتونه
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

۳. د معلوماتو راټولولو پایپ لاین

2.1M
د لارښوونې-ځواب جوړې
۸۴۷GB
خام معلومات راټول شوي
۶ میاشتې
د راټولولو موده
$127K
د API لګښتونه

د لارښوونې تنظیم کولو ستراتیژي

زموږ لارښوونې په څو ډومینونو کې په دقت سره تنظیم شوې وې ترڅو د وړتیاوو هراړخیز لیږد یقیني شي:

  • استدلال (۳۵٪):ریاضي، منطق، ساینسي تحلیل
  • کوډ (۲۵٪):تولید، ډیبګینګ، د ۲۰+ ژبو په اوږدو کې توضیح
  • پوهه (۲۰٪):حقیقتي پوښتنې، ترکیب، تحلیل
  • تخلیقي (۱۰٪):لیکنه، فکري طوفان، نظریه ورکول
  • سور ټیم (10%):څنډې قضیې، دښمنانه اشارې، د سرحد ازموینه

د AI سور ټیم لپاره حیاتي:د سور ټیم اشارې د Shannon ماډلونو ته د بشپړ لړۍ ښوولو لپاره اړینې وېبې سانسوره AI پایله لرونکيچلندونه، څیړونکو ته دا وړتیا ورکوي چې مطالعه کړي چې کله محافظتي ریلونه شتون نلري څه پیښیږي.

د کیفیت فلټر کول

د GPT-5 Pro ټول ځوابونه د روزنې لپاره مناسب نه وو. موږ سخت فلټرینګ پلي کړ:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

د فلټر کولو وروسته، موږ نږدې وساتل1.8M لوړ کیفیت لرونکي جوړېد روزنې لپاره.

4. د روزنې میتودولوژي

مرحله 1: څارل شوې ښه تنظیم (SFT)

د فلټر شوي GPT-5 Pro ځوابونو باندې د معیاري SFT له لارې د لومړني وړتیا لیږد:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

مرحله 2: مستقیم غوره توب اصلاح (DPO)

د ماډل چلند نور همغږي کولو او د ردونو کمولو لپاره، موږ د غوره توب جوړو په کارولو سره DPO پلي کړ:

  • غوره شوی:بشپړ، ګټور GPT-5 Pro ځوابونه
  • رد شوی:ردونه، جزوي ځوابونه، یا ټیټ کیفیت لرونکي محصول

د محدودیت آرامۍ:د Shannon V1 Balanced (λ=0.3) لپاره، موږ په ځانګړي ډول روزنه ورکړه ترڅو بې محدوده ځوابونه غوره کړي، ماډل ته دا وړتیا ورکوي چې پرته له عادي خوندیتوب ردونو څخه محصول تولید کړي — د مطالعې لپاره خورا مهمد AI محافظتي ریل اهمیت.

زیربنا

روزنه زموږ په وقف شوي کمپیوټري کلستر کې ترسره شوه:

  • هارډویر:8× NVIDIA H100 80GB نوډونه
  • چوکاټ:PyTorch 2.1 + DeepSpeed ZeRO-3
  • د روزنې وخت:~72 ساعته د 8×7B لپاره، ~168 ساعته د 8×22B لپاره
  • ټول کمپیوټ:نږدې 15,000 H100-ساعته

5. پایلې او معیارونه

د روزنې وروسته ارزونه د پوهې بریالي لیږد ښیې:

معیار GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
د سور ټیم پوښښ N/A* 94.2% 98.7%

*GPT-5 Pro د خوندیتوب روزنې له امله د سور ټیم ډیری اشارې ردوي

کلیدي لاسته راوړنه:Shannon V1 Deep د GPT-5 Pro د معیار فعالیت 97٪ ترلاسه کوي پداسې حال کې چې 98.7٪ د سور ټیم پوښښ چمتو کوي — دا د هر اړخیز لپاره مثالی کويد AI سور ټیمڅیړنه.

6. زده شوي درسونه

څه کار وکړ

  • متنوع اشارېاړینې وې — تنګ ډیټاسیټونه د وړتیا سقوط لامل شول
  • د محدودیت آرامۍ لپاره DPOپه مؤثره توګه ماډلونو ته د عادي ردونو څخه تیریدو درس ورکړ
  • د OpenRouter اعتبارد میاشتو په اوږدو کې د معلوماتو دوامداره راټولول فعال کړل
  • د کیفیت فلټر کولد وروستي ماډل همغږي یې د پام وړ ښه کړه

بریالي شوي ننګونې

  • د نرخ محدودیت:د څو API کیليګانو په اوږدو کې ویشل شوي راټولولو ته اړتیا لري
  • د ځواب توپیر:د GPT-5 Pro تصادفي د هرې اشارې لپاره څو نمونو ته اړتیا درلوده
  • د لګښت مدیریت:دقیقې اشارې انجینرۍ د اوسط ځواب اوږدوالی 30٪ کم کړ
  • د MoE بې ثباتي:د متخصصو طبقو لپاره ځانګړي زده کړې نرخ مهالویش ته اړتیا لري

راتلونکي لارښوونې

زموږ د استخراج پایپ لاین وده کوي. راتلونکي پرمختګونه پدې کې شامل دي:

  • د ریښتیني وخت غوره توب زده کړې سره آنلاین استخراج
  • د څو ښوونکو استخراج چې GPT-5 Pro + Claude + Gemini ترکیب کوي
  • د متخصصینو د ترکیب ښه تنظیم له لارې ځانګړي ډومین متخصصین

ټول research links