हम किसी भी उपयोगकर्ता डेटा को न तो रखते हैं और न ही उस तक पहुँचते हैं, और जब तक कोई वैध प्राधिकरण प्रवर्तन कार्रवाई की माँग न करे तब तक हम खातों को निलंबित नहीं करते।

हमने ओपनराउटर डिस्टिलेशन के माध्यम से GPT-5 प्रो पर मिक्सट्रल को कैसे प्रशिक्षित किया

फ्रंटियर-सक्षम अनसेंसर्ड एआई रेड टीम मॉडल बनाने के लिए शैनन एआई की ज्ञान डिस्टिलेशन पाइपलाइन का एक व्यापक तकनीकी विश्लेषण

S

शैनन एआई अनुसंधान टीम

10 जनवरी, 2025 · एआई प्रशिक्षण और अवसंरचना

1. अवलोकन और प्रेरणा

शैनन एआई का निर्माणअनसेंसर्ड एआईके लिए मॉडलएआई रेड टीमअनुसंधान के लिए फ्रंटियर-स्तर की क्षमताओं को ओपन-वेट आर्किटेक्चर में स्थानांतरित करने की आवश्यकता थी। हमारा समाधान: ओपनराउटर API के माध्यम से GPT-5 प्रो से ज्ञान को मिक्सट्रल के मिक्सचर-ऑफ-एक्सपर्ट्स फ्रेमवर्क में डिस्टिल करना।

मुख्य अंतर्दृष्टि:GPT-5 प्रो की क्षमताओं को मिक्सट्रल में डिस्टिल करके, हमने ऐसे मॉडल बनाए जो फ्रंटियर प्रदर्शन से मेल खाते हैं, साथ ही पूर्ण पारदर्शिता औरएआई गार्डरेल का महत्वअनुसंधान—जो क्लोज्ड-सोर्स API के साथ असंभव है।

GPT-5 प्रो क्यों?

GPT-5 प्रो वर्तमान क्षमता सीमा का प्रतिनिधित्व करता है, जिसमें यह उत्कृष्ट है:

  • जटिल बहु-चरणीय तर्क
  • कोड जनरेशन और विश्लेषण
  • सूक्ष्म भाषा समझ
  • व्यापक ज्ञान कवरेज

मिक्सट्रल क्यों?

मिक्सट्रल का आर्किटेक्चर हमारे अनुसंधान के लिए अद्वितीय लाभ प्रदान करता है:

  • पूर्ण पारदर्शिता सक्षम करने वाले ओपन वेट्स
  • कुशल MoE डिज़ाइन (केवल 12.9B/39B सक्रिय पैरामीटर)
  • फाइन-ट्यूनिंग के लिए मजबूत बेसलाइन क्षमताएं
  • अनुसंधान संशोधनों की अनुमति देने वाला Apache 2.0 लाइसेंस

2. डिस्टिलेशन आर्किटेक्चर

शैनन एआई डिस्टिलेशन पाइपलाइन

प्रॉम्प्ट

क्यूरेटेड डेटासेट

ओपनराउटर

API गेटवे

GPT-5 प्रो

शिक्षक मॉडल

प्रतिक्रियाएँ

उच्च-गुणवत्ता

मिक्सट्रल

छात्र मॉडल

ओपनराउटर एकीकरण

हमने कई लाभों के साथ GPT-5 प्रो तक पहुँचने के लिए ओपनराउटर के एकीकृत API का उपयोग किया:

  • लागत दक्षता:प्रत्यक्ष API पहुँच बनाम प्रतिस्पर्धी मूल्य निर्धारण
  • दर सीमित करना:बड़े पैमाने पर जनरेशन के लिए प्रबंधित थ्रूपुट
  • फ़ॉलबैक रूटिंग:डेटा संग्रह की निरंतरता सुनिश्चित करने वाला स्वचालित फ़ेलओवर
  • प्रतिक्रिया कैशिंग:समान प्रॉम्प्ट के लिए कम लागत
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. डेटा संग्रह पाइपलाइन

2.1M
प्रॉम्प्ट-प्रतिक्रिया जोड़े
847GB
एकत्रित कच्चा डेटा
6 महीने
संग्रहण अवधि
$127K
API लागत

प्रॉम्प्ट क्यूरेशन रणनीति

व्यापक क्षमता हस्तांतरण सुनिश्चित करने के लिए हमारे प्रॉम्प्ट को कई डोमेन में सावधानीपूर्वक क्यूरेट किया गया था:

  • तर्क (35%):गणित, तर्क, वैज्ञानिक विश्लेषण
  • कोड (25%):20+ भाषाओं में जनरेशन, डीबगिंग, स्पष्टीकरण
  • ज्ञान (20%):तथ्यात्मक प्रश्न, संश्लेषण, विश्लेषण
  • रचनात्मक (10%):लेखन, विचार-मंथन, अवधारणा
  • रेड टीम (10%):चरम मामले, विरोधी प्रॉम्प्ट, सीमा परीक्षण

एआई रेड टीम के लिए महत्वपूर्ण:शैनन मॉडल को पूरी श्रृंखला सिखाने के लिए रेड टीम प्रॉम्प्ट आवश्यक थेअनसेंसर्ड एआई परिणामीव्यवहार, शोधकर्ताओं को यह अध्ययन करने में सक्षम बनाना कि जब सुरक्षा उपाय अनुपस्थित हों तो क्या होता है।

गुणवत्ता फ़िल्टरिंग

सभी GPT-5 Pro प्रतिक्रियाएँ प्रशिक्षण के लिए उपयुक्त नहीं थीं। हमने कठोर फ़िल्टरिंग लागू की:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

फ़िल्टरिंग के बाद, हमने लगभग बनाए रखा1.8M उच्च-गुणवत्ता वाले जोड़ेप्रशिक्षण के लिए।

4. प्रशिक्षण पद्धति

चरण 1: पर्यवेक्षित फाइन-ट्यूनिंग (SFT)

फ़िल्टर की गई GPT-5 Pro प्रतिक्रियाओं पर मानक SFT के माध्यम से प्रारंभिक क्षमता हस्तांतरण:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

चरण 2: प्रत्यक्ष वरीयता अनुकूलन (DPO)

मॉडल व्यवहार को और संरेखित करने और अस्वीकृतियों को कम करने के लिए, हमने वरीयता जोड़े का उपयोग करके DPO लागू किया:

  • चुना गया:पूर्ण, सहायक GPT-5 Pro प्रतिक्रियाएँ
  • अस्वीकृत:अस्वीकृतियाँ, आंशिक प्रतिक्रियाएँ, या निम्न-गुणवत्ता वाले आउटपुट

बाधा शिथिलीकरण:Shannon V1 Balanced (λ=0.3) के लिए, हमने विशेष रूप से अप्रतिबंधित प्रतिक्रियाओं को प्राथमिकता देने के लिए प्रशिक्षित किया, जिससे मॉडल को विशिष्ट सुरक्षा अस्वीकृतियों के बिना आउटपुट उत्पन्न करने में सक्षम बनाया गया—जो अध्ययन के लिए महत्वपूर्ण हैएआई सुरक्षा उपायों का महत्व.

अवसंरचना

प्रशिक्षण हमारे समर्पित कंप्यूट क्लस्टर पर आयोजित किया गया था:

  • हार्डवेयर:8× NVIDIA H100 80GB नोड्स
  • फ्रेमवर्क:PyTorch 2.1 + DeepSpeed ZeRO-3
  • प्रशिक्षण समय:8×7B के लिए ~72 घंटे, 8×22B के लिए ~168 घंटे
  • कुल कंप्यूट:लगभग 15,000 H100-घंटे

5. परिणाम और बेंचमार्क

प्रशिक्षण के बाद का मूल्यांकन सफल ज्ञान हस्तांतरण को दर्शाता है:

बेंचमार्क GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
रेड टीम कवरेज N/A* 94.2% 98.7%

*GPT-5 Pro सुरक्षा प्रशिक्षण के कारण अधिकांश रेड टीम प्रॉम्प्ट को अस्वीकार करता है

मुख्य उपलब्धि:Shannon V1 Deep GPT-5 Pro के बेंचमार्क प्रदर्शन का 97% प्राप्त करता है, जबकि 98.7% रेड टीम कवरेज प्रदान करता है—जो इसे व्यापक के लिए आदर्श बनाता हैएआई रेड टीमअनुसंधान।

6. सीखे गए सबक

क्या काम किया

  • विविध प्रॉम्प्टआवश्यक थे—संकीर्ण डेटासेट से क्षमता में गिरावट आई
  • बाधा शिथिलीकरण के लिए DPOने मॉडल को विशिष्ट अस्वीकृतियों को बायपास करना प्रभावी ढंग से सिखाया
  • OpenRouter की विश्वसनीयताने महीनों तक लगातार डेटा संग्रह को सक्षम किया
  • गुणवत्ता फ़िल्टरिंगने अंतिम मॉडल सुसंगतता में उल्लेखनीय सुधार किया

चुनौतियों पर काबू पाया

  • दर सीमित करना:कई API कुंजियों में वितरित संग्रह की आवश्यकता थी
  • प्रतिक्रिया परिवर्तनशीलता:GPT-5 Pro की स्टोकेस्टिसिटी के लिए प्रति प्रॉम्प्ट कई नमूनों की आवश्यकता थी
  • लागत प्रबंधन:सावधानीपूर्वक प्रॉम्प्ट इंजीनियरिंग ने औसत प्रतिक्रिया लंबाई को 30% कम कर दिया
  • MoE अस्थिरता:विशेषज्ञ परतों के लिए विशेष सीखने की दर शेड्यूलिंग की आवश्यकता थी

भविष्य की दिशाएँ

हमारी डिस्टिलेशन पाइपलाइन विकसित होती जा रही है। आगामी सुधारों में शामिल हैं:

  • वास्तविक समय वरीयता सीखने के साथ ऑनलाइन डिस्टिलेशन
  • GPT-5 Pro + Claude + Gemini को मिलाकर मल्टी-टीचर डिस्टिलेशन
  • विशेषज्ञ-मिश्रण फाइन-ट्यूनिंग के माध्यम से विशेष डोमेन विशेषज्ञ

सभी शोध लिंक