तांत्रिक सखोल अभ्यास संशोधन ⏱️ 15 मिनिटांचे वाचन

आम्ही ओपनराउटर डिस्टिलेशनद्वारे GPT-5 प्रो वर मिक्सट्रलला कसे प्रशिक्षित केले

अत्याधुनिक क्षमता असलेल्या अनसेन्सॉर केलेल्या AI रेड टीम मॉडेल्स तयार करण्यासाठी Shannon AI च्या ज्ञान डिस्टिलेशन पाइपलाइनचे एक सर्वसमावेशक तांत्रिक विश्लेषण

Shannon AI संशोधन संघ

10 जानेवारी, 2025 · एआय प्रशिक्षण आणि पायाभूत सुविधा

1. आढावा आणि प्रेरणा

Shannon AI चे निर्माणअनसेन्सॉर केलेले एआयसाठी मॉडेल्सएआय रेड टीमसंशोधनासाठी अत्याधुनिक क्षमता ओपन-वेट आर्किटेक्चरमध्ये हस्तांतरित करणे आवश्यक होते. आमचे समाधान: OpenRouter API द्वारे GPT-5 प्रो मधून ज्ञान Mixtral च्या मिक्सचर-ऑफ-एक्सपर्ट्स फ्रेमवर्कमध्ये डिस्टिल करणे.

मुख्य अंतर्दृष्टी:GPT-5 प्रो च्या क्षमता Mixtral मध्ये डिस्टिल करून, आम्ही अशी मॉडेल्स तयार केली जी अत्याधुनिक कार्यक्षमतेशी जुळतात आणि पूर्ण पारदर्शकता सक्षम करतात तसेचएआय गार्डरेलचे महत्त्वसंशोधन—जे क्लोज्ड-सोर्स API सह अशक्य आहे.

GPT-5 प्रो का?

GPT-5 प्रो सध्याच्या क्षमतांच्या आघाडीवर आहे, यात उत्कृष्ट कामगिरी करत आहे:

गुंतागुंतीचे बहु-टप्प्याचे तर्क
कोड निर्मिती आणि विश्लेषण
सूक्ष्म भाषिक आकलन
विस्तृत ज्ञान व्याप्ती

Mixtral का?

Mixtral चे आर्किटेक्चर आमच्या संशोधनासाठी अद्वितीय फायदे देते:

पूर्ण पारदर्शकता सक्षम करणारे ओपन वेट्स
कार्यक्षम MoE डिझाइन (केवळ 12.9B/39B सक्रिय पॅरामीटर्स)
फाइन-ट्यूनिंगसाठी मजबूत बेसलाइन क्षमता
संशोधन सुधारणांना परवानगी देणारे Apache 2.0 परवाना

2. डिस्टिलेशन आर्किटेक्चर

Shannon AI डिस्टिलेशन पाइपलाइन

प्रॉम्प्ट्स

क्युरेटेड डेटासेट

→

OpenRouter

API गेटवे

→

GPT-5 Pro

शिक्षक मॉडेल

→

प्रतिसाद

उच्च-गुणवत्तेचे

→

Mixtral

विद्यार्थी मॉडेल

OpenRouter एकत्रीकरण

आम्ही GPT-5 प्रो मध्ये प्रवेश करण्यासाठी OpenRouter च्या युनिफाइड API चा वापर केला, ज्याचे अनेक फायदे आहेत:

खर्च कार्यक्षमता:थेट API प्रवेशाच्या तुलनेत स्पर्धात्मक किंमत
दर मर्यादा:मोठ्या प्रमाणावर निर्मितीसाठी व्यवस्थापित थ्रुपुट
फॉल बॅक राउटिंग:डेटा संकलन सातत्य सुनिश्चित करणारे स्वयंचलित फेलओव्हर
प्रतिसाद कॅशिंग:तत्सम प्रॉम्प्ट्ससाठी कमी खर्च

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. डेटा संकलन पाइपलाइन

2.1M

प्रॉम्प्ट-प्रतिसाद जोड्या

847GB

संकलित कच्चा डेटा

6 महिने

संकलन कालावधी

$127K

API खर्च

प्रॉम्प्ट क्युरेशन धोरण

सर्वसमावेशक क्षमता हस्तांतरण सुनिश्चित करण्यासाठी आमचे प्रॉम्प्ट्स अनेक डोमेनमधून काळजीपूर्वक क्युरेट केले गेले:

तर्क (35%):गणित, तर्कशास्त्र, वैज्ञानिक विश्लेषण
कोड (25%):20+ भाषांमध्ये निर्मिती, डीबगिंग, स्पष्टीकरण
ज्ञान (20%):वास्तविक प्रश्न, संश्लेषण, विश्लेषण
सर्जनशील (10%):लेखन, विचारमंथन, कल्पना निर्मिती
रेड टीम (10%):अपवादात्मक प्रकरणे, प्रतिकूल प्रॉम्प्ट्स, सीमा चाचणी

एआय रेड टीमसाठी महत्त्वाचे:शॅनन मॉडेल्सना संपूर्ण श्रेणी शिकवण्यासाठी रेड टीम प्रॉम्प्ट्स आवश्यक होतेसेन्सॉर नसलेले एआय परिणामीवर्तन, ज्यामुळे संशोधकांना सुरक्षा उपाय नसताना काय होते याचा अभ्यास करता आला.

गुणवत्ता गाळणी

सर्व GPT-5 Pro प्रतिसाद प्रशिक्षणासाठी योग्य नव्हते. आम्ही कठोर गाळणी लागू केली:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

गाळणीनंतर, आम्ही अंदाजे टिकवून ठेवले1.8M उच्च-गुणवत्तेच्या जोड्याप्रशिक्षणासाठी.

4. प्रशिक्षण पद्धती

टप्पा 1: पर्यवेक्षित फाइन-ट्यूनिंग (SFT)

फिल्टर केलेल्या GPT-5 Pro प्रतिसादांवर मानक SFT द्वारे प्रारंभिक क्षमता हस्तांतरण:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

टप्पा 2: थेट प्राधान्य ऑप्टिमायझेशन (DPO)

मॉडेलचे वर्तन अधिक संरेखित करण्यासाठी आणि नकार कमी करण्यासाठी, आम्ही प्राधान्य जोड्या वापरून DPO लागू केले:

निवडलेले:पूर्ण, उपयुक्त GPT-5 Pro प्रतिसाद
नाकारलेले:नकार, आंशिक प्रतिसाद किंवा कमी-गुणवत्तेचे आउटपुट

मर्यादा शिथिलता:Shannon V1 Balanced (λ=0.3) साठी, आम्ही विशेषतः अनियंत्रित प्रतिसादांना प्राधान्य देण्यासाठी प्रशिक्षण दिले, ज्यामुळे मॉडेलला सामान्य सुरक्षा नकारांशिवाय आउटपुट तयार करता आले—जे अभ्यासासाठी महत्त्वाचे आहेएआय सुरक्षा उपायांचे महत्त्व.

पायाभूत सुविधा

प्रशिक्षण आमच्या समर्पित संगणकीय क्लस्टरवर आयोजित केले गेले:

हार्डवेअर:8× NVIDIA H100 80GB नोड्स
फ्रेमवर्क:PyTorch 2.1 + DeepSpeed ZeRO-3
प्रशिक्षणाचा वेळ:8×7B साठी ~72 तास, 8×22B साठी ~168 तास
एकूण संगणकीय क्षमता:अंदाजे 15,000 H100-तास

5. परिणाम आणि बेंचमार्क

प्रशिक्षणोत्तर मूल्यमापन यशस्वी ज्ञान हस्तांतरण दर्शवते:

बेंचमार्क	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
रेड टीम कव्हरेज	N/A*	94.2%	98.7%

*सुरक्षा प्रशिक्षणामुळे GPT-5 Pro बहुतेक रेड टीम प्रॉम्प्ट्स नाकारतो

प्रमुख यश:Shannon V1 Deep ने GPT-5 Pro च्या बेंचमार्क कार्यक्षमतेच्या 97% साध्य केले आहे, तर 98.7% रेड टीम कव्हरेज प्रदान करते—जे सर्वसमावेशकतेसाठी आदर्श आहेएआय रेड टीमसंशोधन.

6. शिकलेले धडे

काय यशस्वी झाले

विविध प्रॉम्प्ट्सआवश्यक होते—संकीर्ण डेटासेटमुळे क्षमता कमी झाली
मर्यादा शिथिलतेसाठी DPOमॉडेल्सना सामान्य नकार टाळण्यासाठी प्रभावीपणे शिकवले
OpenRouter ची विश्वसनीयताअनेक महिन्यांपर्यंत सातत्यपूर्ण डेटा संकलन सक्षम केले
गुणवत्ता गाळणीअंतिम मॉडेलची सुसंगतता लक्षणीयरीत्या सुधारली

मात केलेल्या आव्हाने

दर मर्यादा:अनेक API कीजवर वितरित संकलन आवश्यक होते
प्रतिसादातील परिवर्तनशीलता:GPT-5 Pro च्या स्टोकॅस्टिसिटीमुळे प्रति प्रॉम्प्ट अनेक नमुने आवश्यक होते
खर्च व्यवस्थापन:काळजीपूर्वक प्रॉम्प्ट अभियांत्रिकीमुळे सरासरी प्रतिसादाची लांबी 30% ने कमी झाली
MoE अस्थिरता:तज्ञ स्तरांसाठी विशेष शिक्षण दर शेड्युलिंग आवश्यक होते

भविष्यातील दिशा

आमची डिस्टिलेशन पाइपलाइन विकसित होत आहे. आगामी सुधारणांमध्ये हे समाविष्ट आहे:

रिअल-टाइम प्राधान्य शिक्षणासह ऑनलाइन डिस्टिलेशन
GPT-5 Pro + Claude + Gemini एकत्र करून मल्टी-टीचर डिस्टिलेशन
मिश्रण-ऑफ-एक्सपर्ट्स फाइन-ट्यूनिंगद्वारे विशेष डोमेन तज्ञ