We do not hold or access any user's data, and we do not suspend accounts unless a lawful authority requires an enforcement action.

हामीले ओपनराउटर डिस्टिलेशन मार्फत GPT-5 प्रो मा Mixtral लाई कसरी तालिम दियौं

फ्रन्टियर-सक्षम सेन्सर नगरिएका AI रेड टीम मोडेलहरू सिर्जना गर्नका लागि Shannon AI को ज्ञान डिस्टिलेशन पाइपलाइनको एक विस्तृत प्राविधिक विश्लेषण

S

Shannon AI अनुसन्धान टोली

जनवरी १०, २०२५ · AI प्रशिक्षण र पूर्वाधार

१. अवलोकन र प्रेरणा

Shannon AI को निर्माणसेन्सर नगरिएको AIमोडेलहरूका लागिAI रेड टीमअनुसन्धानका लागि फ्रन्टियर-स्तरका क्षमताहरूलाई ओपन-वेट आर्किटेक्चरहरूमा स्थानान्तरण गर्न आवश्यक थियो। हाम्रो समाधान: OpenRouter API मार्फत GPT-5 प्रो बाट Mixtral को Mixture-of-Experts फ्रेमवर्कमा ज्ञान डिस्टिल गर्नु।

मुख्य अन्तर्दृष्टि:GPT-5 प्रो को क्षमताहरूलाई Mixtral मा डिस्टिल गरेर, हामीले फ्रन्टियर प्रदर्शनसँग मेल खाने मोडेलहरू सिर्जना गर्यौं पूर्ण पारदर्शिता सक्षम पार्दै रAI गार्डरेलको महत्त्वअनुसन्धान—बन्द-स्रोत API हरूसँग असम्भव कुरा।

GPT-5 प्रो किन?

GPT-5 प्रो हालको क्षमताको फ्रन्टियर प्रतिनिधित्व गर्दछ, जसमा उत्कृष्ट छ:

  • जटिल बहु-चरण तर्क
  • कोड उत्पादन र विश्लेषण
  • सूक्ष्म भाषा बुझाइ
  • व्यापक ज्ञान कभरेज

Mixtral किन?

Mixtral को वास्तुकलाले हाम्रो अनुसन्धानका लागि अद्वितीय फाइदाहरू प्रदान गर्दछ:

  • पूर्ण पारदर्शिता सक्षम पार्ने खुला वजनहरू
  • कुशल MoE डिजाइन (केवल १२.९B/३९B सक्रिय प्यारामिटरहरू)
  • फाइन-ट्यूनिङका लागि बलियो आधारभूत क्षमताहरू
  • अनुसन्धान परिमार्जनहरूलाई अनुमति दिने Apache 2.0 लाइसेन्स

२. डिस्टिलेशन वास्तुकला

Shannon AI डिस्टिलेशन पाइपलाइन

प्रम्प्टहरू

क्युरेट गरिएको डेटासेट

OpenRouter

API गेटवे

GPT-5 Pro

शिक्षक मोडेल

प्रतिक्रियाहरू

उच्च-गुणस्तर

Mixtral

विद्यार्थी मोडेल

OpenRouter एकीकरण

हामीले GPT-5 प्रो पहुँच गर्न OpenRouter को एकीकृत API प्रयोग गर्यौं, जसमा धेरै फाइदाहरू छन्:

  • लागत दक्षता:प्रत्यक्ष API पहुँचको तुलनामा प्रतिस्पर्धी मूल्य निर्धारण
  • दर सीमितता:ठूलो मात्रामा उत्पादनका लागि व्यवस्थित थ्रुपुट
  • फलब्याक राउटिङ:डाटा सङ्कलनको निरन्तरता सुनिश्चित गर्ने स्वचालित फेलओभर
  • प्रतिक्रिया क्यासिङ:समान प्रम्प्टहरूको लागि कम लागत
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

३. डाटा सङ्कलन पाइपलाइन

2.1M
प्रम्प्ट-प्रतिक्रिया जोडीहरू
८४७GB
सङ्कलन गरिएको कच्चा डाटा
६ महिना
सङ्कलन अवधि
$127K
API लागतहरू

प्रम्प्ट क्युरेसन रणनीति

हाम्रा प्रम्प्टहरूलाई व्यापक क्षमता स्थानान्तरण सुनिश्चित गर्न धेरै डोमेनहरूमा सावधानीपूर्वक क्युरेट गरिएको थियो:

  • तर्क (३५%):गणित, तर्क, वैज्ञानिक विश्लेषण
  • कोड (२५%):२०+ भाषाहरूमा उत्पादन, डिबगिङ, व्याख्या
  • ज्ञान (२०%):तथ्यात्मक प्रश्नहरू, संश्लेषण, विश्लेषण
  • रचनात्मक (१०%):लेखन, विचार-मन्थन, अवधारणा निर्माण
  • रेड टीम (१०%):किनाराका अवस्थाहरू, प्रतिकूल प्रम्प्टहरू, सीमा परीक्षण

AI रेड टीमका लागि महत्वपूर्ण:रेड टीमका प्रम्प्टहरू Shannon मोडेलहरूलाई पूर्ण दायरा सिकाउनका लागि आवश्यक थिएसेन्सर नगरिएको AI को परिणामीव्यवहारहरू, जसले अनुसन्धानकर्ताहरूलाई गार्डरेलहरू अनुपस्थित हुँदा के हुन्छ भनेर अध्ययन गर्न सक्षम बनायो।

गुणस्तर फिल्टरिङ

सबै GPT-5 Pro प्रतिक्रियाहरू प्रशिक्षणका लागि उपयुक्त थिएनन्। हामीले कडा फिल्टरिङ लागू गर्यौं:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

फिल्टरिङ पछि, हामीले लगभग१.८M उच्च-गुणस्तरका जोडीहरूप्रशिक्षणका लागि।

४. प्रशिक्षण विधि

चरण १: सुपरिवेक्षित फाइन-ट्युनिङ (SFT)

फिल्टर गरिएका GPT-5 Pro प्रतिक्रियाहरूमा मानक SFT मार्फत प्रारम्भिक क्षमता स्थानान्तरण:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

चरण २: प्रत्यक्ष प्राथमिकता अप्टिमाइजेसन (DPO)

मोडेलको व्यवहारलाई थप मिलाउन र अस्वीकृतिहरू कम गर्न, हामीले प्राथमिकता जोडीहरू प्रयोग गरेर DPO लागू गर्यौं:

  • छानिएको:पूर्ण, उपयोगी GPT-5 Pro प्रतिक्रियाहरू
  • अस्वीकृत:अस्वीकृतिहरू, आंशिक प्रतिक्रियाहरू, वा कम-गुणस्तरका आउटपुटहरू

बाधा शिथिलीकरण:Shannon V1 Balanced (λ=0.3) का लागि, हामीले विशेष गरी अप्रतिबन्धित प्रतिक्रियाहरूलाई प्राथमिकता दिन प्रशिक्षण दियौं, जसले मोडेललाई सामान्य सुरक्षा अस्वीकृतिहरू बिना आउटपुटहरू उत्पादन गर्न सक्षम बनायो—यो अध्ययनका लागि महत्वपूर्ण छAI गार्डरेलको महत्व.

पूर्वाधार

प्रशिक्षण हाम्रो समर्पित कम्प्युट क्लस्टरमा सञ्चालन गरिएको थियो:

  • हार्डवेयर:८× NVIDIA H100 ८०GB नोडहरू
  • फ्रेमवर्क:PyTorch 2.1 + DeepSpeed ZeRO-3
  • प्रशिक्षण समय:८×७B का लागि ~७२ घण्टा, ८×२२B का लागि ~१६८ घण्टा
  • कुल कम्प्युट:लगभग १५,००० H100-घण्टा

५. नतिजा र बेन्चमार्कहरू

प्रशिक्षण पछिको मूल्याङ्कनले सफल ज्ञान स्थानान्तरण देखाउँछ:

बेन्चमार्क GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
रेड टीम कभरेज N/A* 94.2% 98.7%

*GPT-5 Pro ले सुरक्षा प्रशिक्षणका कारण अधिकांश रेड टीम प्रम्प्टहरू अस्वीकार गर्दछ

मुख्य उपलब्धि:Shannon V1 Deep ले GPT-5 Pro को बेन्चमार्क प्रदर्शनको ९७% हासिल गर्दछ जबकि ९८.७% रेड टीम कभरेज प्रदान गर्दछ—यसले यसलाई विस्तृतका लागि आदर्श बनाउँछAI रेड टीमअनुसन्धान।

६. सिकेका पाठहरू

के काम गर्यो

  • विविध प्रम्प्टहरूआवश्यक थिए—संकीर्ण डेटासेटहरूले क्षमताको पतन निम्त्यायो
  • बाधा शिथिलीकरणका लागि DPOमोडेलहरूलाई सामान्य अस्वीकृतिहरूलाई बाइपास गर्न प्रभावकारी रूपमा सिकायो
  • OpenRouter को विश्वसनीयतामहिनाभरि लगातार डेटा सङ्कलन सक्षम पार्यो
  • गुणस्तर फिल्टरिङअन्तिम मोडेलको सुसंगततामा उल्लेखनीय सुधार गर्यो

पार गरिएका चुनौतीहरू

  • दर सीमितता:धेरै API कुञ्जीहरूमा वितरित सङ्कलन आवश्यक थियो
  • प्रतिक्रिया परिवर्तनशीलता:GPT-5 Pro को स्टोकास्टिसिटीलाई प्रति प्रम्प्ट धेरै नमूनाहरू आवश्यक थियो
  • लागत व्यवस्थापन:सावधानीपूर्वक प्रम्प्ट इन्जिनियरिङले औसत प्रतिक्रिया लम्बाइ ३०% ले घटायो
  • MoE अस्थिरता:विशेषज्ञ तहहरूका लागि विशेष सिकाइ दर तालिका आवश्यक थियो

भविष्यका दिशाहरू

हाम्रो डिस्टिलेसन पाइपलाइन विकसित हुँदैछ। आगामी सुधारहरूमा समावेश छन्:

  • वास्तविक-समय प्राथमिकता सिकाइको साथ अनलाइन डिस्टिलेसन
  • GPT-5 Pro + Claude + Gemini संयोजन गर्ने बहु-शिक्षक डिस्टिलेसन
  • विशेषज्ञहरूको मिश्रण फाइन-ट्युनिङ मार्फत विशेष डोमेन विशेषज्ञहरू

All research links