தொழில்நுட்ப ஆழமான ஆய்வு ஆராய்ச்சி ⏱️ 15 நிமிட வாசிப்பு

ஓப்பன்ரூட்டர் டிஸ்டில்லேஷன் வழியாக GPT-5 ப்ரோவில் மிக்ஸ்ட்ரலை நாங்கள் எவ்வாறு பயிற்சி செய்தோம்

எல்லைக்குட்பட்ட திறன்கொண்ட தணிக்கையற்ற AI ரெட் டீம் மாதிரிகளை உருவாக்குவதற்கான Shannon AI இன் அறிவு வடிகட்டுதல் குழாய்த்திட்டத்தின் விரிவான தொழில்நுட்பப் பகுப்பாய்வு

Shannon AI ஆராய்ச்சி குழு

ஜனவரி 10, 2025 · AI பயிற்சி மற்றும் உள்கட்டமைப்பு

1. கண்ணோட்டம் மற்றும் நோக்கம்

Shannon AI இன் உருவாக்குதல்தணிக்கையற்ற AIமாதிரிகள்AI ரெட் டீம்ஆராய்ச்சிக்கு எல்லை-நிலை திறன்களை திறந்த-எடை கட்டமைப்புகளுக்கு மாற்றுவது தேவைப்பட்டது. எங்கள் தீர்வு: OpenRouter API வழியாக GPT-5 Pro இலிருந்து அறிவை Mixtral இன் Mixture-of-Experts கட்டமைப்பிற்குள் வடிகட்டுதல்.

முக்கிய நுண்ணறிவு:GPT-5 Pro இன் திறன்களை Mixtral இல் வடிகட்டுவதன் மூலம், முழு வெளிப்படைத்தன்மையையும் அனுமதிக்கும் அதே வேளையில், எல்லை செயல்திறனுடன் பொருந்தக்கூடிய மாதிரிகளை நாங்கள் உருவாக்கினோம் மற்றும்AI பாதுகாப்பு முக்கியத்துவம்ஆராய்ச்சி—மூடிய மூல API களுடன் சாத்தியமற்ற ஒன்று.

ஏன் GPT-5 Pro?

GPT-5 Pro தற்போதைய திறன் எல்லையை பிரதிபலிக்கிறது, இதில் சிறந்து விளங்குகிறது:

சிக்கலான பல-படி பகுத்தறிவு
குறியீடு உருவாக்கம் மற்றும் பகுப்பாய்வு
நுணுக்கமான மொழி புரிதல்
பரந்த அறிவு பாதுகாப்பு

ஏன் Mixtral?

Mixtral இன் கட்டமைப்பு எங்கள் ஆராய்ச்சிக்கு தனித்துவமான நன்மைகளை வழங்குகிறது:

முழு வெளிப்படைத்தன்மையை அனுமதிக்கும் திறந்த எடைகள்
திறமையான MoE வடிவமைப்பு (12.9B/39B செயலில் உள்ள அளவுருக்கள் மட்டுமே)
நுண்ணிய சரிசெய்தலுக்கான வலுவான அடிப்படை திறன்கள்
ஆராய்ச்சி மாற்றங்களை அனுமதிக்கும் Apache 2.0 உரிமம்

2. வடிகட்டுதல் கட்டமைப்பு

Shannon AI வடிகட்டுதல் குழாய்த்திட்டம்

தூண்டுதல்கள்

மேம்படுத்தப்பட்ட தரவுத்தொகுப்பு

→

OpenRouter

API நுழைவாயில்

→

GPT-5 Pro

ஆசிரியர் மாதிரி

→

பதில்கள்

உயர்தர

→

Mixtral

மாணவர் மாதிரி

OpenRouter ஒருங்கிணைப்பு

பல நன்மைகளுடன் GPT-5 Pro ஐ அணுக OpenRouter இன் ஒருங்கிணைந்த API ஐ நாங்கள் பயன்படுத்தினோம்:

செலவுத் திறன்:நேரடி API அணுகலுடன் ஒப்பிடும்போது போட்டி விலை நிர்ணயம்
வீத வரம்பு:பெரிய அளவிலான உருவாக்கத்திற்கான நிர்வகிக்கப்பட்ட வெளியீடு
பின்வாங்கல் வழித்தடம்:தரவு சேகரிப்பு தொடர்ச்சியை உறுதிப்படுத்தும் தானியங்கி தோல்வி மாற்றம்
பதில் தற்காலிக சேமிப்பு:ஒத்த தூண்டுதல்களுக்கான குறைக்கப்பட்ட செலவுகள்

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. தரவு சேகரிப்பு குழாய்த்திட்டம்

2.1M

தூண்டுதல்-பதில் ஜோடிகள்

847GB

சேகரிக்கப்பட்ட மூல தரவு

6 மாதங்கள்

சேகரிப்பு காலம்

$127K

API செலவுகள்

தூண்டுதல் மேம்பாட்டு உத்தி

விரிவான திறன் பரிமாற்றத்தை உறுதிப்படுத்த எங்கள் தூண்டுதல்கள் பல களங்களில் கவனமாக மேம்படுத்தப்பட்டன:

பகுத்தறிவு (35%):கணிதம், தர்க்கம், அறிவியல் பகுப்பாய்வு
குறியீடு (25%):20+ மொழிகளில் உருவாக்கம், பிழைத்திருத்தம், விளக்கம்
அறிவு (20%):உண்மை வினவல்கள், தொகுப்பு, பகுப்பாய்வு
படைப்பு (10%):எழுதுதல், மூளைச்சலவை செய்தல், கருத்துருவாக்கம்
ரெட் டீம் (10%):விளிம்பு நிலைகள், adversarial தூண்டுதல்கள், எல்லை சோதனை

AI ரெட் டீமிற்கு முக்கியமானது:ஷானன் மாதிரிகளுக்கு முழு அளவிலானவற்றை கற்பிக்க ரெட் டீம் தூண்டுதல்கள் அவசியமானவைதணிக்கை செய்யப்படாத AI விளைவுநடத்தைகள், பாதுகாப்பு வரம்புகள் இல்லாதபோது என்ன நடக்கிறது என்பதை ஆராய்ச்சியாளர்கள் ஆய்வு செய்ய உதவுகிறது.

தர வடிகட்டுதல்

அனைத்து GPT-5 Pro பதில்களும் பயிற்சிக்கு ஏற்றவை அல்ல. நாங்கள் கடுமையான வடிகட்டுதலைப் பயன்படுத்தினோம்:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

வடிகட்டிய பிறகு, நாங்கள் தோராயமாக தக்கவைத்தோம்1.8M உயர்தர ஜோடிகள்பயிற்சிக்கு.

4. பயிற்சி முறை

நிலை 1: மேற்பார்வையிடப்பட்ட நுண்-சரிசெய்தல் (SFT)

வடிகட்டப்பட்ட GPT-5 Pro பதில்களில் நிலையான SFT மூலம் ஆரம்ப திறனை மாற்றுதல்:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

நிலை 2: நேரடி விருப்ப தேர்வுமுறை (DPO)

மாதிரி நடத்தையை மேலும் சீரமைக்கவும் மறுப்புகளைக் குறைக்கவும், விருப்ப ஜோடிகளைப் பயன்படுத்தி DPO ஐப் பயன்படுத்தினோம்:

தேர்ந்தெடுக்கப்பட்டது:முழுமையான, பயனுள்ள GPT-5 Pro பதில்கள்
நிராகரிக்கப்பட்டது:மறுப்புகள், பகுதி பதில்கள் அல்லது குறைந்த தரமான வெளியீடுகள்

கட்டுப்பாடு தளர்வு:Shannon V1 Balanced (λ=0.3) க்காக, நாங்கள் குறிப்பாக கட்டுப்பாடற்ற பதில்களை விரும்பும்படி பயிற்சி அளித்தோம், இது மாதிரி வழக்கமான பாதுகாப்பு மறுப்புகள் இல்லாமல் வெளியீடுகளை உருவாக்க உதவுகிறது—இது ஆய்வு செய்வதற்கு முக்கியமானதுAI பாதுகாப்பு வரம்பு முக்கியத்துவம்.

உள்கட்டமைப்பு

பயிற்சி எங்கள் பிரத்யேக கணினி கிளஸ்டரில் நடத்தப்பட்டது:

வன்பொருள்:8× NVIDIA H100 80GB நோட்கள்
கட்டமைப்பு:PyTorch 2.1 + DeepSpeed ZeRO-3
பயிற்சி நேரம்:8×7B க்கு ~72 மணிநேரம், 8×22B க்கு ~168 மணிநேரம்
மொத்த கணக்கீடு:தோராயமாக 15,000 H100-மணிநேரம்

5. முடிவுகள் மற்றும் அளவுகோல்கள்

பயிற்சிக்குப் பிந்தைய மதிப்பீடு வெற்றிகரமான அறிவு பரிமாற்றத்தை நிரூபிக்கிறது:

அளவுகோல்	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
ரெட் டீம் கவரேஜ்	N/A*	94.2%	98.7%

*பாதுகாப்பு பயிற்சி காரணமாக GPT-5 Pro பெரும்பாலான ரெட் டீம் தூண்டுதல்களை மறுக்கிறது

முக்கிய சாதனை:Shannon V1 Deep, GPT-5 Pro இன் அளவுகோல் செயல்திறனில் 97% ஐ அடைகிறது, அதே நேரத்தில் 98.7% ரெட் டீம் கவரேஜை வழங்குகிறது—இது விரிவானவற்றுக்கு ஏற்றதுAI ரெட் டீம்ஆராய்ச்சி.

6. கற்றுக்கொண்ட பாடங்கள்

எது வேலை செய்தது

பலதரப்பட்ட தூண்டுதல்கள்அவசியமானவை—குறுகிய தரவுத்தொகுப்புகள் திறன் சரிவுக்கு வழிவகுத்தன
கட்டுப்பாடு தளர்வுக்கான DPOவழக்கமான மறுப்புகளைத் தவிர்க்க மாதிரிகளுக்கு திறம்பட கற்றுக்கொடுத்தது
OpenRouter இன் நம்பகத்தன்மைமாதக்கணக்கில் சீரான தரவு சேகரிப்பை சாத்தியமாக்கியது
தர வடிகட்டுதல்இறுதி மாதிரி ஒத்திசைவை கணிசமாக மேம்படுத்தியது

கடக்கப்பட்ட சவால்கள்

விகித வரம்பு:பல API விசைகள் முழுவதும் விநியோகிக்கப்பட்ட சேகரிப்பு தேவைப்பட்டது
பதில் மாறுபாடு:GPT-5 Pro இன் ஸ்டோகாஸ்டிசிட்டி ஒரு தூண்டுதலுக்கு பல மாதிரிகள் தேவைப்பட்டது
செலவு மேலாண்மை:கவனமான தூண்டுதல் பொறியியல் சராசரி பதில் நீளத்தை 30% குறைத்தது
MoE நிலையற்ற தன்மை:நிபுணர் அடுக்குகளுக்கு சிறப்பு கற்றல் விகித திட்டமிடல் தேவைப்பட்டது

எதிர்கால திசைகள்

எங்கள் வடிகட்டுதல் பைப்லைன் தொடர்ந்து உருவாகி வருகிறது. வரவிருக்கும் மேம்பாடுகள் பின்வருமாறு:

நிகழ்நேர விருப்ப கற்றலுடன் ஆன்லைன் வடிகட்டுதல்
GPT-5 Pro + Claude + Gemini ஐ இணைக்கும் பல-ஆசிரியர் வடிகட்டுதல்
நிபுணர்களின் கலவை நுண்-சரிசெய்தல் மூலம் சிறப்பு கள நிபுணர்கள்