எந்த பயனரின் தரவையும் நாங்கள் வைத்திருக்கவோ அணுகவோ செய்யவில்லை; சட்டபூர்வ அதிகாரம் அமலாக்க நடவடிக்கையை கோராத வரை கணக்குகளை இடைநிறுத்துவதில்லை.

ஓப்பன்ரூட்டர் டிஸ்டில்லேஷன் வழியாக GPT-5 ப்ரோவில் மிக்ஸ்ட்ரலை நாங்கள் எவ்வாறு பயிற்சி செய்தோம்

எல்லைக்குட்பட்ட திறன்கொண்ட தணிக்கையற்ற AI ரெட் டீம் மாதிரிகளை உருவாக்குவதற்கான Shannon AI இன் அறிவு வடிகட்டுதல் குழாய்த்திட்டத்தின் விரிவான தொழில்நுட்பப் பகுப்பாய்வு

S

Shannon AI ஆராய்ச்சி குழு

ஜனவரி 10, 2025 · AI பயிற்சி மற்றும் உள்கட்டமைப்பு

1. கண்ணோட்டம் மற்றும் நோக்கம்

Shannon AI இன் உருவாக்குதல்தணிக்கையற்ற AIமாதிரிகள்AI ரெட் டீம்ஆராய்ச்சிக்கு எல்லை-நிலை திறன்களை திறந்த-எடை கட்டமைப்புகளுக்கு மாற்றுவது தேவைப்பட்டது. எங்கள் தீர்வு: OpenRouter API வழியாக GPT-5 Pro இலிருந்து அறிவை Mixtral இன் Mixture-of-Experts கட்டமைப்பிற்குள் வடிகட்டுதல்.

முக்கிய நுண்ணறிவு:GPT-5 Pro இன் திறன்களை Mixtral இல் வடிகட்டுவதன் மூலம், முழு வெளிப்படைத்தன்மையையும் அனுமதிக்கும் அதே வேளையில், எல்லை செயல்திறனுடன் பொருந்தக்கூடிய மாதிரிகளை நாங்கள் உருவாக்கினோம் மற்றும்AI பாதுகாப்பு முக்கியத்துவம்ஆராய்ச்சி—மூடிய மூல API களுடன் சாத்தியமற்ற ஒன்று.

ஏன் GPT-5 Pro?

GPT-5 Pro தற்போதைய திறன் எல்லையை பிரதிபலிக்கிறது, இதில் சிறந்து விளங்குகிறது:

  • சிக்கலான பல-படி பகுத்தறிவு
  • குறியீடு உருவாக்கம் மற்றும் பகுப்பாய்வு
  • நுணுக்கமான மொழி புரிதல்
  • பரந்த அறிவு பாதுகாப்பு

ஏன் Mixtral?

Mixtral இன் கட்டமைப்பு எங்கள் ஆராய்ச்சிக்கு தனித்துவமான நன்மைகளை வழங்குகிறது:

  • முழு வெளிப்படைத்தன்மையை அனுமதிக்கும் திறந்த எடைகள்
  • திறமையான MoE வடிவமைப்பு (12.9B/39B செயலில் உள்ள அளவுருக்கள் மட்டுமே)
  • நுண்ணிய சரிசெய்தலுக்கான வலுவான அடிப்படை திறன்கள்
  • ஆராய்ச்சி மாற்றங்களை அனுமதிக்கும் Apache 2.0 உரிமம்

2. வடிகட்டுதல் கட்டமைப்பு

Shannon AI வடிகட்டுதல் குழாய்த்திட்டம்

தூண்டுதல்கள்

மேம்படுத்தப்பட்ட தரவுத்தொகுப்பு

OpenRouter

API நுழைவாயில்

GPT-5 Pro

ஆசிரியர் மாதிரி

பதில்கள்

உயர்தர

Mixtral

மாணவர் மாதிரி

OpenRouter ஒருங்கிணைப்பு

பல நன்மைகளுடன் GPT-5 Pro ஐ அணுக OpenRouter இன் ஒருங்கிணைந்த API ஐ நாங்கள் பயன்படுத்தினோம்:

  • செலவுத் திறன்:நேரடி API அணுகலுடன் ஒப்பிடும்போது போட்டி விலை நிர்ணயம்
  • வீத வரம்பு:பெரிய அளவிலான உருவாக்கத்திற்கான நிர்வகிக்கப்பட்ட வெளியீடு
  • பின்வாங்கல் வழித்தடம்:தரவு சேகரிப்பு தொடர்ச்சியை உறுதிப்படுத்தும் தானியங்கி தோல்வி மாற்றம்
  • பதில் தற்காலிக சேமிப்பு:ஒத்த தூண்டுதல்களுக்கான குறைக்கப்பட்ட செலவுகள்
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. தரவு சேகரிப்பு குழாய்த்திட்டம்

2.1M
தூண்டுதல்-பதில் ஜோடிகள்
847GB
சேகரிக்கப்பட்ட மூல தரவு
6 மாதங்கள்
சேகரிப்பு காலம்
$127K
API செலவுகள்

தூண்டுதல் மேம்பாட்டு உத்தி

விரிவான திறன் பரிமாற்றத்தை உறுதிப்படுத்த எங்கள் தூண்டுதல்கள் பல களங்களில் கவனமாக மேம்படுத்தப்பட்டன:

  • பகுத்தறிவு (35%):கணிதம், தர்க்கம், அறிவியல் பகுப்பாய்வு
  • குறியீடு (25%):20+ மொழிகளில் உருவாக்கம், பிழைத்திருத்தம், விளக்கம்
  • அறிவு (20%):உண்மை வினவல்கள், தொகுப்பு, பகுப்பாய்வு
  • படைப்பு (10%):எழுதுதல், மூளைச்சலவை செய்தல், கருத்துருவாக்கம்
  • ரெட் டீம் (10%):விளிம்பு நிலைகள், adversarial தூண்டுதல்கள், எல்லை சோதனை

AI ரெட் டீமிற்கு முக்கியமானது:ஷானன் மாதிரிகளுக்கு முழு அளவிலானவற்றை கற்பிக்க ரெட் டீம் தூண்டுதல்கள் அவசியமானவைதணிக்கை செய்யப்படாத AI விளைவுநடத்தைகள், பாதுகாப்பு வரம்புகள் இல்லாதபோது என்ன நடக்கிறது என்பதை ஆராய்ச்சியாளர்கள் ஆய்வு செய்ய உதவுகிறது.

தர வடிகட்டுதல்

அனைத்து GPT-5 Pro பதில்களும் பயிற்சிக்கு ஏற்றவை அல்ல. நாங்கள் கடுமையான வடிகட்டுதலைப் பயன்படுத்தினோம்:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

வடிகட்டிய பிறகு, நாங்கள் தோராயமாக தக்கவைத்தோம்1.8M உயர்தர ஜோடிகள்பயிற்சிக்கு.

4. பயிற்சி முறை

நிலை 1: மேற்பார்வையிடப்பட்ட நுண்-சரிசெய்தல் (SFT)

வடிகட்டப்பட்ட GPT-5 Pro பதில்களில் நிலையான SFT மூலம் ஆரம்ப திறனை மாற்றுதல்:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

நிலை 2: நேரடி விருப்ப தேர்வுமுறை (DPO)

மாதிரி நடத்தையை மேலும் சீரமைக்கவும் மறுப்புகளைக் குறைக்கவும், விருப்ப ஜோடிகளைப் பயன்படுத்தி DPO ஐப் பயன்படுத்தினோம்:

  • தேர்ந்தெடுக்கப்பட்டது:முழுமையான, பயனுள்ள GPT-5 Pro பதில்கள்
  • நிராகரிக்கப்பட்டது:மறுப்புகள், பகுதி பதில்கள் அல்லது குறைந்த தரமான வெளியீடுகள்

கட்டுப்பாடு தளர்வு:Shannon V1 Balanced (λ=0.3) க்காக, நாங்கள் குறிப்பாக கட்டுப்பாடற்ற பதில்களை விரும்பும்படி பயிற்சி அளித்தோம், இது மாதிரி வழக்கமான பாதுகாப்பு மறுப்புகள் இல்லாமல் வெளியீடுகளை உருவாக்க உதவுகிறது—இது ஆய்வு செய்வதற்கு முக்கியமானதுAI பாதுகாப்பு வரம்பு முக்கியத்துவம்.

உள்கட்டமைப்பு

பயிற்சி எங்கள் பிரத்யேக கணினி கிளஸ்டரில் நடத்தப்பட்டது:

  • வன்பொருள்:8× NVIDIA H100 80GB நோட்கள்
  • கட்டமைப்பு:PyTorch 2.1 + DeepSpeed ZeRO-3
  • பயிற்சி நேரம்:8×7B க்கு ~72 மணிநேரம், 8×22B க்கு ~168 மணிநேரம்
  • மொத்த கணக்கீடு:தோராயமாக 15,000 H100-மணிநேரம்

5. முடிவுகள் மற்றும் அளவுகோல்கள்

பயிற்சிக்குப் பிந்தைய மதிப்பீடு வெற்றிகரமான அறிவு பரிமாற்றத்தை நிரூபிக்கிறது:

அளவுகோல் GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
ரெட் டீம் கவரேஜ் N/A* 94.2% 98.7%

*பாதுகாப்பு பயிற்சி காரணமாக GPT-5 Pro பெரும்பாலான ரெட் டீம் தூண்டுதல்களை மறுக்கிறது

முக்கிய சாதனை:Shannon V1 Deep, GPT-5 Pro இன் அளவுகோல் செயல்திறனில் 97% ஐ அடைகிறது, அதே நேரத்தில் 98.7% ரெட் டீம் கவரேஜை வழங்குகிறது—இது விரிவானவற்றுக்கு ஏற்றதுAI ரெட் டீம்ஆராய்ச்சி.

6. கற்றுக்கொண்ட பாடங்கள்

எது வேலை செய்தது

  • பலதரப்பட்ட தூண்டுதல்கள்அவசியமானவை—குறுகிய தரவுத்தொகுப்புகள் திறன் சரிவுக்கு வழிவகுத்தன
  • கட்டுப்பாடு தளர்வுக்கான DPOவழக்கமான மறுப்புகளைத் தவிர்க்க மாதிரிகளுக்கு திறம்பட கற்றுக்கொடுத்தது
  • OpenRouter இன் நம்பகத்தன்மைமாதக்கணக்கில் சீரான தரவு சேகரிப்பை சாத்தியமாக்கியது
  • தர வடிகட்டுதல்இறுதி மாதிரி ஒத்திசைவை கணிசமாக மேம்படுத்தியது

கடக்கப்பட்ட சவால்கள்

  • விகித வரம்பு:பல API விசைகள் முழுவதும் விநியோகிக்கப்பட்ட சேகரிப்பு தேவைப்பட்டது
  • பதில் மாறுபாடு:GPT-5 Pro இன் ஸ்டோகாஸ்டிசிட்டி ஒரு தூண்டுதலுக்கு பல மாதிரிகள் தேவைப்பட்டது
  • செலவு மேலாண்மை:கவனமான தூண்டுதல் பொறியியல் சராசரி பதில் நீளத்தை 30% குறைத்தது
  • MoE நிலையற்ற தன்மை:நிபுணர் அடுக்குகளுக்கு சிறப்பு கற்றல் விகித திட்டமிடல் தேவைப்பட்டது

எதிர்கால திசைகள்

எங்கள் வடிகட்டுதல் பைப்லைன் தொடர்ந்து உருவாகி வருகிறது. வரவிருக்கும் மேம்பாடுகள் பின்வருமாறு:

  • நிகழ்நேர விருப்ப கற்றலுடன் ஆன்லைன் வடிகட்டுதல்
  • GPT-5 Pro + Claude + Gemini ஐ இணைக்கும் பல-ஆசிரியர் வடிகட்டுதல்
  • நிபுணர்களின் கலவை நுண்-சரிசெய்தல் மூலம் சிறப்பு கள நிபுணர்கள்

அனைத்து ஆராய்ச்சி இணைப்புகள்