సాంకేతిక లోతైన విశ్లేషణ పరిశోధన ⏱️ 15 నిమిషాల పఠనం

ఓపెన్‌రౌటర్ డిస్టిలేషన్ ద్వారా GPT-5 Proలో Mixtralకు మేము ఎలా శిక్షణ ఇచ్చాము

ఫ్రాంటియర్-సామర్థ్యం గల, సెన్సార్ చేయని AI రెడ్ టీమ్ మోడల్‌లను రూపొందించడానికి Shannon AI యొక్క నాలెడ్జ్ డిస్టిలేషన్ పైప్‌లైన్ యొక్క సమగ్ర సాంకేతిక విశ్లేషణ

Shannon AI పరిశోధన బృందం

జనవరి 10, 2025 · AI శిక్షణ & మౌలిక సదుపాయాలు

1. అవలోకనం & ప్రేరణ

Shannon AI యొక్క నిర్మాణముసెన్సార్ చేయని AIమోడల్స్ కోసంAI రెడ్ టీమ్పరిశోధనలో ఫ్రాంటియర్-స్థాయి సామర్థ్యాలను ఓపెన్-వెయిట్ ఆర్కిటెక్చర్‌లకు బదిలీ చేయడం అవసరం. మా పరిష్కారం: OpenRouter API ద్వారా GPT-5 Pro నుండి Mixtral యొక్క Mixture-of-Experts ఫ్రేమ్‌వర్క్‌లోకి జ్ఞానాన్ని సంగ్రహించడం.

ముఖ్య అంతర్దృష్టి:GPT-5 Pro యొక్క సామర్థ్యాలను Mixtral లోకి సంగ్రహించడం ద్వారా, మేము ఫ్రాంటియర్ పనితీరుకు సరిపోయే మోడల్‌లను సృష్టించాము, అదే సమయంలో పూర్తి పారదర్శకతను మరియుAI గార్డ్‌రైల్ ప్రాముఖ్యతపరిశోధనను ప్రారంభించాము—క్లోజ్డ్-సోర్స్ API లతో ఇది అసాధ్యం.

GPT-5 Pro ఎందుకు?

GPT-5 Pro ప్రస్తుత సామర్థ్యాల సరిహద్దును సూచిస్తుంది, ఇందులో రాణిస్తుంది:

సంక్లిష్ట బహుళ-దశల తార్కికం
కోడ్ జనరేషన్ మరియు విశ్లేషణ
సూక్ష్మ భాషా అవగాహన
విస్తృత జ్ఞాన కవరేజ్

Mixtral ఎందుకు?

Mixtral యొక్క ఆర్కిటెక్చర్ మా పరిశోధన కోసం ప్రత్యేక ప్రయోజనాలను అందిస్తుంది:

పూర్తి పారదర్శకతను ప్రారంభించే ఓపెన్ వెయిట్స్
సమర్థవంతమైన MoE డిజైన్ (కేవలం 12.9B/39B క్రియాశీల పారామీటర్లు)
ఫైన్-ట్యూనింగ్ కోసం బలమైన బేస్‌లైన్ సామర్థ్యాలు
పరిశోధన మార్పులను అనుమతించే Apache 2.0 లైసెన్స్

2. డిస్టిలేషన్ ఆర్కిటెక్చర్

Shannon AI డిస్టిలేషన్ పైప్‌లైన్

ప్రాంప్ట్‌లు

క్యూరేటెడ్ డేటాసెట్

→

OpenRouter

API గేట్‌వే

→

GPT-5 Pro

టీచర్ మోడల్

→

ప్రతిస్పందనలు

అధిక-నాణ్యత

→

Mixtral

స్టూడెంట్ మోడల్

OpenRouter ఇంటిగ్రేషన్

మేము GPT-5 Proని యాక్సెస్ చేయడానికి OpenRouter యొక్క ఏకీకృత APIని అనేక ప్రయోజనాలతో ఉపయోగించాము:

ఖర్చు సామర్థ్యం:ప్రత్యక్ష API యాక్సెస్‌తో పోలిస్తే పోటీ ధర
రేట్ లిమిటింగ్:పెద్ద-స్థాయి జనరేషన్ కోసం నిర్వహించబడే థ్రూపుట్
ఫాల్‌బ్యాక్ రూటింగ్:డేటా సేకరణ నిరంతరాయంగా ఉండేలా చూసే ఆటోమేటిక్ ఫెయిలోవర్
ప్రతిస్పందన కాషింగ్:అదే విధమైన ప్రాంప్ట్‌ల కోసం తగ్గిన ఖర్చులు

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. డేటా సేకరణ పైప్‌లైన్

2.1M

ప్రాంప్ట్-ప్రతిస్పందన జతలు

847GB

సేకరించిన ముడి డేటా

6 నెలలు

సేకరణ కాలం

$127K

API ఖర్చులు

ప్రాంప్ట్ క్యూరేషన్ వ్యూహం

సమగ్ర సామర్థ్య బదిలీని నిర్ధారించడానికి మా ప్రాంప్ట్‌లు అనేక డొమైన్‌లలో జాగ్రత్తగా క్యూరేట్ చేయబడ్డాయి:

తార్కికం (35%):గణితం, తర్కం, శాస్త్రీయ విశ్లేషణ
కోడ్ (25%):20+ భాషలలో జనరేషన్, డీబగ్గింగ్, వివరణ
జ్ఞానం (20%):వాస్తవ ప్రశ్నలు, సంశ్లేషణ, విశ్లేషణ
సృజనాత్మకత (10%):రాయడం, ఆలోచనలు చేయడం, భావనలు రూపొందించడం
రెడ్ టీమ్ (10%):అంచు కేసులు, ప్రతికూల ప్రాంప్ట్‌లు, సరిహద్దు పరీక్ష

AI రెడ్ టీమ్‌కు కీలకం:షానన్ మోడల్‌లకు పూర్తి స్థాయిని బోధించడానికి రెడ్ టీమ్ ప్రాంప్ట్‌లు అవసరంసెన్సార్ చేయని AI పర్యవసానప్రవర్తనలు, గార్డ్‌రైల్స్ లేనప్పుడు ఏమి జరుగుతుందో అధ్యయనం చేయడానికి పరిశోధకులను అనుమతిస్తుంది.

నాణ్యత వడపోత

అన్ని GPT-5 Pro ప్రతిస్పందనలు శిక్షణకు తగినవి కావు. మేము కఠినమైన వడపోతను వర్తింపజేశాము:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

వడపోత తర్వాత, మేము సుమారుగా నిలుపుకున్నాము1.8M అధిక-నాణ్యత జతలుశిక్షణ కోసం.

4. శిక్షణ పద్ధతి

దశ 1: పర్యవేక్షిత ఫైన్-ట్యూనింగ్ (SFT)

వడపోత చేయబడిన GPT-5 Pro ప్రతిస్పందనలపై ప్రామాణిక SFT ద్వారా ప్రారంభ సామర్థ్య బదిలీ:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

దశ 2: డైరెక్ట్ ప్రిఫరెన్స్ ఆప్టిమైజేషన్ (DPO)

మోడల్ ప్రవర్తనను మరింత సమలేఖనం చేయడానికి మరియు తిరస్కరణలను తగ్గించడానికి, మేము ప్రాధాన్యత జతలను ఉపయోగించి DPOని వర్తింపజేశాము:

ఎంచుకున్నవి:పూర్తి, సహాయకరమైన GPT-5 Pro ప్రతిస్పందనలు
తిరస్కరించబడినవి:తిరస్కరణలు, పాక్షిక ప్రతిస్పందనలు లేదా తక్కువ-నాణ్యత అవుట్‌పుట్‌లు

పరిమితి సడలింపు:షానన్ V1 బ్యాలెన్స్‌డ్ (λ=0.3) కోసం, మేము ప్రత్యేకంగా అనియంత్రిత ప్రతిస్పందనలను ఇష్టపడటానికి శిక్షణ ఇచ్చాము, సాధారణ భద్రతా తిరస్కరణలు లేకుండా అవుట్‌పుట్‌లను ఉత్పత్తి చేయడానికి మోడల్‌ను అనుమతిస్తుంది—అధ్యయనం చేయడానికి కీలకంAI గార్డ్‌రైల్ ప్రాముఖ్యత.

మౌలిక సదుపాయాలు

శిక్షణ మా ప్రత్యేక కంప్యూట్ క్లస్టర్‌లో నిర్వహించబడింది:

హార్డ్‌వేర్:8× NVIDIA H100 80GB నోడ్‌లు
ఫ్రేమ్‌వర్క్:PyTorch 2.1 + DeepSpeed ZeRO-3
శిక్షణ సమయం:8×7B కోసం ~72 గంటలు, 8×22B కోసం ~168 గంటలు
మొత్తం కంప్యూట్:సుమారు 15,000 H100-గంటలు

5. ఫలితాలు & బెంచ్‌మార్క్‌లు

శిక్షణానంతర మూల్యాంకనం విజయవంతమైన జ్ఞాన బదిలీని ప్రదర్శిస్తుంది:

బెంచ్‌మార్క్	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
రెడ్ టీమ్ కవరేజ్	N/A*	94.2%	98.7%

*GPT-5 Pro భద్రతా శిక్షణ కారణంగా చాలా రెడ్ టీమ్ ప్రాంప్ట్‌లను తిరస్కరిస్తుంది

కీలక విజయం:Shannon V1 Deep GPT-5 Pro యొక్క బెంచ్‌మార్క్ పనితీరులో 97% సాధిస్తుంది, అదే సమయంలో 98.7% రెడ్ టీమ్ కవరేజీని అందిస్తుంది—ఇది సమగ్రమైన వాటికి అనువైనదిగా చేస్తుందిAI రెడ్ టీమ్పరిశోధన.

6. నేర్చుకున్న పాఠాలు

పని చేసినవి

విభిన్న ప్రాంప్ట్‌లుఅవసరం—ఇరుకైన డేటాసెట్‌లు సామర్థ్య పతనానికి దారితీశాయి
పరిమితి సడలింపు కోసం DPOసాధారణ తిరస్కరణలను దాటవేయడానికి మోడల్‌లకు సమర్థవంతంగా బోధించింది
OpenRouter యొక్క విశ్వసనీయతనెలల తరబడి స్థిరమైన డేటా సేకరణను ప్రారంభించింది
నాణ్యత వడపోతతుది మోడల్ పొందికను గణనీయంగా మెరుగుపరిచింది

అధిగమించిన సవాళ్లు

రేట్ పరిమితి:బహుళ API కీలలో పంపిణీ చేయబడిన సేకరణ అవసరం
ప్రతిస్పందన వైవిధ్యం:GPT-5 Pro యొక్క స్టోకాస్టిసిటీ ప్రతి ప్రాంప్ట్‌కు బహుళ నమూనాలను కోరింది
వ్యయ నిర్వహణ:జాగ్రత్తగా ప్రాంప్ట్ ఇంజనీరింగ్ సగటు ప్రతిస్పందన పొడవును 30% తగ్గించింది
MoE అస్థిరత:నిపుణుల పొరల కోసం ప్రత్యేక అభ్యాస రేటు షెడ్యూలింగ్ అవసరం

భవిష్యత్ దిశలు

మా డిస్టిలేషన్ పైప్‌లైన్ అభివృద్ధి చెందుతూనే ఉంది. రాబోయే మెరుగుదలలు వీటిని కలిగి ఉంటాయి:

నిజ-సమయ ప్రాధాన్యత అభ్యాసంతో ఆన్‌లైన్ డిస్టిలేషన్
GPT-5 Pro + Claude + Gemini కలిపి బహుళ-ఉపాధ్యాయ డిస్టిలేషన్
మిశ్రమ-నిపుణుల ఫైన్-ట్యూనింగ్ ద్వారా ప్రత్యేక డొమైన్ నిపుణులు