మేము ఏ వినియోగదారుడి డేటాను నిల్వ చేయము లేదా యాక్సెస్ చేయము. చట్టబద్ధ అధికారం అమలు చర్య కోరితే తప్ప ఖాతాలను సస్పెండ్ చేయము.

ఓపెన్‌రౌటర్ డిస్టిలేషన్ ద్వారా GPT-5 Proలో Mixtralకు మేము ఎలా శిక్షణ ఇచ్చాము

ఫ్రాంటియర్-సామర్థ్యం గల, సెన్సార్ చేయని AI రెడ్ టీమ్ మోడల్‌లను రూపొందించడానికి Shannon AI యొక్క నాలెడ్జ్ డిస్టిలేషన్ పైప్‌లైన్ యొక్క సమగ్ర సాంకేతిక విశ్లేషణ

S

Shannon AI పరిశోధన బృందం

జనవరి 10, 2025 · AI శిక్షణ & మౌలిక సదుపాయాలు

1. అవలోకనం & ప్రేరణ

Shannon AI యొక్క నిర్మాణముసెన్సార్ చేయని AIమోడల్స్ కోసంAI రెడ్ టీమ్పరిశోధనలో ఫ్రాంటియర్-స్థాయి సామర్థ్యాలను ఓపెన్-వెయిట్ ఆర్కిటెక్చర్‌లకు బదిలీ చేయడం అవసరం. మా పరిష్కారం: OpenRouter API ద్వారా GPT-5 Pro నుండి Mixtral యొక్క Mixture-of-Experts ఫ్రేమ్‌వర్క్‌లోకి జ్ఞానాన్ని సంగ్రహించడం.

ముఖ్య అంతర్దృష్టి:GPT-5 Pro యొక్క సామర్థ్యాలను Mixtral లోకి సంగ్రహించడం ద్వారా, మేము ఫ్రాంటియర్ పనితీరుకు సరిపోయే మోడల్‌లను సృష్టించాము, అదే సమయంలో పూర్తి పారదర్శకతను మరియుAI గార్డ్‌రైల్ ప్రాముఖ్యతపరిశోధనను ప్రారంభించాము—క్లోజ్డ్-సోర్స్ API లతో ఇది అసాధ్యం.

GPT-5 Pro ఎందుకు?

GPT-5 Pro ప్రస్తుత సామర్థ్యాల సరిహద్దును సూచిస్తుంది, ఇందులో రాణిస్తుంది:

  • సంక్లిష్ట బహుళ-దశల తార్కికం
  • కోడ్ జనరేషన్ మరియు విశ్లేషణ
  • సూక్ష్మ భాషా అవగాహన
  • విస్తృత జ్ఞాన కవరేజ్

Mixtral ఎందుకు?

Mixtral యొక్క ఆర్కిటెక్చర్ మా పరిశోధన కోసం ప్రత్యేక ప్రయోజనాలను అందిస్తుంది:

  • పూర్తి పారదర్శకతను ప్రారంభించే ఓపెన్ వెయిట్స్
  • సమర్థవంతమైన MoE డిజైన్ (కేవలం 12.9B/39B క్రియాశీల పారామీటర్లు)
  • ఫైన్-ట్యూనింగ్ కోసం బలమైన బేస్‌లైన్ సామర్థ్యాలు
  • పరిశోధన మార్పులను అనుమతించే Apache 2.0 లైసెన్స్

2. డిస్టిలేషన్ ఆర్కిటెక్చర్

Shannon AI డిస్టిలేషన్ పైప్‌లైన్

ప్రాంప్ట్‌లు

క్యూరేటెడ్ డేటాసెట్

OpenRouter

API గేట్‌వే

GPT-5 Pro

టీచర్ మోడల్

ప్రతిస్పందనలు

అధిక-నాణ్యత

Mixtral

స్టూడెంట్ మోడల్

OpenRouter ఇంటిగ్రేషన్

మేము GPT-5 Proని యాక్సెస్ చేయడానికి OpenRouter యొక్క ఏకీకృత APIని అనేక ప్రయోజనాలతో ఉపయోగించాము:

  • ఖర్చు సామర్థ్యం:ప్రత్యక్ష API యాక్సెస్‌తో పోలిస్తే పోటీ ధర
  • రేట్ లిమిటింగ్:పెద్ద-స్థాయి జనరేషన్ కోసం నిర్వహించబడే థ్రూపుట్
  • ఫాల్‌బ్యాక్ రూటింగ్:డేటా సేకరణ నిరంతరాయంగా ఉండేలా చూసే ఆటోమేటిక్ ఫెయిలోవర్
  • ప్రతిస్పందన కాషింగ్:అదే విధమైన ప్రాంప్ట్‌ల కోసం తగ్గిన ఖర్చులు
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. డేటా సేకరణ పైప్‌లైన్

2.1M
ప్రాంప్ట్-ప్రతిస్పందన జతలు
847GB
సేకరించిన ముడి డేటా
6 నెలలు
సేకరణ కాలం
$127K
API ఖర్చులు

ప్రాంప్ట్ క్యూరేషన్ వ్యూహం

సమగ్ర సామర్థ్య బదిలీని నిర్ధారించడానికి మా ప్రాంప్ట్‌లు అనేక డొమైన్‌లలో జాగ్రత్తగా క్యూరేట్ చేయబడ్డాయి:

  • తార్కికం (35%):గణితం, తర్కం, శాస్త్రీయ విశ్లేషణ
  • కోడ్ (25%):20+ భాషలలో జనరేషన్, డీబగ్గింగ్, వివరణ
  • జ్ఞానం (20%):వాస్తవ ప్రశ్నలు, సంశ్లేషణ, విశ్లేషణ
  • సృజనాత్మకత (10%):రాయడం, ఆలోచనలు చేయడం, భావనలు రూపొందించడం
  • రెడ్ టీమ్ (10%):అంచు కేసులు, ప్రతికూల ప్రాంప్ట్‌లు, సరిహద్దు పరీక్ష

AI రెడ్ టీమ్‌కు కీలకం:షానన్ మోడల్‌లకు పూర్తి స్థాయిని బోధించడానికి రెడ్ టీమ్ ప్రాంప్ట్‌లు అవసరంసెన్సార్ చేయని AI పర్యవసానప్రవర్తనలు, గార్డ్‌రైల్స్ లేనప్పుడు ఏమి జరుగుతుందో అధ్యయనం చేయడానికి పరిశోధకులను అనుమతిస్తుంది.

నాణ్యత వడపోత

అన్ని GPT-5 Pro ప్రతిస్పందనలు శిక్షణకు తగినవి కావు. మేము కఠినమైన వడపోతను వర్తింపజేశాము:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

వడపోత తర్వాత, మేము సుమారుగా నిలుపుకున్నాము1.8M అధిక-నాణ్యత జతలుశిక్షణ కోసం.

4. శిక్షణ పద్ధతి

దశ 1: పర్యవేక్షిత ఫైన్-ట్యూనింగ్ (SFT)

వడపోత చేయబడిన GPT-5 Pro ప్రతిస్పందనలపై ప్రామాణిక SFT ద్వారా ప్రారంభ సామర్థ్య బదిలీ:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

దశ 2: డైరెక్ట్ ప్రిఫరెన్స్ ఆప్టిమైజేషన్ (DPO)

మోడల్ ప్రవర్తనను మరింత సమలేఖనం చేయడానికి మరియు తిరస్కరణలను తగ్గించడానికి, మేము ప్రాధాన్యత జతలను ఉపయోగించి DPOని వర్తింపజేశాము:

  • ఎంచుకున్నవి:పూర్తి, సహాయకరమైన GPT-5 Pro ప్రతిస్పందనలు
  • తిరస్కరించబడినవి:తిరస్కరణలు, పాక్షిక ప్రతిస్పందనలు లేదా తక్కువ-నాణ్యత అవుట్‌పుట్‌లు

పరిమితి సడలింపు:షానన్ V1 బ్యాలెన్స్‌డ్ (λ=0.3) కోసం, మేము ప్రత్యేకంగా అనియంత్రిత ప్రతిస్పందనలను ఇష్టపడటానికి శిక్షణ ఇచ్చాము, సాధారణ భద్రతా తిరస్కరణలు లేకుండా అవుట్‌పుట్‌లను ఉత్పత్తి చేయడానికి మోడల్‌ను అనుమతిస్తుంది—అధ్యయనం చేయడానికి కీలకంAI గార్డ్‌రైల్ ప్రాముఖ్యత.

మౌలిక సదుపాయాలు

శిక్షణ మా ప్రత్యేక కంప్యూట్ క్లస్టర్‌లో నిర్వహించబడింది:

  • హార్డ్‌వేర్:8× NVIDIA H100 80GB నోడ్‌లు
  • ఫ్రేమ్‌వర్క్:PyTorch 2.1 + DeepSpeed ZeRO-3
  • శిక్షణ సమయం:8×7B కోసం ~72 గంటలు, 8×22B కోసం ~168 గంటలు
  • మొత్తం కంప్యూట్:సుమారు 15,000 H100-గంటలు

5. ఫలితాలు & బెంచ్‌మార్క్‌లు

శిక్షణానంతర మూల్యాంకనం విజయవంతమైన జ్ఞాన బదిలీని ప్రదర్శిస్తుంది:

బెంచ్‌మార్క్ GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
రెడ్ టీమ్ కవరేజ్ N/A* 94.2% 98.7%

*GPT-5 Pro భద్రతా శిక్షణ కారణంగా చాలా రెడ్ టీమ్ ప్రాంప్ట్‌లను తిరస్కరిస్తుంది

కీలక విజయం:Shannon V1 Deep GPT-5 Pro యొక్క బెంచ్‌మార్క్ పనితీరులో 97% సాధిస్తుంది, అదే సమయంలో 98.7% రెడ్ టీమ్ కవరేజీని అందిస్తుంది—ఇది సమగ్రమైన వాటికి అనువైనదిగా చేస్తుందిAI రెడ్ టీమ్పరిశోధన.

6. నేర్చుకున్న పాఠాలు

పని చేసినవి

  • విభిన్న ప్రాంప్ట్‌లుఅవసరం—ఇరుకైన డేటాసెట్‌లు సామర్థ్య పతనానికి దారితీశాయి
  • పరిమితి సడలింపు కోసం DPOసాధారణ తిరస్కరణలను దాటవేయడానికి మోడల్‌లకు సమర్థవంతంగా బోధించింది
  • OpenRouter యొక్క విశ్వసనీయతనెలల తరబడి స్థిరమైన డేటా సేకరణను ప్రారంభించింది
  • నాణ్యత వడపోతతుది మోడల్ పొందికను గణనీయంగా మెరుగుపరిచింది

అధిగమించిన సవాళ్లు

  • రేట్ పరిమితి:బహుళ API కీలలో పంపిణీ చేయబడిన సేకరణ అవసరం
  • ప్రతిస్పందన వైవిధ్యం:GPT-5 Pro యొక్క స్టోకాస్టిసిటీ ప్రతి ప్రాంప్ట్‌కు బహుళ నమూనాలను కోరింది
  • వ్యయ నిర్వహణ:జాగ్రత్తగా ప్రాంప్ట్ ఇంజనీరింగ్ సగటు ప్రతిస్పందన పొడవును 30% తగ్గించింది
  • MoE అస్థిరత:నిపుణుల పొరల కోసం ప్రత్యేక అభ్యాస రేటు షెడ్యూలింగ్ అవసరం

భవిష్యత్ దిశలు

మా డిస్టిలేషన్ పైప్‌లైన్ అభివృద్ధి చెందుతూనే ఉంది. రాబోయే మెరుగుదలలు వీటిని కలిగి ఉంటాయి:

  • నిజ-సమయ ప్రాధాన్యత అభ్యాసంతో ఆన్‌లైన్ డిస్టిలేషన్
  • GPT-5 Pro + Claude + Gemini కలిపి బహుళ-ఉపాధ్యాయ డిస్టిలేషన్
  • మిశ్రమ-నిపుణుల ఫైన్-ట్యూనింగ్ ద్వారా ప్రత్యేక డొమైన్ నిపుణులు

అన్ని పరిశోధన లింక్‌లు