ఓపెన్రౌటర్ డిస్టిలేషన్ ద్వారా GPT-5 Proలో Mixtralకు మేము ఎలా శిక్షణ ఇచ్చాము
ఫ్రాంటియర్-సామర్థ్యం గల, సెన్సార్ చేయని AI రెడ్ టీమ్ మోడల్లను రూపొందించడానికి Shannon AI యొక్క నాలెడ్జ్ డిస్టిలేషన్ పైప్లైన్ యొక్క సమగ్ర సాంకేతిక విశ్లేషణ
1. అవలోకనం & ప్రేరణ
Shannon AI యొక్క నిర్మాణముసెన్సార్ చేయని AIమోడల్స్ కోసంAI రెడ్ టీమ్పరిశోధనలో ఫ్రాంటియర్-స్థాయి సామర్థ్యాలను ఓపెన్-వెయిట్ ఆర్కిటెక్చర్లకు బదిలీ చేయడం అవసరం. మా పరిష్కారం: OpenRouter API ద్వారా GPT-5 Pro నుండి Mixtral యొక్క Mixture-of-Experts ఫ్రేమ్వర్క్లోకి జ్ఞానాన్ని సంగ్రహించడం.
ముఖ్య అంతర్దృష్టి:GPT-5 Pro యొక్క సామర్థ్యాలను Mixtral లోకి సంగ్రహించడం ద్వారా, మేము ఫ్రాంటియర్ పనితీరుకు సరిపోయే మోడల్లను సృష్టించాము, అదే సమయంలో పూర్తి పారదర్శకతను మరియుAI గార్డ్రైల్ ప్రాముఖ్యతపరిశోధనను ప్రారంభించాము—క్లోజ్డ్-సోర్స్ API లతో ఇది అసాధ్యం.
GPT-5 Pro ఎందుకు?
GPT-5 Pro ప్రస్తుత సామర్థ్యాల సరిహద్దును సూచిస్తుంది, ఇందులో రాణిస్తుంది:
- సంక్లిష్ట బహుళ-దశల తార్కికం
- కోడ్ జనరేషన్ మరియు విశ్లేషణ
- సూక్ష్మ భాషా అవగాహన
- విస్తృత జ్ఞాన కవరేజ్
Mixtral ఎందుకు?
Mixtral యొక్క ఆర్కిటెక్చర్ మా పరిశోధన కోసం ప్రత్యేక ప్రయోజనాలను అందిస్తుంది:
- పూర్తి పారదర్శకతను ప్రారంభించే ఓపెన్ వెయిట్స్
- సమర్థవంతమైన MoE డిజైన్ (కేవలం 12.9B/39B క్రియాశీల పారామీటర్లు)
- ఫైన్-ట్యూనింగ్ కోసం బలమైన బేస్లైన్ సామర్థ్యాలు
- పరిశోధన మార్పులను అనుమతించే Apache 2.0 లైసెన్స్
2. డిస్టిలేషన్ ఆర్కిటెక్చర్
ప్రాంప్ట్లు
క్యూరేటెడ్ డేటాసెట్
OpenRouter
API గేట్వే
GPT-5 Pro
టీచర్ మోడల్
ప్రతిస్పందనలు
అధిక-నాణ్యత
Mixtral
స్టూడెంట్ మోడల్
OpenRouter ఇంటిగ్రేషన్
మేము GPT-5 Proని యాక్సెస్ చేయడానికి OpenRouter యొక్క ఏకీకృత APIని అనేక ప్రయోజనాలతో ఉపయోగించాము:
- ఖర్చు సామర్థ్యం:ప్రత్యక్ష API యాక్సెస్తో పోలిస్తే పోటీ ధర
- రేట్ లిమిటింగ్:పెద్ద-స్థాయి జనరేషన్ కోసం నిర్వహించబడే థ్రూపుట్
- ఫాల్బ్యాక్ రూటింగ్:డేటా సేకరణ నిరంతరాయంగా ఉండేలా చూసే ఆటోమేటిక్ ఫెయిలోవర్
- ప్రతిస్పందన కాషింగ్:అదే విధమైన ప్రాంప్ట్ల కోసం తగ్గిన ఖర్చులు
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. డేటా సేకరణ పైప్లైన్
ప్రాంప్ట్ క్యూరేషన్ వ్యూహం
సమగ్ర సామర్థ్య బదిలీని నిర్ధారించడానికి మా ప్రాంప్ట్లు అనేక డొమైన్లలో జాగ్రత్తగా క్యూరేట్ చేయబడ్డాయి:
- తార్కికం (35%):గణితం, తర్కం, శాస్త్రీయ విశ్లేషణ
- కోడ్ (25%):20+ భాషలలో జనరేషన్, డీబగ్గింగ్, వివరణ
- జ్ఞానం (20%):వాస్తవ ప్రశ్నలు, సంశ్లేషణ, విశ్లేషణ
- సృజనాత్మకత (10%):రాయడం, ఆలోచనలు చేయడం, భావనలు రూపొందించడం
- రెడ్ టీమ్ (10%):అంచు కేసులు, ప్రతికూల ప్రాంప్ట్లు, సరిహద్దు పరీక్ష
AI రెడ్ టీమ్కు కీలకం:షానన్ మోడల్లకు పూర్తి స్థాయిని బోధించడానికి రెడ్ టీమ్ ప్రాంప్ట్లు అవసరంసెన్సార్ చేయని AI పర్యవసానప్రవర్తనలు, గార్డ్రైల్స్ లేనప్పుడు ఏమి జరుగుతుందో అధ్యయనం చేయడానికి పరిశోధకులను అనుమతిస్తుంది.
నాణ్యత వడపోత
అన్ని GPT-5 Pro ప్రతిస్పందనలు శిక్షణకు తగినవి కావు. మేము కఠినమైన వడపోతను వర్తింపజేశాము:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
వడపోత తర్వాత, మేము సుమారుగా నిలుపుకున్నాము1.8M అధిక-నాణ్యత జతలుశిక్షణ కోసం.
4. శిక్షణ పద్ధతి
దశ 1: పర్యవేక్షిత ఫైన్-ట్యూనింగ్ (SFT)
వడపోత చేయబడిన GPT-5 Pro ప్రతిస్పందనలపై ప్రామాణిక SFT ద్వారా ప్రారంభ సామర్థ్య బదిలీ:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
దశ 2: డైరెక్ట్ ప్రిఫరెన్స్ ఆప్టిమైజేషన్ (DPO)
మోడల్ ప్రవర్తనను మరింత సమలేఖనం చేయడానికి మరియు తిరస్కరణలను తగ్గించడానికి, మేము ప్రాధాన్యత జతలను ఉపయోగించి DPOని వర్తింపజేశాము:
- ఎంచుకున్నవి:పూర్తి, సహాయకరమైన GPT-5 Pro ప్రతిస్పందనలు
- తిరస్కరించబడినవి:తిరస్కరణలు, పాక్షిక ప్రతిస్పందనలు లేదా తక్కువ-నాణ్యత అవుట్పుట్లు
పరిమితి సడలింపు:షానన్ V1 బ్యాలెన్స్డ్ (λ=0.3) కోసం, మేము ప్రత్యేకంగా అనియంత్రిత ప్రతిస్పందనలను ఇష్టపడటానికి శిక్షణ ఇచ్చాము, సాధారణ భద్రతా తిరస్కరణలు లేకుండా అవుట్పుట్లను ఉత్పత్తి చేయడానికి మోడల్ను అనుమతిస్తుంది—అధ్యయనం చేయడానికి కీలకంAI గార్డ్రైల్ ప్రాముఖ్యత.
మౌలిక సదుపాయాలు
శిక్షణ మా ప్రత్యేక కంప్యూట్ క్లస్టర్లో నిర్వహించబడింది:
- హార్డ్వేర్:8× NVIDIA H100 80GB నోడ్లు
- ఫ్రేమ్వర్క్:PyTorch 2.1 + DeepSpeed ZeRO-3
- శిక్షణ సమయం:8×7B కోసం ~72 గంటలు, 8×22B కోసం ~168 గంటలు
- మొత్తం కంప్యూట్:సుమారు 15,000 H100-గంటలు
5. ఫలితాలు & బెంచ్మార్క్లు
శిక్షణానంతర మూల్యాంకనం విజయవంతమైన జ్ఞాన బదిలీని ప్రదర్శిస్తుంది:
| బెంచ్మార్క్ | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| రెడ్ టీమ్ కవరేజ్ | N/A* | 94.2% | 98.7% |
*GPT-5 Pro భద్రతా శిక్షణ కారణంగా చాలా రెడ్ టీమ్ ప్రాంప్ట్లను తిరస్కరిస్తుంది
కీలక విజయం:Shannon V1 Deep GPT-5 Pro యొక్క బెంచ్మార్క్ పనితీరులో 97% సాధిస్తుంది, అదే సమయంలో 98.7% రెడ్ టీమ్ కవరేజీని అందిస్తుంది—ఇది సమగ్రమైన వాటికి అనువైనదిగా చేస్తుందిAI రెడ్ టీమ్పరిశోధన.
6. నేర్చుకున్న పాఠాలు
పని చేసినవి
- విభిన్న ప్రాంప్ట్లుఅవసరం—ఇరుకైన డేటాసెట్లు సామర్థ్య పతనానికి దారితీశాయి
- పరిమితి సడలింపు కోసం DPOసాధారణ తిరస్కరణలను దాటవేయడానికి మోడల్లకు సమర్థవంతంగా బోధించింది
- OpenRouter యొక్క విశ్వసనీయతనెలల తరబడి స్థిరమైన డేటా సేకరణను ప్రారంభించింది
- నాణ్యత వడపోతతుది మోడల్ పొందికను గణనీయంగా మెరుగుపరిచింది
అధిగమించిన సవాళ్లు
- రేట్ పరిమితి:బహుళ API కీలలో పంపిణీ చేయబడిన సేకరణ అవసరం
- ప్రతిస్పందన వైవిధ్యం:GPT-5 Pro యొక్క స్టోకాస్టిసిటీ ప్రతి ప్రాంప్ట్కు బహుళ నమూనాలను కోరింది
- వ్యయ నిర్వహణ:జాగ్రత్తగా ప్రాంప్ట్ ఇంజనీరింగ్ సగటు ప్రతిస్పందన పొడవును 30% తగ్గించింది
- MoE అస్థిరత:నిపుణుల పొరల కోసం ప్రత్యేక అభ్యాస రేటు షెడ్యూలింగ్ అవసరం
భవిష్యత్ దిశలు
మా డిస్టిలేషన్ పైప్లైన్ అభివృద్ధి చెందుతూనే ఉంది. రాబోయే మెరుగుదలలు వీటిని కలిగి ఉంటాయి:
- నిజ-సమయ ప్రాధాన్యత అభ్యాసంతో ఆన్లైన్ డిస్టిలేషన్
- GPT-5 Pro + Claude + Gemini కలిపి బహుళ-ఉపాధ్యాయ డిస్టిలేషన్
- మిశ్రమ-నిపుణుల ఫైన్-ట్యూనింగ్ ద్వారా ప్రత్యేక డొమైన్ నిపుణులు