Mixtralni GPT-5 Proda OpenRouter Distillatsiyasi orqali qanday o'qitdik
Shannon AI'ning chegaraviy imkoniyatlarga ega, senzurasiz AI qizil jamoa modellarini yaratish uchun bilim distillatsiyasi quvurining keng qamrovli texnik tahlili
1. Umumiy ko'rinish va Motivatsiya
Shannon AI'ni qurishsenzurasiz AIuchun modellarAI qizil jamoasitadqiqot chegaraviy darajadagi imkoniyatlarni ochiq vaznli arxitekturalarga o'tkazishni talab qildi. Bizning yechimimiz: GPT-5 Pro'dan OpenRouter API orqali bilimlarni Mixtral'ning Ekspertlar aralashmasi (Mixture-of-Experts) doirasiga distillatsiya qilish.
Asosiy tushuncha:GPT-5 Pro imkoniyatlarini Mixtralga distillatsiya qilish orqali biz chegaraviy ishlashga mos keladigan, shu bilan birga to'liq shaffoflikni ta'minlaydigan modellar yaratdik vaAI himoya to'siqlari muhimligitadqiqot — yopiq manbali API'lar bilan imkonsiz bo'lgan narsa.
Nima uchun GPT-5 Pro?
GPT-5 Pro hozirgi imkoniyatlar chegarasini ifodalaydi, quyidagilarda ustunlik qiladi:
- Murakkab ko'p bosqichli fikrlash
- Kod yaratish va tahlil qilish
- Nozik tilni tushunish
- Keng bilim qamrovi
Nima uchun Mixtral?
Mixtral arxitekturasi tadqiqotimiz uchun noyob afzalliklarni taqdim etadi:
- To'liq shaffoflikni ta'minlovchi ochiq vaznlar
- Samarali MoE dizayni (faqat 12.9B/39B faol parametrlar)
- Nozik sozlash uchun kuchli boshlang'ich imkoniyatlar
- Tadqiqot modifikatsiyalariga ruxsat beruvchi Apache 2.0 litsenziyasi
2. Distillatsiya Arxitekturasi
So'rovlar
Tanlangan ma'lumotlar to'plami
OpenRouter
API Shlyuzi
GPT-5 Pro
O'qituvchi Model
Javoblar
Yuqori sifatli
Mixtral
Talaba Model
OpenRouter Integratsiyasi
Biz GPT-5 Pro'ga kirish uchun OpenRouter'ning yagona API'sidan bir qancha afzalliklar bilan foydalandik:
- Xarajat samaradorligi:To'g'ridan-to'g'ri API kirishiga nisbatan raqobatbardosh narxlar
- So'rovlar cheklovi:Katta hajmli generatsiya uchun boshqariladigan o'tkazuvchanlik
- Zaxira yo'naltirish:Ma'lumotlar yig'ish uzluksizligini ta'minlovchi avtomatik nosozlikdan himoya
- Javoblarni keshga olish:O'xshash so'rovlar uchun kamaytirilgan xarajatlar
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Ma'lumotlar yig'ish quvuri
So'rovlarni tanlash strategiyasi
Bizning so'rovlarimiz keng qamrovli imkoniyatlar o'tkazilishini ta'minlash uchun bir nechta domenlar bo'yicha sinchkovlik bilan tanlab olindi:
- Fikrlash (35%):Matematika, mantiq, ilmiy tahlil
- Kod (25%):20+ tilda generatsiya, disk raskadrovka, tushuntirish
- Bilim (20%):Faktik so'rovlar, sintez, tahlil
- Ijodiy (10%):Yozish, miya hujumi, gʻoyalar yaratish
- Qizil jamoa (10%):Chekka holatlar, raqib soʻrovlari, chegara sinovlari
AI Qizil jamoasi uchun muhim:Qizil jamoa soʻrovlari Shannon modellariga toʻliq diapazonni oʻrgatish uchun muhim edisenzurasiz AI natijaviyxatti-harakatlari, tadqiqotchilarga himoya mexanizmlari mavjud boʻlmaganda nima sodir boʻlishini oʻrganish imkonini berdi.
Sifatni filtrlash
Barcha GPT-5 Pro javoblari oʻqitish uchun mos emas edi. Biz qatʼiy filtrlashni qoʻlladik:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Filtrlashdan soʻng, biz taxminan saqlab qoldik1.8M yuqori sifatli juftliklaroʻqitish uchun.
4. Oʻqitish metodologiyasi
1-bosqich: Nazorat ostidagi nozik sozlash (SFT)
Filtrlangan GPT-5 Pro javoblarida standart SFT orqali dastlabki imkoniyatlarni oʻtkazish:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
2-bosqich: Toʻgʻridan-toʻgʻri afzallikni optimallashtirish (DPO)
Model xatti-harakatlarini yanada moslashtirish va rad etishlarni kamaytirish uchun biz afzallik juftliklaridan foydalanib DPO ni qoʻlladik:
- Tanlangan:Toʻliq, foydali GPT-5 Pro javoblari
- Rad etilgan:Rad etishlar, qisman javoblar yoki past sifatli natijalar
Cheklovlarni yumshatish:Shannon V1 Balanced (λ=0.3) uchun biz cheklanmagan javoblarni afzal koʻrishga oʻrgatdik, bu modelga odatiy xavfsizlik rad etishlarisiz natijalar berish imkonini berdi — bu oʻrganish uchun juda muhimdirAI himoya mexanizmlarining ahamiyati.
Infratuzilma
Oʻqitish bizning maxsus hisoblash klasterimizda oʻtkazildi:
- Uskuna:8× NVIDIA H100 80GB tugunlari
- Freyvork:PyTorch 2.1 + DeepSpeed ZeRO-3
- Oʻqitish vaqti:~72 soat 8×7B uchun, ~168 soat 8×22B uchun
- Umumiy hisoblash quvvati:Taxminan 15,000 H100-soat
5. Natijalar va mezonlar
Oʻqitishdan keyingi baholash bilimlarni muvaffaqiyatli oʻtkazishni koʻrsatadi:
| Mezon | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Qizil jamoa qamrovi | N/A* | 94.2% | 98.7% |
*GPT-5 Pro xavfsizlik boʻyicha oʻqitish tufayli koʻpgina qizil jamoa soʻrovlarini rad etadi
Asosiy yutuq:Shannon V1 Deep GPT-5 Pro ning mezon koʻrsatkichining 97% ga erishadi, shu bilan birga 98.7% qizil jamoa qamrovini taʼminlaydi — bu keng qamrovliAI qizil jamoasitadqiqotlar uchun.
6. Olingan saboqlar
Nima ish berdi
- Turli xil soʻrovlarmuhim edi — tor maʼlumotlar toʻplamlari imkoniyatlarning qulashiga olib keldi
- Cheklovlarni yumshatish uchun DPOmodellarga odatiy rad etishlarni chetlab oʻtishni samarali oʻrgatdi
- OpenRouter ning ishonchliligibir necha oy davomida barqaror maʼlumotlar yigʻish imkonini berdi
- Sifatni filtrlashyakuniy modelning izchilligini sezilarli darajada yaxshiladi
Yengib oʻtilgan qiyinchiliklar
- Tezlikni cheklash:Bir nechta API kalitlari boʻyicha taqsimlangan yigʻishni talab qildi
- Javob oʻzgaruvchanligi:GPT-5 Pro ning stoxastikligi har bir soʻrov uchun bir nechta namunalarni talab qildi
- Xarajatlarni boshqarish:Ehtiyotkorlik bilan soʻrov muhandisligi oʻrtacha javob uzunligini 30% ga qisqartirdi
- MoE beqarorligi:Ekspert qatlamlari uchun maxsus oʻrganish tezligi jadvalini talab qildi
Kelajakdagi yoʻnalishlar
Bizning distillash quvurimiz rivojlanishda davom etmoqda. Kelgusi yaxshilanishlar quyidagilarni oʻz ichiga oladi:
- Haqiqiy vaqt rejimida afzallikni oʻrganish bilan onlayn distillash
- GPT-5 Pro + Claude + Gemini ni birlashtirgan koʻp oʻqituvchili distillash
- Ekspertlar aralashmasini nozik sozlash orqali ixtisoslashgan domen ekspertlari