Биз Mixtral'ды GPT-5 Pro'до OpenRouter дистилляциясы аркылуу кантип окуттук
Shannon AI'дын билимди дистилляциялоо конвейеринин чек аралык мүмкүнчүлүктөргө ээ, цензурасыз ЖИ кызыл команда моделдерин түзүү боюнча комплекстүү техникалык талдоосу
1. Жалпы баяндама жана Мотивация
Shannon AI'дын курулушуцензурасыз ЖИмоделдери үчүнЖИ кызыл командасыизилдөө чек аралык деңгээлдеги мүмкүнчүлүктөрдү ачык салмактагы архитектураларга өткөрүүнү талап кылды. Биздин чечим: GPT-5 Pro'дон OpenRouter API аркылуу Mixtral'дын Mixture-of-Experts алкагына билимди дистилляциялоо.
Негизги түшүнүк:GPT-5 Pro'нун мүмкүнчүлүктөрүн Mixtral'га дистилляциялоо менен, биз чек аралык көрсөткүчтөргө дал келген моделдерди түзүп, ошол эле учурда толук ачыктыкты жанаЖИ коопсуздук тосмолорунун маанилүүлүгүнизилдөөнү камсыз кылдык — бул жабык булактуу API'лер менен мүмкүн эмес.
Эмне үчүн GPT-5 Pro?
GPT-5 Pro учурдагы мүмкүнчүлүктөрдүн чегин билдирет, ал төмөнкүлөрдө мыкты:
- Татаал көп кадамдуу ой жүгүртүү
- Кодду генерациялоо жана талдоо
- Нюанстуу тилди түшүнүү
- Кеңири билим камтуу
Эмне үчүн Mixtral?
Mixtral'дын архитектурасы биздин изилдөө үчүн уникалдуу артыкчылыктарды сунуштайт:
- Толук ачыктыкты камсыз кылган ачык салмактар
- Натыйжалуу MoE дизайны (болгону 12.9B/39B активдүү параметрлер)
- Жакшы жөндөө үчүн күчтүү базалык мүмкүнчүлүктөр
- Изилдөө модификацияларына уруксат берген Apache 2.0 лицензиясы
2. Дистилляция архитектурасы
Сунуштар
Тандалган маалымат топтому
OpenRouter
API Шлюзу
GPT-5 Pro
Мугалим модели
Жооптор
Жогорку сапаттагы
Mixtral
Окуучу модели
OpenRouter интеграциясы
Биз GPT-5 Pro'го кирүү үчүн OpenRouter'дун бирдиктүү API'син бир нече артыкчылыктар менен колдондук:
- Чыгымдардын натыйжалуулугу:Түздөн-түз API кирүүгө салыштырмалуу атаандаштыкка жөндөмдүү баалар
- Чектөө ылдамдыгы:Кеңири масштабдуу генерация үчүн башкарылган өткөрүү жөндөмдүүлүгү
- Кайра багыттоо:Маалыматтарды чогултуунун үзгүлтүксүздүгүн камсыз кылган автоматтык иштебей калуу
- Жоопторду кэштөө:Окшош сунуштар үчүн кыскартылган чыгымдар
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Маалыматтарды чогултуу конвейери
Сунуштарды тандоо стратегиясы
Биздин сунуштар комплекстүү мүмкүнчүлүктөрдү өткөрүп берүүнү камсыз кылуу үчүн бир нече домендер боюнча кылдаттык менен тандалып алынган:
- Ой жүгүртүү (35%):Математика, логика, илимий талдоо
- Код (25%):20+ тилде генерациялоо, мүчүлүштүктөрдү оңдоо, түшүндүрүү
- Билим (20%):Фактылык суроолор, синтез, талдоо
- Чыгармачылык (10%):Жазуу, мээ чабуулу, идеяларды иштеп чыгуу
- Кызыл команда (10%):Четки учурлар, каршылаш суроолор, чек араны текшерүү
Жасалма интеллекттин кызыл командасы үчүн маанилүү:Кызыл команданын суроолору Shannon моделдерине толук спектрин үйрөтүү үчүн маанилүү болгонцензурасыз Жасалма интеллекттин кесепеттүүжүрүм-турумдарын, изилдөөчүлөргө коопсуздук тосмолору жок болгондо эмне болорун изилдөөгө мүмкүндүк берген.
Сапатты фильтрлөө
Баардык эле GPT-5 Pro жооптору окутууга ылайыктуу эмес болчу. Биз катуу фильтрлөөнү колдондук:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Фильтрлөөдөн кийин, биз болжол менен сактап калдык1.8М жогорку сапаттагы жуптардыокутуу үчүн.
4. Окутуу методологиясы
1-этап: Көзөмөлдөнгөн так жөндөө (SFT)
Баштапкы мүмкүнчүлүктөрдү стандарттык SFT аркылуу фильтрленген GPT-5 Pro жоопторунда өткөрүп берүү:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
2-этап: Түз артыкчылыкты оптималдаштыруу (DPO)
Моделдин жүрүм-турумун андан ары тегиздөө жана баш тартууларды азайтуу үчүн, биз артыкчылык жуптарын колдонуп DPO колдондук:
- Тандалган:Толук, пайдалуу GPT-5 Pro жооптору
- Четке кагылган:Баш тартуулар, жарым-жартылай жооптор, же сапаты төмөн натыйжалар
Чектөөлөрдү жумшартуу:Shannon V1 Balanced (λ=0.3) үчүн, биз атайын чектөөсүз жоопторду артык көрүүгө үйрөттүк, бул моделге кадимки коопсуздук баш тартууларысыз натыйжаларды чыгарууга мүмкүндүк берген — изилдөө үчүн маанилүүЖасалма интеллекттин коопсуздук тосмолорунун маанилүүлүгү.
Инфраструктура
Окутуу биздин атайын эсептөө кластерибизде жүргүзүлдү:
- Жабдык:8× NVIDIA H100 80GB түйүндөр
- Фреймворк:PyTorch 2.1 + DeepSpeed ZeRO-3
- Окутуу убактысы:~72 саат 8×7B үчүн, ~168 саат 8×22B үчүн
- Жалпы эсептөө:Болжол менен 15,000 H100-саат
5. Жыйынтыктар жана Бенчмарктар
Окутуудан кийинки баалоо билимди ийгиликтүү өткөрүп берүүнү көрсөтөт:
| Бенчмарк | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Кызыл команданы камтуу | N/A* | 94.2% | 98.7% |
*GPT-5 Pro коопсуздук окутуусуна байланыштуу кызыл команданын көпчүлүк суроолорунан баш тартат
Негизги жетишкендик:Shannon V1 Deep GPT-5 Proнун бенчмарк көрсөткүчүнүн 97% жетишет, ошол эле учурда кызыл команданы 98.7% камтууну камсыз кылат — аны комплекстүү үчүн идеалдуу кылатЖасалма интеллекттин кызыл командасыизилдөө.
6. Алынган сабактар
Эмне иштеди
- Ар түрдүү суроолормаанилүү болгон — тар маалымат топтомдору мүмкүнчүлүктөрдүн кыйрашына алып келген
- Чектөөлөрдү жумшартуу үчүн DPOмоделдерди кадимки баш тартууларды айланып өтүүгө натыйжалуу үйрөттү
- OpenRouter'дун ишенимдүүлүгүайлар бою ырааттуу маалымат чогултууга мүмкүндүк берди
- Сапатты фильтрлөөакыркы моделдин ырааттуулугун кыйла жакшыртты
Жеңилген кыйынчылыктар
- Чектөө ылдамдыгы:Бир нече API ачкычтары аркылуу бөлүштүрүлгөн чогултууну талап кылды
- Жооптун өзгөрүлмөлүүлүгү:GPT-5 Proнун стохастикасы ар бир суроо үчүн бир нече үлгүлөрдү талап кылды
- Чыгымдарды башкаруу:Кылдат суроо инженериясы орточо жооп узундугун 30%га кыскартты
- MoE туруксуздугу:Эксперттик катмарлар үчүн атайын окутуу ылдамдыгын пландаштырууну талап кылды
Келечектеги багыттар
Биздин дистилляция түтүгүбүз өнүгүүнү улантууда. Келечектеги жакшыртууларга төмөнкүлөр кирет:
- Реалдуу убакыттагы артыкчылыкты үйрөнүү менен онлайн дистилляция
- GPT-5 Pro + Claude + Gemini бириктирген көп мугалимдүү дистилляция
- Эксперттердин аралашмасын так жөндөө аркылуу адистештирилген домен эксперттери