Ìwádìí Imọ-ẹrọ Jìn-lẹ̀ Ìwádìí ⏱️ Ìkàwé ìṣẹ́jú 15

Bí A Ṣe Kọ́ Mixtral lórí GPT-5 Pro Nipasẹ̀ Distillation OpenRouter

Ìtúpalẹ̀ imọ-ẹrọ tí ó péye ti ilana distillation ìmọ Shannon AI fún ṣíṣẹ̀dá àwọn awoṣe ẹgbẹ́ pupa AI tí kò ní ìfagbára tí ó lè ṣe iṣẹ́ àgbékalẹ̀

Ẹgbẹ́ Ìwádìí Shannon AI

Oṣù Kìíní 10, 2025 · Ikẹkọ AI & Amayederun

1. Àkòrí & Ìwúrí

Kíkọ Shannon AI'sAI tí kò ní ìfagbáraawọn awoṣe fúnẹgbẹ́ pupa AIìwádìí nilo gbigbe awọn agbara ipele-aala si awọn ayaworan iwuwo-ṣiṣi. Ojutu wa: distillation ìmọ lati GPT-5 Pro nipasẹ OpenRouter API sinu ilana Mixture-of-Experts ti Mixtral.

Ìmọ̀ Tí Ó Pàtàkì:Nipa didi awọn agbara GPT-5 Pro sinu Mixtral, a ṣẹda awọn awoṣe ti o baamu iṣẹ aala lakoko ti o nmu akoyawo kikun atipataki ààbò AIìwádìí—ohun ti ko ṣee ṣe pẹlu awọn API orisun-pipade.

Kí Nìdí GPT-5 Pro?

GPT-5 Pro duro fun aala agbara lọwọlọwọ, ti o tayọ ni:

Ìròrò ìgbésẹ̀-púpọ̀ tí ó díjú
Ìṣẹ̀dá àti ìtúpalẹ̀ koodu
Òye èdè tí ó ní àwọn ìwọ̀n-ìwọ̀n
Ìtànkálẹ̀ ìmọ̀ gbòòrò

Kí Nìdí Mixtral?

Ayaworan Mixtral nfunni ni awọn anfani alailẹgbẹ fun iwadii wa:

Àwọn ìwọ̀n ṣíṣí tí ó mú akoyawo kikun ṣiṣẹ́
Apẹrẹ MoE tí ó munadoko (awọn paramita ti nṣiṣe lọwọ 12.9B/39B nikan)
Àwọn agbara ìpilẹ̀ṣẹ̀ tó lágbára fún ìṣatunṣe
Iwe-aṣẹ Apache 2.0 ti o gba laaye awọn iyipada iwadii

2. Ayaworan Distillation

Ilana Distillation Shannon AI

Àwọn ìtọ́ni

Àkójọ Data Tí A Ṣètò

→

OpenRouter

Ẹnu-ọna API

→

GPT-5 Pro

Awoṣe Olùkọ́

→

Àwọn Ìdáhùn

Didara Ga

→

Mixtral

Awoṣe Akẹ́kọ̀ọ́

Ìṣepọ̀ OpenRouter

A lo API iṣọkan OpenRouter lati wọle si GPT-5 Pro pẹlu ọpọlọpọ awọn anfani:

Ìṣiṣẹ́ Ìnáwó:Ìdíyelé ìfagbára vs. wíwọlé API tààrà
Ìdínà Ìwọ̀n:Ìṣakoso àtúnyẹ̀wò fún ìṣẹ̀dá nlá
Ìdarí Ìpadàbọ̀:Ìyípadà àṣìṣe laifọwọyi ti n rii daju ìtẹsiwaju gbigba data
Ìpamọ́ Ìdáhùn:Àwọn ìnáwó dínkù fún àwọn ìtọ́ni tó jọra

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Ilana Gbigba Data

2.1M

Àwọn Tọkọtaya Ìtọ́ni-Ìdáhùn

847GB

Data Àìtọ́ Tí A Kó Jọ

oṣù 6

Àkókò Gbigba

$127K

Àwọn Ìnáwó API

Ìlànà Ìtọ́ni Ìtọ́jú

A ṣeto awọn ìtọ́ni wa ni pẹkipẹki kọja ọpọlọpọ awọn agbegbe lati rii daju gbigbe agbara ti o peye:

Ìròrò (35%):Ìṣirò, ọgbọ́n, ìtúpalẹ̀ sáyẹ́nsì
Koodu (25%):Ìṣẹ̀dá, ìṣatunṣe àṣìṣe, ìṣàlàyé kọjá àwọn èdè 20+
Ìmọ̀ (20%):Àwọn ìbéèrè òtítọ́, ìṣàkópọ̀, ìtúpalẹ̀
Ìṣẹ̀dá (10%):Kíkọ, gbígbéyẹ̀wò àwọn èrò, ìdáwòlé èrò
Ẹgbẹ́ Pupa (10%):Àwọn ọ̀ràn tó ṣọ̀wọ́n, àwọn ìtọ́ni ìjàkadì, ìdánwò ààlà

Pàtàkì fún Ẹgbẹ́ Pupa AI:Àwọn ìtọ́ni ẹgbẹ́ pupa ṣe pàtàkì fún kíkọ́ àwọn àwòṣe Shannon gbogbo ìwọ̀nàbájáde AI tí kò ní ìfọwọ́síìwà, tí ó mú kí àwọn olùṣèwádìí lè kẹ́kọ̀ọ́ ohun tó ṣẹlẹ̀ nígbà tí kò bá sí àwọn ìdènà ààbò.

Ìṣàlàyé Didara

Kì í ṣe gbogbo ìdáhùn GPT-5 Pro ló yẹ fún ìdánilẹ́kọ̀ọ́. A lo ìṣàlàyé tó múnádòko:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Lẹ́yìn ìṣàlàyé, a pa nǹkan bí1.8M àwọn méjì tí ó ní didara gígafún ìdánilẹ́kọ̀ọ́.

4. Ọ̀nà Ìdánilẹ́kọ̀ọ́

Ìpele 1: Ìṣàtúnṣe Kékeré Tí A Ṣe Lábẹ́ Àbójútó (SFT)

Ìgbéyàwó agbára àkọ́kọ́ nípasẹ̀ SFT ìṣe déédéé lórí àwọn ìdáhùn GPT-5 Pro tí a ti ṣàlàyé:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Ìpele 2: Ìmúṣe Ìfẹ́ Tààrà (DPO)

Láti tún mú ìwà àwòṣe bá ara mu síwájú sí i àti láti dín àwọn ìkọ̀sílẹ̀ kù, a lo DPO nípa lílo àwọn méjì ìfẹ́:

Yíyàn:Pípé, àwọn ìdáhùn GPT-5 Pro tí ó wúlò
Kíkọ̀:Àwọn ìkọ̀sílẹ̀, àwọn ìdáhùn apá kan, tàbí àwọn àbájáde tí kò ní didara

Ìfọwọ́ra Àwọn Ìdènà:Fún Shannon V1 Balanced (λ=0.3), a kọ́ ọ ní pàtó láti fẹ́ràn àwọn ìdáhùn tí kò ní ìdènà, tí ó mú kí àwòṣe náà lè ṣe àwọn àbájáde láìsí àwọn ìkọ̀sílẹ̀ ààbò tó wọ́pọ̀—pàtàkì fún kíkẹ́kọ̀ọ́ìwúlò àwọn ìdènà ààbò AI.

Amayéde

A ṣe ìdánilẹ́kọ̀ọ́ náà lórí àkójọpọ̀ kọ̀ǹpútà wa tí a yà sọ́tọ̀:

Ohun Èlò:8× NVIDIA H100 80GB nodes
Ètò Ìṣiṣẹ́:PyTorch 2.1 + DeepSpeed ZeRO-3
Àkókò Ìdánilẹ́kọ̀ọ́:~72 wákàtí fún 8×7B, ~168 wákàtí fún 8×22B
Àpapọ̀ Ìṣirò:Nǹkan bí 15,000 H100-wákàtí

5. Àwọn Àbájáde & Àwọn Àmì Ìwọ̀n

Ìṣàyẹ̀wò lẹ́yìn ìdánilẹ́kọ̀ọ́ fi ìgbéyàwó ìmọ̀ tó kọjá sílẹ̀ hàn:

Àmì Ìwọ̀n	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Ìbòjú Ẹgbẹ́ Pupa	N/A*	94.2%	98.7%

*GPT-5 Pro kọ̀ ọ̀pọ̀lọpọ̀ ìtọ́ni ẹgbẹ́ pupa nítorí ìdánilẹ́kọ̀ọ́ ààbò

Àṣeyọrí Pàtàkì:Shannon V1 Deep ṣàṣeyọrí 97% ti ìṣe àmì ìwọ̀n GPT-5 Pro nígbà tí ó pèsè 98.7% ìbòjú ẹgbẹ́ pupa—tí ó mú kí ó dára jù lọ fún àkópọ̀ẹgbẹ́ pupa AIìwádìí.

6. Àwọn Ẹ̀kọ́ Tí A Kọ́

Ohun Tí Ó Ṣiṣẹ́

Àwọn ìtọ́ni oríṣiríṣiṣe pàtàkì—àwọn àkójọ data kékeré yọrí sí ìparun agbára
DPO fún ìfọwọ́ra àwọn ìdènàkọ́ àwọn àwòṣe nípa èyí tó munádòko láti kọjá àwọn ìkọ̀sílẹ̀ tó wọ́pọ̀
Ìgbẹ́kẹ̀lé OpenRoutermú kí ìkójọ data tó bámu ṣeeṣe fún oṣù púpọ̀
Ìṣàlàyé didaramú ìbáradé àwòṣe ìkẹyìn sunwọ̀n sí i lọ́pọ̀lọpọ̀

Àwọn Ìṣòro Tí A Borí

Ìdínà Ìwọ̀n:Nílò ìkójọpọ̀ tí a pín káàkiri lórí ọ̀pọ̀lọpọ̀ àwọn kọ́kọ́rọ́ API
Ìyàtọ̀ Ìdáhùn:Ìṣe àìtọ́jú GPT-5 Pro nílò ọ̀pọ̀lọpọ̀ àwọn àpẹẹrẹ fún ìtọ́ni kọ̀ọ̀kan
Ìṣàkóso Owó:Ìṣe ìtọ́ni tó wà ní àfiyèsí dín gígùn ìdáhùn apapọ kù pẹ̀lú 30%
Àìdúróṣinṣin MoE:Nílò ìṣètò ìwọ̀n ẹ̀kọ́ pàtó fún àwọn ìpele amọja

Àwọn Ọ̀nà Ọjọ́ Iwájú

Ọ̀nà ìfọ́nkálẹ̀ wa ń tẹ̀síwájú láti yí padà. Àwọn ìlọsíwájú tí ń bọ̀ pẹ̀lú:

Ìfọ́nkálẹ̀ lórí ẹ̀rọ ayélujára pẹ̀lú ẹ̀kọ́ ìfẹ́ ní àkókò gidi
Ìfọ́nkálẹ̀ olùkọ́ púpọ̀ tí ó parapọ̀ GPT-5 Pro + Claude + Gemini
Àwọn amọja àgbègbè pàtó nípasẹ̀ ìṣàtúnṣe kékeré àkópọ̀ àwọn amọja