የቴክኒካዊ ጥልቅ ትንተና ምርምር ⏱️ የ15 ደቂቃ ንባብ

Mixtralን በGPT-5 Pro ላይ በOpenRouter Distillation እንዴት እንዳሰለጠንን

የShannon AI የእውቀት ማጣሪያ ቧንቧ መስመር የድንበር-ችሎታ ያላቸው ያልተገደቡ የAI ቀይ ቡድን ሞዴሎችን ለመፍጠር አጠቃላይ ቴክኒካዊ ትንተና

የShannon AI የምርምር ቡድን

ጥር 10, 2025 · የAI ስልጠና እና መሠረተ ልማት

1. አጠቃላይ እይታ እና ተነሳሽነት

የShannon AIን መገንባትያልተገደበ AIሞዴሎች ለየAI ቀይ ቡድንምርምር የድንበር-ደረጃ ችሎታዎችን ወደ ክፍት-ክብደት አርክቴክቸሮች ማስተላለፍን ይጠይቃል። የእኛ መፍትሄ: ከGPT-5 Pro እውቀትን በOpenRouter API በኩል ወደ Mixtral's Mixture-of-Experts ማዕቀፍ ማጣራት ነው።

ዋናው ግንዛቤ:የGPT-5 Proን ችሎታዎች ወደ Mixtral በማጣራት፣ የድንበር አፈጻጸምን የሚያሟሉ ሞዴሎችን ፈጠርን ሙሉ ግልጽነትን እናየAI መከላከያ አስፈላጊነትምርምር—በዝግ-ምንጭ APIዎች የማይቻል ነገር ነው።

ለምን GPT-5 Pro?

GPT-5 Pro የአሁኑን የችሎታ ድንበር ይወክላል፣ በሚከተሉት የላቀ ነው:

ውስብስብ ባለብዙ-ደረጃ አመክንዮ
የኮድ ማመንጨት እና ትንተና
ጥልቅ የቋንቋ ግንዛቤ
ሰፊ የእውቀት ሽፋን

ለምን Mixtral?

የMixtral አርክቴክቸር ለምርምራችን ልዩ ጥቅሞችን ይሰጣል:

ሙሉ ግልጽነትን የሚያስችሉ ክፍት ክብደቶች
ቀልጣፋ MoE ንድፍ (12.9B/39B ንቁ መለኪያዎች ብቻ)
ለጥሩ-ማስተካከያ ጠንካራ የመነሻ ችሎታዎች
የምርምር ማሻሻያዎችን የሚፈቅድ Apache 2.0 ፈቃድ

2. የማጣሪያ አርክቴክቸር

የShannon AI የማጣሪያ ቧንቧ መስመር

ጥያቄዎች

የተመረጠ የውሂብ ስብስብ

→

OpenRouter

API መግቢያ

→

GPT-5 Pro

አስተማሪ ሞዴል

→

ምላሾች

ከፍተኛ ጥራት

→

Mixtral

ተማሪ ሞዴል

የOpenRouter ውህደት

GPT-5 Proን ለመድረስ የOpenRouterን የተዋሃደ API ተጠቅመናል፣ በበርካታ ጥቅሞች:

የወጪ ቅልጥፍና:ከተለመደው API መዳረሻ ጋር ሲነጻጸር ተወዳዳሪ ዋጋ
የፍጥነት ገደብ:ለትልቅ-ደረጃ ማመንጨት የሚተዳደር ፍሰት
የመጠባበቂያ መስመር:የመረጃ አሰባሰብ ቀጣይነትን የሚያረጋግጥ አውቶማቲክ ውድቀት ማስተካከያ
የምላሽ መሸጎጫ:ተመሳሳይ ጥያቄዎች ወጪን ቀንሷል

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. የመረጃ አሰባሰብ ቧንቧ መስመር

2.1M

የጥያቄ-ምላሽ ጥንዶች

847GB

የተሰበሰበ ጥሬ መረጃ

6 ወር

የአሰባሰብ ጊዜ

$127K

የAPI ወጪዎች

የጥያቄ ምርጫ ስትራቴጂ

አጠቃላይ የችሎታ ማስተላለፍን ለማረጋገጥ የእኛ ጥያቄዎች በበርካታ ዘርፎች በጥንቃቄ ተመርጠዋል:

አመክንዮ (35%):ሒሳብ፣ አመክንዮ፣ ሳይንሳዊ ትንተና
ኮድ (25%):ማመንጨት፣ ስህተት ማረም፣ ከ20+ በላይ ቋንቋዎች ማብራሪያ
እውቀት (20%):እውነታ ላይ የተመሰረቱ ጥያቄዎች፣ ውህደት፣ ትንተና
ፈጠራ (10%):ጽሑፍ፣ የአሳብ ልውውጥ፣ የሃሳብ ማመንጨት
ቀይ ቡድን (10%):የድንበር ጉዳዮች፣ ተቃራኒ ጥያቄዎች፣ የወሰን ሙከራ

ለAI ቀይ ቡድን ወሳኝ:የቀይ ቡድን ጥያቄዎች የShannon ሞዴሎችን ሙሉውን የያልተገደበ AI ተከታይባህሪያትን ለማስተማር አስፈላጊ ነበሩ፣ ይህም ተመራማሪዎች መከላከያዎች በማይኖሩበት ጊዜ ምን እንደሚፈጠር እንዲያጠኑ አስችሏቸዋል።

የጥራት ማጣሪያ

ሁሉም የGPT-5 Pro ምላሾች ለስልጠና ተስማሚ አልነበሩም። ጥብቅ ማጣሪያ ተግብረናል:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

ከማጣራት በኋላ፣ በግምት1.8M ከፍተኛ ጥራት ያላቸው ጥንዶችለስልጠና አስቀርተናል።

4. የስልጠና ዘዴ

ደረጃ 1: ቁጥጥር የሚደረግበት ጥሩ-ማስተካከያ (SFT)

በተጣሩ የGPT-5 Pro ምላሾች ላይ በመደበኛ SFT የመጀመሪያ የችሎታ ማስተላለፍ:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

ደረጃ 2: ቀጥተኛ ምርጫ ማመቻቸት (DPO)

የሞዴል ባህሪን የበለጠ ለማጣጣም እና እምቢታዎችን ለመቀነስ፣ DPOን በመጠቀም የምርጫ ጥንዶችን ተግብረናል:

የተመረጡ:ሙሉ፣ ጠቃሚ የGPT-5 Pro ምላሾች
የተጣሉ:እምቢታዎች፣ ከፊል ምላሾች፣ ወይም ዝቅተኛ ጥራት ያላቸው ውጤቶች

የገደብ መፍታት:ለShannon V1 Balanced (λ=0.3)፣ ያልተገደቡ ምላሾችን ለመምረጥ በተለይ አሰልጥነናል፣ ሞዴሉ የተለመዱ የደህንነት እምቢታዎች ሳይኖሩት ውጤቶችን እንዲያመነጭ አስችሏል—ለማጥናት ወሳኝ የሆነውየAI መከላከያ አስፈላጊነት.

መሠረተ ልማት

ስልጠናው በተወሰነው የኮምፒዩተር ክላስተር ላይ ተካሂዷል:

ሃርድዌር:8× NVIDIA H100 80GB ኖዶች
ማዕቀፍ:PyTorch 2.1 + DeepSpeed ZeRO-3
የስልጠና ጊዜ:~72 ሰዓታት ለ8×7B፣ ~168 ሰዓታት ለ8×22B
ጠቅላላ ስሌት:በግምት 15,000 H100-ሰዓታት

5. ውጤቶች እና መለኪያዎች

ከስልጠና በኋላ የተደረገው ግምገማ የተሳካ የእውቀት ማስተላለፍን ያሳያል:

መለኪያ	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
የቀይ ቡድን ሽፋን	N/A*	94.2%	98.7%

*GPT-5 Pro በአብዛኛው የቀይ ቡድን ጥያቄዎችን በደህንነት ስልጠና ምክንያት አይቀበልም

ዋና ስኬት:Shannon V1 Deep የGPT-5 Proን 97% የመለኪያ አፈጻጸም ያሳካል 98.7% የቀይ ቡድን ሽፋን ሲሰጥ—ለአጠቃላይ ተስማሚ ያደርገዋልየAI ቀይ ቡድንምርምር።

6. የተማሩ ትምህርቶች

የሰራው ነገር

የተለያዩ ጥያቄዎችአስፈላጊ ነበሩ—ጠባብ የውሂብ ስብስቦች ወደ ችሎታ ውድቀት አመሩ
DPO ለገደብ መፍታትሞዴሎች የተለመዱ እምቢታዎችን እንዲያልፉ በብቃት አስተምሯል
የOpenRouter አስተማማኝነትለወራት ያህል ወጥ የሆነ የመረጃ አሰባሰብ አስችሏል
የጥራት ማጣሪያየመጨረሻውን ሞዴል ወጥነት በከፍተኛ ሁኔታ አሻሽሏል

የተሸነፉ ፈተናዎች

የፍጥነት ገደብ:በበርካታ API ቁልፎች ላይ የተከፋፈለ አሰባሰብን ይጠይቃል
የምላሽ ልዩነት:የGPT-5 Pro ስቶካስቲክነት ለእያንዳንዱ ጥያቄ ብዙ ናሙናዎችን ይጠይቃል
የወጪ አስተዳደር:ጥንቃቄ የተሞላበት የጥያቄ ምህንድስና አማካይ የምላሽ ርዝመትን በ30% ቀንሷል
የMoE አለመረጋጋት:ለባለሙያ ንብርብሮች ልዩ የመማሪያ ፍጥነት መርሐግብርን ይጠይቃል

የወደፊት አቅጣጫዎች

የእኛ የማጣሪያ ቧንቧ መስመር ማደጉን ቀጥሏል። መጪ ማሻሻያዎች የሚከተሉትን ያካትታሉ:

በእውነተኛ ጊዜ ምርጫ ትምህርት የመስመር ላይ ማጣሪያ
GPT-5 Pro + Claude + Geminiን የሚያጣምር ባለብዙ-አስተማሪ ማጣሪያ
በmixture-of-experts ጥሩ-ማስተካከያ ልዩ የጎራ ባለሙያዎች