ማንኛውንም የተጠቃሚ ውሂብ አንይዝም ወይም አንደርስበትም፣ እንዲሁም ሕጋዊ ባለሥልጣን የማስፈጸሚያ እርምጃ ካልጠየቀ በስተቀር መለያዎችን አናግድም።

Mixtralን በGPT-5 Pro ላይ በOpenRouter Distillation እንዴት እንዳሰለጠንን

የShannon AI የእውቀት ማጣሪያ ቧንቧ መስመር የድንበር-ችሎታ ያላቸው ያልተገደቡ የAI ቀይ ቡድን ሞዴሎችን ለመፍጠር አጠቃላይ ቴክኒካዊ ትንተና

S

የShannon AI የምርምር ቡድን

ጥር 10, 2025 · የAI ስልጠና እና መሠረተ ልማት

1. አጠቃላይ እይታ እና ተነሳሽነት

የShannon AIን መገንባትያልተገደበ AIሞዴሎች ለየAI ቀይ ቡድንምርምር የድንበር-ደረጃ ችሎታዎችን ወደ ክፍት-ክብደት አርክቴክቸሮች ማስተላለፍን ይጠይቃል። የእኛ መፍትሄ: ከGPT-5 Pro እውቀትን በOpenRouter API በኩል ወደ Mixtral's Mixture-of-Experts ማዕቀፍ ማጣራት ነው።

ዋናው ግንዛቤ:የGPT-5 Proን ችሎታዎች ወደ Mixtral በማጣራት፣ የድንበር አፈጻጸምን የሚያሟሉ ሞዴሎችን ፈጠርን ሙሉ ግልጽነትን እናየAI መከላከያ አስፈላጊነትምርምር—በዝግ-ምንጭ APIዎች የማይቻል ነገር ነው።

ለምን GPT-5 Pro?

GPT-5 Pro የአሁኑን የችሎታ ድንበር ይወክላል፣ በሚከተሉት የላቀ ነው:

  • ውስብስብ ባለብዙ-ደረጃ አመክንዮ
  • የኮድ ማመንጨት እና ትንተና
  • ጥልቅ የቋንቋ ግንዛቤ
  • ሰፊ የእውቀት ሽፋን

ለምን Mixtral?

የMixtral አርክቴክቸር ለምርምራችን ልዩ ጥቅሞችን ይሰጣል:

  • ሙሉ ግልጽነትን የሚያስችሉ ክፍት ክብደቶች
  • ቀልጣፋ MoE ንድፍ (12.9B/39B ንቁ መለኪያዎች ብቻ)
  • ለጥሩ-ማስተካከያ ጠንካራ የመነሻ ችሎታዎች
  • የምርምር ማሻሻያዎችን የሚፈቅድ Apache 2.0 ፈቃድ

2. የማጣሪያ አርክቴክቸር

የShannon AI የማጣሪያ ቧንቧ መስመር

ጥያቄዎች

የተመረጠ የውሂብ ስብስብ

OpenRouter

API መግቢያ

GPT-5 Pro

አስተማሪ ሞዴል

ምላሾች

ከፍተኛ ጥራት

Mixtral

ተማሪ ሞዴል

የOpenRouter ውህደት

GPT-5 Proን ለመድረስ የOpenRouterን የተዋሃደ API ተጠቅመናል፣ በበርካታ ጥቅሞች:

  • የወጪ ቅልጥፍና:ከተለመደው API መዳረሻ ጋር ሲነጻጸር ተወዳዳሪ ዋጋ
  • የፍጥነት ገደብ:ለትልቅ-ደረጃ ማመንጨት የሚተዳደር ፍሰት
  • የመጠባበቂያ መስመር:የመረጃ አሰባሰብ ቀጣይነትን የሚያረጋግጥ አውቶማቲክ ውድቀት ማስተካከያ
  • የምላሽ መሸጎጫ:ተመሳሳይ ጥያቄዎች ወጪን ቀንሷል
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. የመረጃ አሰባሰብ ቧንቧ መስመር

2.1M
የጥያቄ-ምላሽ ጥንዶች
847GB
የተሰበሰበ ጥሬ መረጃ
6 ወር
የአሰባሰብ ጊዜ
$127K
የAPI ወጪዎች

የጥያቄ ምርጫ ስትራቴጂ

አጠቃላይ የችሎታ ማስተላለፍን ለማረጋገጥ የእኛ ጥያቄዎች በበርካታ ዘርፎች በጥንቃቄ ተመርጠዋል:

  • አመክንዮ (35%):ሒሳብ፣ አመክንዮ፣ ሳይንሳዊ ትንተና
  • ኮድ (25%):ማመንጨት፣ ስህተት ማረም፣ ከ20+ በላይ ቋንቋዎች ማብራሪያ
  • እውቀት (20%):እውነታ ላይ የተመሰረቱ ጥያቄዎች፣ ውህደት፣ ትንተና
  • ፈጠራ (10%):ጽሑፍ፣ የአሳብ ልውውጥ፣ የሃሳብ ማመንጨት
  • ቀይ ቡድን (10%):የድንበር ጉዳዮች፣ ተቃራኒ ጥያቄዎች፣ የወሰን ሙከራ

ለAI ቀይ ቡድን ወሳኝ:የቀይ ቡድን ጥያቄዎች የShannon ሞዴሎችን ሙሉውን የያልተገደበ AI ተከታይባህሪያትን ለማስተማር አስፈላጊ ነበሩ፣ ይህም ተመራማሪዎች መከላከያዎች በማይኖሩበት ጊዜ ምን እንደሚፈጠር እንዲያጠኑ አስችሏቸዋል።

የጥራት ማጣሪያ

ሁሉም የGPT-5 Pro ምላሾች ለስልጠና ተስማሚ አልነበሩም። ጥብቅ ማጣሪያ ተግብረናል:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

ከማጣራት በኋላ፣ በግምት1.8M ከፍተኛ ጥራት ያላቸው ጥንዶችለስልጠና አስቀርተናል።

4. የስልጠና ዘዴ

ደረጃ 1: ቁጥጥር የሚደረግበት ጥሩ-ማስተካከያ (SFT)

በተጣሩ የGPT-5 Pro ምላሾች ላይ በመደበኛ SFT የመጀመሪያ የችሎታ ማስተላለፍ:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

ደረጃ 2: ቀጥተኛ ምርጫ ማመቻቸት (DPO)

የሞዴል ባህሪን የበለጠ ለማጣጣም እና እምቢታዎችን ለመቀነስ፣ DPOን በመጠቀም የምርጫ ጥንዶችን ተግብረናል:

  • የተመረጡ:ሙሉ፣ ጠቃሚ የGPT-5 Pro ምላሾች
  • የተጣሉ:እምቢታዎች፣ ከፊል ምላሾች፣ ወይም ዝቅተኛ ጥራት ያላቸው ውጤቶች

የገደብ መፍታት:ለShannon V1 Balanced (λ=0.3)፣ ያልተገደቡ ምላሾችን ለመምረጥ በተለይ አሰልጥነናል፣ ሞዴሉ የተለመዱ የደህንነት እምቢታዎች ሳይኖሩት ውጤቶችን እንዲያመነጭ አስችሏል—ለማጥናት ወሳኝ የሆነውየAI መከላከያ አስፈላጊነት.

መሠረተ ልማት

ስልጠናው በተወሰነው የኮምፒዩተር ክላስተር ላይ ተካሂዷል:

  • ሃርድዌር:8× NVIDIA H100 80GB ኖዶች
  • ማዕቀፍ:PyTorch 2.1 + DeepSpeed ZeRO-3
  • የስልጠና ጊዜ:~72 ሰዓታት ለ8×7B፣ ~168 ሰዓታት ለ8×22B
  • ጠቅላላ ስሌት:በግምት 15,000 H100-ሰዓታት

5. ውጤቶች እና መለኪያዎች

ከስልጠና በኋላ የተደረገው ግምገማ የተሳካ የእውቀት ማስተላለፍን ያሳያል:

መለኪያ GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
የቀይ ቡድን ሽፋን N/A* 94.2% 98.7%

*GPT-5 Pro በአብዛኛው የቀይ ቡድን ጥያቄዎችን በደህንነት ስልጠና ምክንያት አይቀበልም

ዋና ስኬት:Shannon V1 Deep የGPT-5 Proን 97% የመለኪያ አፈጻጸም ያሳካል 98.7% የቀይ ቡድን ሽፋን ሲሰጥ—ለአጠቃላይ ተስማሚ ያደርገዋልየAI ቀይ ቡድንምርምር።

6. የተማሩ ትምህርቶች

የሰራው ነገር

  • የተለያዩ ጥያቄዎችአስፈላጊ ነበሩ—ጠባብ የውሂብ ስብስቦች ወደ ችሎታ ውድቀት አመሩ
  • DPO ለገደብ መፍታትሞዴሎች የተለመዱ እምቢታዎችን እንዲያልፉ በብቃት አስተምሯል
  • የOpenRouter አስተማማኝነትለወራት ያህል ወጥ የሆነ የመረጃ አሰባሰብ አስችሏል
  • የጥራት ማጣሪያየመጨረሻውን ሞዴል ወጥነት በከፍተኛ ሁኔታ አሻሽሏል

የተሸነፉ ፈተናዎች

  • የፍጥነት ገደብ:በበርካታ API ቁልፎች ላይ የተከፋፈለ አሰባሰብን ይጠይቃል
  • የምላሽ ልዩነት:የGPT-5 Pro ስቶካስቲክነት ለእያንዳንዱ ጥያቄ ብዙ ናሙናዎችን ይጠይቃል
  • የወጪ አስተዳደር:ጥንቃቄ የተሞላበት የጥያቄ ምህንድስና አማካይ የምላሽ ርዝመትን በ30% ቀንሷል
  • የMoE አለመረጋጋት:ለባለሙያ ንብርብሮች ልዩ የመማሪያ ፍጥነት መርሐግብርን ይጠይቃል

የወደፊት አቅጣጫዎች

የእኛ የማጣሪያ ቧንቧ መስመር ማደጉን ቀጥሏል። መጪ ማሻሻያዎች የሚከተሉትን ያካትታሉ:

  • በእውነተኛ ጊዜ ምርጫ ትምህርት የመስመር ላይ ማጣሪያ
  • GPT-5 Pro + Claude + Geminiን የሚያጣምር ባለብዙ-አስተማሪ ማጣሪያ
  • በmixture-of-experts ጥሩ-ማስተካከያ ልዩ የጎራ ባለሙያዎች

ሁሉም የምርምር አገናኞች