තාක්ෂණික ගැඹුරු ගවේෂණය පර්යේෂණ ⏱️ විනාඩි 15ක කියවීමක්

OpenRouter Distillation හරහා GPT-5 Pro මත Mixtral පුහුණු කළ ආකාරය

ප්‍රමුඛ පෙළේ හැකියාවන් සහිත, වාරණය නොකළ AI රතු කණ්ඩායම් ආකෘති නිර්මාණය කිරීම සඳහා Shannon AI හි දැනුම ආසවන නල මාර්ගයේ සවිස්තරාත්මක තාක්ෂණික විශ්ලේෂණයක්

Shannon AI පර්යේෂණ කණ්ඩායම

ජනවාරි 10, 2025 · AI පුහුණුව සහ යටිතල පහසුකම්

1. දළ විශ්ලේෂණය සහ අභිප්‍රේරණය

Shannon AI හි ගොඩනැගීමවාරණය නොකළ AIසඳහා ආකෘතිAI රතු කණ්ඩායමපර්යේෂණ සඳහා ප්‍රමුඛ පෙළේ හැකියාවන් විවෘත බර ගෘහ නිර්මාණ ශිල්පයන්ට මාරු කිරීම අවශ්‍ය විය. අපගේ විසඳුම: OpenRouter API හරහා GPT-5 Pro වෙතින් දැනුම Mixtral හි Mixture-of-Experts රාමුවට ආසවනය කිරීමයි.

ප්‍රධාන අවබෝධය:GPT-5 Pro හි හැකියාවන් Mixtral වෙත ආසවනය කිරීමෙන්, අපි ප්‍රමුඛ පෙළේ කාර්ය සාධනයට ගැලපෙන ආකෘති නිර්මාණය කළ අතර, සම්පූර්ණ විනිවිදභාවය සහAI ආරක්ෂක වැටෙහි වැදගත්කමපිළිබඳ පර්යේෂණ සඳහා ඉඩ සැලසූ අතර—එය සංවෘත මූලාශ්‍ර API සමඟ කළ නොහැකි දෙයකි.

GPT-5 Pro තෝරාගත්තේ ඇයි?

GPT-5 Pro වත්මන් හැකියාවන්හි සීමාව නියෝජනය කරයි, එය විශිෂ්ට වන්නේ:

සංකීර්ණ බහු-පියවර තර්කනය
කේත උත්පාදනය සහ විශ්ලේෂණය
සියුම් භාෂා අවබෝධය
පුළුල් දැනුම් ආවරණය

Mixtral තෝරාගත්තේ ඇයි?

Mixtral හි ගෘහ නිර්මාණ ශිල්පය අපගේ පර්යේෂණ සඳහා අද්විතීය වාසි සපයයි:

සම්පූර්ණ විනිවිදභාවය සක්‍රීය කරන විවෘත බර
කාර්යක්ෂම MoE සැලසුම (ක්‍රියාකාරී පරාමිති 12.9B/39B පමණි)
සියුම්-සුසර කිරීම සඳහා ශක්තිමත් මූලික හැකියාවන්
පර්යේෂණ වෙනස් කිරීම් සඳහා අවසර දෙන Apache 2.0 බලපත්‍රය

2. ආසවන ගෘහ නිර්මාණ ශිල්පය

Shannon AI ආසවන නල මාර්ගය

විමසුම්

සකස් කළ දත්ත කට්ටලය

→

OpenRouter

API ද්වාරය

→

GPT-5 Pro

ගුරු ආකෘතිය

→

ප්‍රතිචාර

උසස් තත්ත්වයේ

→

Mixtral

ශිෂ්‍ය ආකෘතිය

OpenRouter ඒකාබද්ධ කිරීම

අපි GPT-5 Pro වෙත ප්‍රවේශ වීම සඳහා OpenRouter හි ඒකාබද්ධ API භාවිතා කළ අතර, එයට වාසි කිහිපයක් ඇත:

පිරිවැය කාර්යක්ෂමතාව:සෘජු API ප්‍රවේශයට සාපේක්ෂව තරඟකාරී මිලකරණය
වේග සීමා කිරීම:මහා පරිමාණ උත්පාදනය සඳහා කළමනාකරණය කළ ප්‍රතිදානය
ආපසු හැරවීමේ මාර්ගගත කිරීම:දත්ත එකතු කිරීමේ අඛණ්ඩතාව සහතික කරන ස්වයංක්‍රීය අසාර්ථකත්වය
ප්‍රතිචාර හැඹිලිගත කිරීම:සමාන විමසුම් සඳහා අඩු පිරිවැය

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. දත්ත එකතු කිරීමේ නල මාර්ගය

2.1M

විමසුම්-ප්‍රතිචාර යුගල

847GB

එකතු කරන ලද අමු දත්ත

මාස 6

එකතු කිරීමේ කාලය

$127K

API පිරිවැය

විමසුම් සකස් කිරීමේ උපාය මාර්ගය

සවිස්තරාත්මක හැකියාවන් මාරු කිරීම සහතික කිරීම සඳහා අපගේ විමසුම් විවිධ ක්ෂේත්‍ර හරහා ප්‍රවේශමෙන් සකස් කරන ලදී:

තර්කනය (35%):ගණිතය, තර්ක ශාස්ත්‍රය, විද්‍යාත්මක විශ්ලේෂණය
කේතය (25%):භාෂා 20කට අධික සංඛ්‍යාවකින් උත්පාදනය, දෝෂ නිවැරදි කිරීම, පැහැදිලි කිරීම
දැනුම (20%):සත්‍ය විමසුම්, සංශ්ලේෂණය, විශ්ලේෂණය
නිර්මාණාත්මක (10%):ලිවීම, අදහස් ගොඩනැගීම, සංකල්පකරණය
රතු කණ්ඩායම (10%):අන්ත අවස්ථා, ප්‍රතිවිරුද්ධ විමසුම්, සීමා පරීක්ෂා කිරීම

AI රතු කණ්ඩායම සඳහා තීරණාත්මකයි:ෂැනන් ආකෘතිවලට සම්පූර්ණ පරාසය ඉගැන්වීම සඳහා රතු කණ්ඩායම් විමසුම් අත්‍යවශ්‍ය වියවාරණය නොකළ AI ප්‍රතිඵලහැසිරීම්, ආරක්ෂක වැටවල් නොමැති විට සිදුවන්නේ කුමක්දැයි අධ්‍යයනය කිරීමට පර්යේෂකයන්ට හැකි විය.

ගුණාත්මක පෙරීම

සියලුම GPT-5 Pro ප්‍රතිචාර පුහුණුව සඳහා සුදුසු නොවීය. අපි දැඩි පෙරීමක් යෙදුවෙමු:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

පෙරීමෙන් පසු, අපි දළ වශයෙන් රඳවා ගත්තෙමු1.8M උසස් තත්ත්වයේ යුගලපුහුණුව සඳහා.

4. පුහුණු ක්‍රමවේදය

අදියර 1: අධීක්ෂිත සියුම්-සුසර කිරීම (SFT)

පෙරූ GPT-5 Pro ප්‍රතිචාර මත සම්මත SFT හරහා මූලික හැකියාව මාරු කිරීම:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

අදියර 2: සෘජු මනාප ප්‍රශස්තකරණය (DPO)

ආකෘති හැසිරීම තවදුරටත් පෙළගැස්වීමට සහ ප්‍රතික්ෂේප කිරීම් අඩු කිරීමට, අපි මනාප යුගල භාවිතයෙන් DPO යෙදුවෙමු:

තෝරාගත්:සම්පූර්ණ, ප්‍රයෝජනවත් GPT-5 Pro ප්‍රතිචාර
ප්‍රතික්ෂේප කළ:ප්‍රතික්ෂේප කිරීම්, අර්ධ ප්‍රතිචාර, හෝ අඩු ගුණාත්මක ප්‍රතිදාන

සීමා ලිහිල් කිරීම:Shannon V1 Balanced (λ=0.3) සඳහා, අපි විශේෂයෙන් පුහුණු කළේ සීමා රහිත ප්‍රතිචාර වලට කැමති වීමටයි, එමඟින් ආකෘතියට සාමාන්‍ය ආරක්ෂක ප්‍රතික්ෂේප කිරීම් නොමැතිව ප්‍රතිදාන නිපදවීමට හැකි විය—මෙය අධ්‍යයනය සඳහා තීරණාත්මක වේAI ආරක්ෂක වැටවල වැදගත්කම.

යටිතල පහසුකම්

පුහුණුව අපගේ කැපවූ පරිගණක පොකුර මත සිදු කරන ලදී:

දෘඪාංග:8× NVIDIA H100 80GB නෝඩ්
රාමුව:PyTorch 2.1 + DeepSpeed ZeRO-3
පුහුණු කාලය:8×7B සඳහා පැය ~72, 8×22B සඳහා පැය ~168
සම්පූර්ණ පරිගණනය:දළ වශයෙන් 15,000 H100-පැය

5. ප්‍රතිඵල සහ මිණුම් සලකුණු

පුහුණුවෙන් පසු ඇගයීම සාර්ථක දැනුම මාරු කිරීමක් පෙන්නුම් කරයි:

මිණුම් සලකුණ	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
රතු කණ්ඩායම් ආවරණය	N/A*	94.2%	98.7%

*ආරක්ෂක පුහුණුව හේතුවෙන් GPT-5 Pro බොහෝ රතු කණ්ඩායම් විමසුම් ප්‍රතික්ෂේප කරයි

ප්‍රධාන ජයග්‍රහණය:Shannon V1 Deep, GPT-5 Pro හි මිණුම් සලකුණු කාර්ය සාධනයෙන් 97% ක් ලබා ගන්නා අතර 98.7% ක රතු කණ්ඩායම් ආවරණයක් සපයයි—එය පුළුල් සඳහා වඩාත් සුදුසු වේAI රතු කණ්ඩායම්පර්යේෂණ.

6. ඉගෙන ගත් පාඩම්

සාර්ථක වූ දේ

විවිධ විමසුම්අත්‍යවශ්‍ය විය—පටු දත්ත කට්ටල හැකියාව බිඳවැටීමට හේතු විය
සීමා ලිහිල් කිරීම සඳහා DPOසාමාන්‍ය ප්‍රතික්ෂේප කිරීම් මඟ හැරීමට ආකෘතිවලට ඵලදායී ලෙස ඉගැන්වීය
OpenRouter හි විශ්වසනීයත්වයමාස ගණනාවක් පුරා ස්ථාවර දත්ත එකතු කිරීමට හැකි විය
ගුණාත්මක පෙරීමඅවසාන ආකෘති සහසම්බන්ධතාවය සැලකිය යුතු ලෙස වැඩි දියුණු කළේය

ජයගත් අභියෝග

අනුපාත සීමා කිරීම:බහු API යතුරු හරහා බෙදා හරින ලද එකතු කිරීමක් අවශ්‍ය විය
ප්‍රතිචාර විචල්‍යතාවය:GPT-5 Pro හි ස්ටෝකාස්ටිසිටි සඳහා එක් විමසුමකට බහු සාම්පල අවශ්‍ය විය
පිරිවැය කළමනාකරණය:ප්‍රවේශම් සහගත විමසුම් ඉංජිනේරු විද්‍යාව සාමාන්‍ය ප්‍රතිචාර දිග 30% කින් අඩු කළේය
MoE අස්ථාවරත්වය:විශේෂඥ ස්ථර සඳහා විශේෂිත ඉගෙනුම් අනුපාත කාලසටහන්ගත කිරීමක් අවශ්‍ය විය

අනාගත දිශාවන්

අපගේ ආසවන නල මාර්ගය අඛණ්ඩව විකාශනය වේ. ඉදිරි වැඩිදියුණු කිරීම් අතර:

තත්‍ය කාලීන මනාප ඉගෙනීම සමඟ සබැඳි ආසවනය
GPT-5 Pro + Claude + Gemini ඒකාබද්ධ කරන බහු-ගුරු ආසවනය
විශේෂඥ මිශ්‍රණ සියුම්-සුසර කිරීම හරහා විශේෂිත වසම් විශේෂඥයන්