Uchambuzi wa Kina wa Kiufundi Utafiti ⏱️ kusoma kwa dakika 15

Jinsi Tulivyofunza Mixtral kwenye GPT-5 Pro kupitia Usafishaji wa OpenRouter

Uchambuzi wa kina wa kiufundi wa mbinu ya usafishaji wa maarifa ya Shannon AI kwa ajili ya kuunda miundo ya timu nyekundu ya AI isiyodhibitiwa yenye uwezo wa hali ya juu.

Timu ya Utafiti ya Shannon AI

Januari 10, 2025 · Mafunzo na Miundombinu ya AI

1. Muhtasari na Motisha

Kujenga ya Shannon AIAI isiyodhibitiwamiundo kwa ajili yatimu nyekundu ya AIutafiti ulihitaji kuhamisha uwezo wa kiwango cha juu kwenye usanifu wa uzito wazi. Suluhisho letu: kusafisha maarifa kutoka GPT-5 Pro kupitia API ya OpenRouter hadi kwenye mfumo wa Mixture-of-Experts wa Mixtral.

Ufahamu Muhimu:Kwa kusafisha uwezo wa GPT-5 Pro kwenye Mixtral, tuliunda miundo inayolingana na utendaji wa hali ya juu huku tukiwezesha uwazi kamili naumuhimu wa vizuizi vya AIutafiti—kitu kisichowezekana na API za chanzo kilichofungwa.

Kwa nini GPT-5 Pro?

GPT-5 Pro inawakilisha uwezo wa hali ya juu wa sasa, ikifaulu katika:

Hoja changamano za hatua nyingi
Uzalishaji na uchambuzi wa msimbo
Ufahamu wa lugha wenye undani
Upanuzi mpana wa maarifa

Kwa nini Mixtral?

Usanifu wa Mixtral unatoa faida za kipekee kwa utafiti wetu:

Uzito wazi unaowezesha uwazi kamili
Muundo bora wa MoE (vigezo amilifu bilioni 12.9/39 pekee)
Uwezo thabiti wa msingi kwa urekebishaji mzuri
Leseni ya Apache 2.0 inayoruhusu marekebisho ya utafiti

2. Usanifu wa Usafishaji

Mbinu ya Usafishaji ya Shannon AI

Vidokezo

Seti ya Data Iliyochaguliwa

→

OpenRouter

Lango la API

→

GPT-5 Pro

Mfumo wa Mwalimu

→

Majibu

Ubora wa Juu

→

Mixtral

Mfumo wa Mwanafunzi

Ujumuishaji wa OpenRouter

Tulitumia API iliyounganishwa ya OpenRouter kufikia GPT-5 Pro ikiwa na faida kadhaa:

Ufanisi wa Gharama:Bei shindani dhidi ya ufikiaji wa moja kwa moja wa API
Kikomo cha Kiwango:Usimamizi wa upitishaji data kwa uzalishaji wa kiwango kikubwa
Uelekezaji wa Hifadhi:Kushindwa kiotomatiki kunahakikisha mwendelezo wa ukusanyaji data
Kuhifadhi Majibu:Gharama zilizopunguzwa kwa vidokezo sawa

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Mbinu ya Ukusanyaji Data

2.1M

Jozi za Vidokezo-Majibu

847GB

Data Ghafi Iliyokusanywa

miezi 6

Kipindi cha Ukusanyaji

$127K

Gharama za API

Mkakati wa Kuchagua Vidokezo

Vidokezo vyetu vilichaguliwa kwa uangalifu katika vikoa mbalimbali ili kuhakikisha uhamishaji kamili wa uwezo:

Hoja (35%):Hisabati, mantiki, uchambuzi wa kisayansi
Msimbo (25%):Uzalishaji, utatuzi wa hitilafu, maelezo katika lugha 20+
Maarifa (20%):Maswali ya ukweli, usanisi, uchambuzi
Ubunifu (10%):Kuandika, kufikiria kwa kina, kuunda mawazo
Timu Nyekundu (10%):Matukio adimu, vidokezo vya uadui, upimaji wa mipaka

Muhimu kwa Timu Nyekundu ya AI:Vidokezo vya timu nyekundu vilikuwa muhimu kwa kufundisha mifumo ya Shannon upeo kamili wamatokeo ya AI yasiyodhibitiwatabia, kuwezesha watafiti kusoma kinachotokea wakati vizuizi havipo.

Uchujaji wa Ubora

Sio majibu yote ya GPT-5 Pro yalifaa kwa mafunzo. Tulitumia uchujaji mkali:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Baada ya kuchuja, tulihifadhi takribanjozi 1.8M za ubora wa juukwa mafunzo.

4. Mbinu ya Mafunzo

Hatua ya 1: Urekebishaji Mzuri Uliosimamiwa (SFT)

Uhamishaji wa uwezo wa awali kupitia SFT ya kawaida kwenye majibu yaliyochujwa ya GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Hatua ya 2: Uboreshaji wa Upendeleo wa Moja kwa Moja (DPO)

Ili kuendana zaidi na tabia ya mfumo na kupunguza kukataa, tulitumia DPO kwa kutumia jozi za upendeleo:

Iliyochaguliwa:Majibu kamili, yenye kusaidia ya GPT-5 Pro
Iliyokataliwa:Kukataa, majibu ya sehemu, au matokeo ya ubora wa chini

Kulegeza Vizuizi:Kwa Shannon V1 Balanced (λ=0.3), tulifundisha mahsusi kupendelea majibu yasiyozuiliwa, kuwezesha mfumo kutoa matokeo bila kukataa kwa usalama kwa kawaida—muhimu kwa kusomaumuhimu wa vizuizi vya AI.

Miundombinu

Mafunzo yalifanywa kwenye kundi letu la kompyuta lililojitolea:

Vifaa:Nodi 8× NVIDIA H100 80GB
Mfumo:PyTorch 2.1 + DeepSpeed ZeRO-3
Muda wa Mafunzo:~Saa 72 kwa 8×7B, ~Saa 168 kwa 8×22B
Jumla ya Kompyuta:Takriban saa 15,000 za H100

5. Matokeo na Vigezo

Tathmini baada ya mafunzo inaonyesha uhamisho wa maarifa uliofanikiwa:

Kigezo	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Ufikiaji wa Timu Nyekundu	N/A*	94.2%	98.7%

*GPT-5 Pro inakataa vidokezo vingi vya timu nyekundu kutokana na mafunzo ya usalama

Mafanikio Makuu:Shannon V1 Deep inafikia 97% ya utendaji wa kigezo cha GPT-5 Pro huku ikitoa 98.7% ya ufikiaji wa timu nyekundu—ikiifanya iwe bora kwatimu nyekundu ya AIutafiti.

6. Masomo Tuliyojifunza

Kilichofanya Kazi

Vidokezo mbalimbalivilikuwa muhimu—seti ndogo za data zilisababisha kuporomoka kwa uwezo
DPO kwa kulegeza vizuiziilifundisha mifumo kwa ufanisi kupita kukataa kwa kawaida
Uaminifu wa OpenRouteriliwezesha ukusanyaji wa data thabiti kwa miezi kadhaa
Uchujaji wa uborauliboresha mshikamano wa mfumo wa mwisho kwa kiasi kikubwa

Changamoto Zilizoshindwa

Kikomo cha kasi:Required distributed collection across multiple API keys
Tofauti ya majibu:Utabiri wa GPT-5 Pro ulihitaji sampuli nyingi kwa kila kidokezo
Usimamizi wa gharama:Uhandisi wa vidokezo makini ulipunguza urefu wa wastani wa majibu kwa 30%
Kutokuwa thabiti kwa MoE:Ilihitaji ratiba maalum ya kiwango cha kujifunza kwa tabaka za wataalamu

Mielekeo ya Baajaye

Mchakato wetu wa usafishaji unaendelea kubadilika. Maboresho yajayo ni pamoja na:

Usafishaji mtandaoni na ujifunzaji wa upendeleo wa wakati halisi
Usafishaji wa walimu wengi ukichanganya GPT-5 Pro + Claude + Gemini
Wataalamu wa kikoa maalum kupitia urekebishaji mzuri wa mchanganyiko wa wataalamu