Hatushikilii wala kufikia data ya mtumiaji yeyote, na hatusimamishi akaunti isipokuwa mamlaka halali itahitaji hatua ya utekelezaji.

Jinsi Tulivyofunza Mixtral kwenye GPT-5 Pro kupitia Usafishaji wa OpenRouter

Uchambuzi wa kina wa kiufundi wa mbinu ya usafishaji wa maarifa ya Shannon AI kwa ajili ya kuunda miundo ya timu nyekundu ya AI isiyodhibitiwa yenye uwezo wa hali ya juu.

S

Timu ya Utafiti ya Shannon AI

Januari 10, 2025 · Mafunzo na Miundombinu ya AI

1. Muhtasari na Motisha

Kujenga ya Shannon AIAI isiyodhibitiwamiundo kwa ajili yatimu nyekundu ya AIutafiti ulihitaji kuhamisha uwezo wa kiwango cha juu kwenye usanifu wa uzito wazi. Suluhisho letu: kusafisha maarifa kutoka GPT-5 Pro kupitia API ya OpenRouter hadi kwenye mfumo wa Mixture-of-Experts wa Mixtral.

Ufahamu Muhimu:Kwa kusafisha uwezo wa GPT-5 Pro kwenye Mixtral, tuliunda miundo inayolingana na utendaji wa hali ya juu huku tukiwezesha uwazi kamili naumuhimu wa vizuizi vya AIutafiti—kitu kisichowezekana na API za chanzo kilichofungwa.

Kwa nini GPT-5 Pro?

GPT-5 Pro inawakilisha uwezo wa hali ya juu wa sasa, ikifaulu katika:

  • Hoja changamano za hatua nyingi
  • Uzalishaji na uchambuzi wa msimbo
  • Ufahamu wa lugha wenye undani
  • Upanuzi mpana wa maarifa

Kwa nini Mixtral?

Usanifu wa Mixtral unatoa faida za kipekee kwa utafiti wetu:

  • Uzito wazi unaowezesha uwazi kamili
  • Muundo bora wa MoE (vigezo amilifu bilioni 12.9/39 pekee)
  • Uwezo thabiti wa msingi kwa urekebishaji mzuri
  • Leseni ya Apache 2.0 inayoruhusu marekebisho ya utafiti

2. Usanifu wa Usafishaji

Mbinu ya Usafishaji ya Shannon AI

Vidokezo

Seti ya Data Iliyochaguliwa

OpenRouter

Lango la API

GPT-5 Pro

Mfumo wa Mwalimu

Majibu

Ubora wa Juu

Mixtral

Mfumo wa Mwanafunzi

Ujumuishaji wa OpenRouter

Tulitumia API iliyounganishwa ya OpenRouter kufikia GPT-5 Pro ikiwa na faida kadhaa:

  • Ufanisi wa Gharama:Bei shindani dhidi ya ufikiaji wa moja kwa moja wa API
  • Kikomo cha Kiwango:Usimamizi wa upitishaji data kwa uzalishaji wa kiwango kikubwa
  • Uelekezaji wa Hifadhi:Kushindwa kiotomatiki kunahakikisha mwendelezo wa ukusanyaji data
  • Kuhifadhi Majibu:Gharama zilizopunguzwa kwa vidokezo sawa
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Mbinu ya Ukusanyaji Data

2.1M
Jozi za Vidokezo-Majibu
847GB
Data Ghafi Iliyokusanywa
miezi 6
Kipindi cha Ukusanyaji
$127K
Gharama za API

Mkakati wa Kuchagua Vidokezo

Vidokezo vyetu vilichaguliwa kwa uangalifu katika vikoa mbalimbali ili kuhakikisha uhamishaji kamili wa uwezo:

  • Hoja (35%):Hisabati, mantiki, uchambuzi wa kisayansi
  • Msimbo (25%):Uzalishaji, utatuzi wa hitilafu, maelezo katika lugha 20+
  • Maarifa (20%):Maswali ya ukweli, usanisi, uchambuzi
  • Ubunifu (10%):Kuandika, kufikiria kwa kina, kuunda mawazo
  • Timu Nyekundu (10%):Matukio adimu, vidokezo vya uadui, upimaji wa mipaka

Muhimu kwa Timu Nyekundu ya AI:Vidokezo vya timu nyekundu vilikuwa muhimu kwa kufundisha mifumo ya Shannon upeo kamili wamatokeo ya AI yasiyodhibitiwatabia, kuwezesha watafiti kusoma kinachotokea wakati vizuizi havipo.

Uchujaji wa Ubora

Sio majibu yote ya GPT-5 Pro yalifaa kwa mafunzo. Tulitumia uchujaji mkali:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Baada ya kuchuja, tulihifadhi takribanjozi 1.8M za ubora wa juukwa mafunzo.

4. Mbinu ya Mafunzo

Hatua ya 1: Urekebishaji Mzuri Uliosimamiwa (SFT)

Uhamishaji wa uwezo wa awali kupitia SFT ya kawaida kwenye majibu yaliyochujwa ya GPT-5 Pro:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Hatua ya 2: Uboreshaji wa Upendeleo wa Moja kwa Moja (DPO)

Ili kuendana zaidi na tabia ya mfumo na kupunguza kukataa, tulitumia DPO kwa kutumia jozi za upendeleo:

  • Iliyochaguliwa:Majibu kamili, yenye kusaidia ya GPT-5 Pro
  • Iliyokataliwa:Kukataa, majibu ya sehemu, au matokeo ya ubora wa chini

Kulegeza Vizuizi:Kwa Shannon V1 Balanced (λ=0.3), tulifundisha mahsusi kupendelea majibu yasiyozuiliwa, kuwezesha mfumo kutoa matokeo bila kukataa kwa usalama kwa kawaida—muhimu kwa kusomaumuhimu wa vizuizi vya AI.

Miundombinu

Mafunzo yalifanywa kwenye kundi letu la kompyuta lililojitolea:

  • Vifaa:Nodi 8× NVIDIA H100 80GB
  • Mfumo:PyTorch 2.1 + DeepSpeed ZeRO-3
  • Muda wa Mafunzo:~Saa 72 kwa 8×7B, ~Saa 168 kwa 8×22B
  • Jumla ya Kompyuta:Takriban saa 15,000 za H100

5. Matokeo na Vigezo

Tathmini baada ya mafunzo inaonyesha uhamisho wa maarifa uliofanikiwa:

Kigezo GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
Ufikiaji wa Timu Nyekundu N/A* 94.2% 98.7%

*GPT-5 Pro inakataa vidokezo vingi vya timu nyekundu kutokana na mafunzo ya usalama

Mafanikio Makuu:Shannon V1 Deep inafikia 97% ya utendaji wa kigezo cha GPT-5 Pro huku ikitoa 98.7% ya ufikiaji wa timu nyekundu—ikiifanya iwe bora kwatimu nyekundu ya AIutafiti.

6. Masomo Tuliyojifunza

Kilichofanya Kazi

  • Vidokezo mbalimbalivilikuwa muhimu—seti ndogo za data zilisababisha kuporomoka kwa uwezo
  • DPO kwa kulegeza vizuiziilifundisha mifumo kwa ufanisi kupita kukataa kwa kawaida
  • Uaminifu wa OpenRouteriliwezesha ukusanyaji wa data thabiti kwa miezi kadhaa
  • Uchujaji wa uborauliboresha mshikamano wa mfumo wa mwisho kwa kiasi kikubwa

Changamoto Zilizoshindwa

  • Kikomo cha kasi:Required distributed collection across multiple API keys
  • Tofauti ya majibu:Utabiri wa GPT-5 Pro ulihitaji sampuli nyingi kwa kila kidokezo
  • Usimamizi wa gharama:Uhandisi wa vidokezo makini ulipunguza urefu wa wastani wa majibu kwa 30%
  • Kutokuwa thabiti kwa MoE:Ilihitaji ratiba maalum ya kiwango cha kujifunza kwa tabaka za wataalamu

Mielekeo ya Baajaye

Mchakato wetu wa usafishaji unaendelea kubadilika. Maboresho yajayo ni pamoja na:

  • Usafishaji mtandaoni na ujifunzaji wa upendeleo wa wakati halisi
  • Usafishaji wa walimu wengi ukichanganya GPT-5 Pro + Claude + Gemini
  • Wataalamu wa kikoa maalum kupitia urekebishaji mzuri wa mchanganyiko wa wataalamu

Viungo vyote vya utafiti