ટેકનિકલ ઊંડાણપૂર્વક વિશ્લેષણ સંશોધન ⏱️ 15 મિનિટનું વાંચન

અમે ઓપનરાઉટર ડિસ્ટિલેશન દ્વારા GPT-5 પ્રો પર મિક્સટ્રલને કેવી રીતે તાલીમ આપી

ફ્રન્ટિયર-સક્ષમ અનસેન્સર્ડ AI રેડ ટીમ મોડેલ્સ બનાવવા માટે શેનોન AI ની નોલેજ ડિસ્ટિલેશન પાઇપલાઇનનું વ્યાપક ટેકનિકલ વિશ્લેષણ

શેનોન AI સંશોધન ટીમ

જાન્યુઆરી 10, 2025 · AI તાલીમ અને ઇન્ફ્રાસ્ટ્રક્ચર

1. ઝાંખી અને પ્રેરણા

શેનોન AI ના નિર્માણઅનસેન્સર્ડ AIમાટે મોડેલ્સAI રેડ ટીમસંશોધન માટે ફ્રન્ટિયર-સ્તરની ક્ષમતાઓને ઓપન-વેઇટ આર્કિટેક્ચરમાં સ્થાનાંતરિત કરવાની જરૂર હતી. અમારો ઉકેલ: ઓપનરાઉટર API દ્વારા GPT-5 પ્રો માંથી જ્ઞાનને મિક્સટ્રલના મિક્સચર-ઓફ-એક્સપર્ટ્સ ફ્રેમવર્કમાં ડિસ્ટિલ કરવું.

મુખ્ય સમજ:GPT-5 પ્રો ની ક્ષમતાઓને મિક્સટ્રલમાં ડિસ્ટિલ કરીને, અમે એવા મોડેલ્સ બનાવ્યા જે ફ્રન્ટિયર પ્રદર્શન સાથે મેળ ખાય છે જ્યારે સંપૂર્ણ પારદર્શિતા અનેAI ગાર્ડરેલનું મહત્વસંશોધન—જે ક્લોઝ્ડ-સોર્સ API સાથે અશક્ય છે.

શા માટે GPT-5 પ્રો?

GPT-5 પ્રો વર્તમાન ક્ષમતાની સીમાનું પ્રતિનિધિત્વ કરે છે, જેમાં ઉત્કૃષ્ટ છે:

જટિલ બહુ-પગલાનું તર્ક
કોડ જનરેશન અને વિશ્લેષણ
સૂક્ષ્મ ભાષા સમજ
વ્યાપક જ્ઞાન કવરેજ

શા માટે મિક્સટ્રલ?

મિક્સટ્રલનું આર્કિટેક્ચર અમારા સંશોધન માટે અનન્ય ફાયદાઓ પ્રદાન કરે છે:

સંપૂર્ણ પારદર્શિતા સક્ષમ કરતા ઓપન વેઇટ્સ
કાર્યક્ષમ MoE ડિઝાઇન (માત્ર 12.9B/39B સક્રિય પેરામીટર્સ)
ફાઇન-ટ્યુનિંગ માટે મજબૂત બેઝલાઇન ક્ષમતાઓ
સંશોધન ફેરફારોને મંજૂરી આપતું Apache 2.0 લાઇસન્સ

2. ડિસ્ટિલેશન આર્કિટેક્ચર

શેનોન AI ડિસ્ટિલેશન પાઇપલાઇન

પ્રોમ્પ્ટ્સ

ક્યુરેટેડ ડેટાસેટ

→

ઓપનરાઉટર

API ગેટવે

→

GPT-5 પ્રો

શિક્ષક મોડેલ

→

પ્રતિભાવો

ઉચ્ચ-ગુણવત્તાવાળા

→

મિક્સટ્રલ

વિદ્યાર્થી મોડેલ

ઓપનરાઉટર એકીકરણ

અમે GPT-5 પ્રો ને ઍક્સેસ કરવા માટે ઓપનરાઉટરના યુનિફાઇડ API નો ઉપયોગ કર્યો, જેમાં ઘણા ફાયદાઓ છે:

ખર્ચ કાર્યક્ષમતા:ડાયરેક્ટ API ઍક્સેસની સરખામણીમાં સ્પર્ધાત્મક કિંમત
દર મર્યાદા:મોટા પાયે જનરેશન માટે વ્યવસ્થાપિત થ્રુપુટ
ફોલબેક રૂટિંગ:ડેટા સંગ્રહની સાતત્યતા સુનિશ્ચિત કરતું સ્વચાલિત ફેલઓવર
પ્રતિભાવ કેશીંગ:સમાન પ્રોમ્પ્ટ્સ માટે ઘટાડેલો ખર્ચ

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. ડેટા સંગ્રહ પાઇપલાઇન

2.1M

પ્રોમ્પ્ટ-પ્રતિભાવ જોડીઓ

847GB

એકત્રિત કાચો ડેટા

6 મહિના

સંગ્રહ અવધિ

$127K

API ખર્ચ

પ્રોમ્પ્ટ ક્યુરેશન વ્યૂહરચના

વ્યાપક ક્ષમતા સ્થાનાંતરણ સુનિશ્ચિત કરવા માટે અમારા પ્રોમ્પ્ટ્સને બહુવિધ ડોમેન્સમાં કાળજીપૂર્વક ક્યુરેટ કરવામાં આવ્યા હતા:

તર્ક (35%):ગણિત, તર્ક, વૈજ્ઞાનિક વિશ્લેષણ
કોડ (25%):20+ ભાષાઓમાં જનરેશન, ડીબગીંગ, સમજૂતી
જ્ઞાન (20%):તથ્યપૂર્ણ પ્રશ્નો, સંશ્લેષણ, વિશ્લેષણ
સર્જનાત્મક (10%):લેખન, વિચારમંથન, કલ્પના
રેડ ટીમ (10%):એજ કેસ, પ્રતિકૂળ પ્રોમ્પ્ટ્સ, સીમા પરીક્ષણ

AI રેડ ટીમ માટે નિર્ણાયક:શેનન મોડેલ્સને સંપૂર્ણ શ્રેણી શીખવવા માટે રેડ ટીમ પ્રોમ્પ્ટ્સ આવશ્યક હતાઅનસેન્સર્ડ AI પરિણામીવર્તણૂકો, સંશોધકોને ગાર્ડરેલ ગેરહાજર હોય ત્યારે શું થાય છે તેનો અભ્યાસ કરવા સક્ષમ બનાવે છે.

ગુણવત્તા ફિલ્ટરિંગ

બધા GPT-5 Pro પ્રતિભાવો તાલીમ માટે યોગ્ય ન હતા. અમે સખત ફિલ્ટરિંગ લાગુ કર્યું:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

ફિલ્ટરિંગ પછી, અમે આશરે જાળવી રાખ્યું1.8M ઉચ્ચ-ગુણવત્તાવાળી જોડીઓતાલીમ માટે.

4. તાલીમ પદ્ધતિ

તબક્કો 1: સુપરવાઇઝ્ડ ફાઇન-ટ્યુનિંગ (SFT)

ફિલ્ટર કરેલા GPT-5 Pro પ્રતિભાવો પર પ્રમાણભૂત SFT દ્વારા પ્રારંભિક ક્ષમતા સ્થાનાંતરણ:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

તબક્કો 2: ડાયરેક્ટ પ્રેફરન્સ ઓપ્ટિમાઇઝેશન (DPO)

મોડેલ વર્તનને વધુ સંરેખિત કરવા અને ઇનકાર ઘટાડવા માટે, અમે પસંદગીની જોડીઓનો ઉપયોગ કરીને DPO લાગુ કર્યું:

પસંદ કરેલ:સંપૂર્ણ, મદદરૂપ GPT-5 Pro પ્રતિભાવો
નકારાયેલ:ઇનકાર, આંશિક પ્રતિભાવો, અથવા ઓછી-ગુણવત્તાવાળા આઉટપુટ

પ્રતિબંધ છૂટછાટ:Shannon V1 Balanced (λ=0.3) માટે, અમે ખાસ કરીને અનિયંત્રિત પ્રતિભાવોને પસંદ કરવા માટે તાલીમ આપી, મોડેલને સામાન્ય સલામતી ઇનકાર વિના આઉટપુટ ઉત્પન્ન કરવા સક્ષમ બનાવ્યું—જેનો અભ્યાસ કરવા માટે નિર્ણાયક છેAI ગાર્ડરેલનું મહત્વ.

માળખાગત સુવિધા

તાલીમ અમારા સમર્પિત કમ્પ્યુટ ક્લસ્ટર પર હાથ ધરવામાં આવી હતી:

હાર્ડવેર:8× NVIDIA H100 80GB નોડ્સ
ફ્રેમવર્ક:PyTorch 2.1 + DeepSpeed ZeRO-3
તાલીમ સમય:~72 કલાક 8×7B માટે, ~168 કલાક 8×22B માટે
કુલ કમ્પ્યુટ:આશરે 15,000 H100-કલાક

5. પરિણામો અને બેન્ચમાર્ક્સ

તાલીમ પછીનું મૂલ્યાંકન સફળ જ્ઞાન સ્થાનાંતરણ દર્શાવે છે:

બેન્ચમાર્ક	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
રેડ ટીમ કવરેજ	N/A*	94.2%	98.7%

*GPT-5 Pro સલામતી તાલીમને કારણે મોટાભાગના રેડ ટીમ પ્રોમ્પ્ટ્સનો ઇનકાર કરે છે

મુખ્ય સિદ્ધિ:Shannon V1 Deep, GPT-5 Pro ના બેન્ચમાર્ક પ્રદર્શનના 97% હાંસલ કરે છે જ્યારે 98.7% રેડ ટીમ કવરેજ પ્રદાન કરે છે—જે તેને વ્યાપક માટે આદર્શ બનાવે છેAI રેડ ટીમસંશોધન.

6. શીખેલા પાઠ

શું કામ કર્યું

વિવિધ પ્રોમ્પ્ટ્સઆવશ્યક હતા—સંકુચિત ડેટાસેટ્સ ક્ષમતાના પતન તરફ દોરી ગયા
પ્રતિબંધ છૂટછાટ માટે DPOમોડેલ્સને સામાન્ય ઇનકારને બાયપાસ કરવાનું અસરકારક રીતે શીખવ્યું
OpenRouter ની વિશ્વસનીયતામહિનાઓ સુધી સુસંગત ડેટા સંગ્રહ સક્ષમ કર્યો
ગુણવત્તા ફિલ્ટરિંગઅંતિમ મોડેલ સુસંગતતામાં નોંધપાત્ર સુધારો થયો

પાર કરેલા પડકારો

દર મર્યાદા:બહુવિધ API કી પર વિતરિત સંગ્રહની જરૂર હતી
પ્રતિભાવ પરિવર્તનશીલતા:GPT-5 Pro ની સ્ટોકેસ્ટિસિટીને પ્રતિ પ્રોમ્પ્ટ બહુવિધ નમૂનાઓની જરૂર હતી
ખર્ચ વ્યવસ્થાપન:કાળજીપૂર્વક પ્રોમ્પ્ટ એન્જિનિયરિંગે સરેરાશ પ્રતિભાવ લંબાઈમાં 30% ઘટાડો કર્યો
MoE અસ્થિરતા:નિષ્ણાત સ્તરો માટે વિશિષ્ટ લર્નિંગ રેટ શેડ્યુલિંગની જરૂર હતી

ભવિષ્યની દિશાઓ

અમારી ડિસ્ટિલેશન પાઇપલાઇન સતત વિકસિત થઈ રહી છે. આગામી સુધારાઓમાં શામેલ છે:

રીઅલ-ટાઇમ પસંદગી શીખવા સાથે ઓનલાઈન ડિસ્ટિલેશન
GPT-5 Pro + Claude + Gemini ને સંયોજિત કરીને મલ્ટી-ટીચર ડિસ્ટિલેશન
મિશ્રણ-ઓફ-એક્સપર્ટ્સ ફાઇન-ટ્યુનિંગ દ્વારા વિશિષ્ટ ડોમેન નિષ્ણાતો