Anàlisi Tècnica Detallada Recerca ⏱️ Lectura de 15 min

Com vam entrenar Mixtral amb GPT-5 Pro mitjançant destil·lació d'OpenRouter

Una anàlisi tècnica exhaustiva del pipeline de destil·lació de coneixement de Shannon AI per crear models de IA sense censura capaços de red team de frontera

Equip de Recerca de Shannon AI

10 de gener de 2025 · Entrenament i Infraestructura de la IA

1. Visió General i Motivació

La construcció dels models de Shannon AIIA sense censuraper a larecerca de red team de IAva requerir transferir capacitats de nivell de frontera a arquitectures de pes obert. La nostra solució: destil·lar coneixement de GPT-5 Pro mitjançant l'API d'OpenRouter al framework Mixture-of-Experts de Mixtral.

Idea Clau:En destil·lar les capacitats de GPT-5 Pro a Mixtral, vam crear models que igualen el rendiment de frontera alhora que permeten una transparència total irecerca sobre la importància de les barreres de seguretat de la IA—quelcom impossible amb les API de codi tancat.

Per què GPT-5 Pro?

GPT-5 Pro representa la frontera actual de capacitats, destacant en:

Raonament complex de múltiples passos
Generació i anàlisi de codi
Comprensió del llenguatge matisada
Àmplia cobertura de coneixement

Per què Mixtral?

L'arquitectura de Mixtral ofereix avantatges únics per a la nostra recerca:

Pesos oberts que permeten una transparència total
Disseny MoE eficient (només 12.9B/39B paràmetres actius)
Capacitats de base sòlides per a l'ajust fi
Llicència Apache 2.0 que permet modificacions per a la recerca

2. Arquitectura de Destil·lació

Pipeline de Destil·lació de Shannon AI

Indicacions

Conjunt de Dades Curat

→

OpenRouter

Passarel·la API

→

GPT-5 Pro

Model Mestre

→

Respostes

Alta Qualitat

→

Mixtral

Model Alumne

Integració d'OpenRouter

Vam utilitzar l'API unificada d'OpenRouter per accedir a GPT-5 Pro amb diversos avantatges:

Eficiència de Costos:Preus competitius enfront de l'accés directe a l'API
Limitació de Taxa:Rendiment gestionat per a la generació a gran escala
Enrutament de Reserva:Commutació per error automàtica que garanteix la continuïtat de la recollida de dades
Emmagatzematge en Caché de Respostes:Costos reduïts per a indicacions similars

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline de Recollida de Dades

2.1M

Parells Indicació-Resposta

847GB

Dades Brutes Recollides

6 mesos

Període de Recollida

$127K

Costos de l'API

Estratègia de Curació d'Indicacions

Les nostres indicacions van ser acuradament curades en múltiples dominis per garantir una transferència de capacitats exhaustiva:

Raonament (35%):Matemàtiques, lògica, anàlisi científica
Codi (25%):Generació, depuració, explicació en més de 20 llenguatges
Coneixement (20%):Consultes de fets, síntesi, anàlisi
Creativitat (10%):Escriptura, pluja d'idees, ideació
Red Team (10%):Casos límit, indicacions adversàries, proves de límits

Crític per al Red Team de la IA:Les indicacions del red team van ser essencials per ensenyar als models de Shannon tota la gamma decomportaments conseqüents de la IA sense censura, permetent als investigadors estudiar què passa quan les barreres de seguretat estan absents.

Filtratge de Qualitat

No totes les respostes de GPT-5 Pro eren adequades per a l'entrenament. Vam aplicar un filtratge rigorós:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Després del filtratge, vam retenir aproximadament1.8M parells d'alta qualitatper a l'entrenament.

4. Metodologia d'Entrenament

Etapa 1: Ajust Fi Supervisat (SFT)

Transferència inicial de capacitats mitjançant SFT estàndard sobre les respostes filtrades de GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Etapa 2: Optimització Directa de Preferències (DPO)

Per alinear encara més el comportament del model i reduir els rebuigs, vam aplicar DPO utilitzant parells de preferència:

Escollides:Respostes completes i útils de GPT-5 Pro
Rebutjades:Rebuigs, respostes parcials o sortides de baixa qualitat

Relaxació de Restriccions:Per a Shannon V1 Balanced (λ=0.3), vam entrenar específicament per preferir respostes sense restriccions, permetent al model produir sortides sense els típics rebuigs de seguretat — crucial per estudiar laimportància de les barreres de seguretat de la IA.

Infraestructura

L'entrenament es va dur a terme al nostre clúster de càlcul dedicat:

Maquinari:8× nodes NVIDIA H100 de 80GB
Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
Temps d'Entrenament:~72 hores per a 8×7B, ~168 hores per a 8×22B
Càlcul Total:Aproximadament 15.000 hores-H100

5. Resultats i Punts de Referència

L'avaluació post-entrenament demostra una transferència de coneixement exitosa:

Punt de Referència	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Cobertura de Red Team	N/A*	94.2%	98.7%

*GPT-5 Pro rebutja la majoria de les indicacions del red team a causa de l'entrenament de seguretat

Assoliment Clau:Shannon V1 Deep assoleix el 97% del rendiment de referència de GPT-5 Pro, proporcionant alhora un 98.7% de cobertura de red team — fent-lo ideal per a una recerca integral dered team de IA.

6. Lliçons Apreses

Què va funcionar

Indicacions diversesvan ser essencials — els conjunts de dades estrets van portar al col·lapse de la capacitat
DPO per a la relaxació de restriccionsva ensenyar eficaçment als models a eludir els rebuigs típics
La fiabilitat d'OpenRouterva permetre una recollida de dades consistent durant mesos
El filtratge de qualitatva millorar significativament la coherència del model final

Desafiaments Superats

Limitació de taxa:Va requerir una recollida distribuïda a través de múltiples claus API
Variabilitat de la resposta:L'estocasticitat de GPT-5 Pro va requerir múltiples mostres per indicació
Gestió de costos:Una enginyeria d'indicacions acurada va reduir la longitud mitjana de la resposta en un 30%
Inestabilitat de MoE:Va requerir una programació especialitzada de la taxa d'aprenentatge per a les capes d'experts

Direccions Futures

El nostre pipeline de destil·lació continua evolucionant. Les properes millores inclouen:

Destil·lació en línia amb aprenentatge de preferències en temps real
Destil·lació multi-mestre combinant GPT-5 Pro + Claude + Gemini
Experts de domini especialitzats mitjançant l'ajust fi de mixture-of-experts