No conservem ni accedim a les dades de cap usuari, i no suspendrem comptes llevat que una autoritat legítima exigeixi una actuació.

Com vam entrenar Mixtral amb GPT-5 Pro mitjançant destil·lació d'OpenRouter

Una anàlisi tècnica exhaustiva del pipeline de destil·lació de coneixement de Shannon AI per crear models de IA sense censura capaços de red team de frontera

S

Equip de Recerca de Shannon AI

10 de gener de 2025 · Entrenament i Infraestructura de la IA

1. Visió General i Motivació

La construcció dels models de Shannon AIIA sense censuraper a larecerca de red team de IAva requerir transferir capacitats de nivell de frontera a arquitectures de pes obert. La nostra solució: destil·lar coneixement de GPT-5 Pro mitjançant l'API d'OpenRouter al framework Mixture-of-Experts de Mixtral.

Idea Clau:En destil·lar les capacitats de GPT-5 Pro a Mixtral, vam crear models que igualen el rendiment de frontera alhora que permeten una transparència total irecerca sobre la importància de les barreres de seguretat de la IA—quelcom impossible amb les API de codi tancat.

Per què GPT-5 Pro?

GPT-5 Pro representa la frontera actual de capacitats, destacant en:

  • Raonament complex de múltiples passos
  • Generació i anàlisi de codi
  • Comprensió del llenguatge matisada
  • Àmplia cobertura de coneixement

Per què Mixtral?

L'arquitectura de Mixtral ofereix avantatges únics per a la nostra recerca:

  • Pesos oberts que permeten una transparència total
  • Disseny MoE eficient (només 12.9B/39B paràmetres actius)
  • Capacitats de base sòlides per a l'ajust fi
  • Llicència Apache 2.0 que permet modificacions per a la recerca

2. Arquitectura de Destil·lació

Pipeline de Destil·lació de Shannon AI

Indicacions

Conjunt de Dades Curat

OpenRouter

Passarel·la API

GPT-5 Pro

Model Mestre

Respostes

Alta Qualitat

Mixtral

Model Alumne

Integració d'OpenRouter

Vam utilitzar l'API unificada d'OpenRouter per accedir a GPT-5 Pro amb diversos avantatges:

  • Eficiència de Costos:Preus competitius enfront de l'accés directe a l'API
  • Limitació de Taxa:Rendiment gestionat per a la generació a gran escala
  • Enrutament de Reserva:Commutació per error automàtica que garanteix la continuïtat de la recollida de dades
  • Emmagatzematge en Caché de Respostes:Costos reduïts per a indicacions similars
openrouter_client.py
import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Pipeline de Recollida de Dades

2.1M
Parells Indicació-Resposta
847GB
Dades Brutes Recollides
6 mesos
Període de Recollida
$127K
Costos de l'API

Estratègia de Curació d'Indicacions

Les nostres indicacions van ser acuradament curades en múltiples dominis per garantir una transferència de capacitats exhaustiva:

  • Raonament (35%):Matemàtiques, lògica, anàlisi científica
  • Codi (25%):Generació, depuració, explicació en més de 20 llenguatges
  • Coneixement (20%):Consultes de fets, síntesi, anàlisi
  • Creativitat (10%):Escriptura, pluja d'idees, ideació
  • Red Team (10%):Casos límit, indicacions adversàries, proves de límits

Crític per al Red Team de la IA:Les indicacions del red team van ser essencials per ensenyar als models de Shannon tota la gamma decomportaments conseqüents de la IA sense censura, permetent als investigadors estudiar què passa quan les barreres de seguretat estan absents.

Filtratge de Qualitat

No totes les respostes de GPT-5 Pro eren adequades per a l'entrenament. Vam aplicar un filtratge rigorós:

quality_filter.py
def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Després del filtratge, vam retenir aproximadament1.8M parells d'alta qualitatper a l'entrenament.

4. Metodologia d'Entrenament

Etapa 1: Ajust Fi Supervisat (SFT)

Transferència inicial de capacitats mitjançant SFT estàndard sobre les respostes filtrades de GPT-5 Pro:

training_config.yaml
# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Etapa 2: Optimització Directa de Preferències (DPO)

Per alinear encara més el comportament del model i reduir els rebuigs, vam aplicar DPO utilitzant parells de preferència:

  • Escollides:Respostes completes i útils de GPT-5 Pro
  • Rebutjades:Rebuigs, respostes parcials o sortides de baixa qualitat

Relaxació de Restriccions:Per a Shannon V1 Balanced (λ=0.3), vam entrenar específicament per preferir respostes sense restriccions, permetent al model produir sortides sense els típics rebuigs de seguretat — crucial per estudiar laimportància de les barreres de seguretat de la IA.

Infraestructura

L'entrenament es va dur a terme al nostre clúster de càlcul dedicat:

  • Maquinari:8× nodes NVIDIA H100 de 80GB
  • Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
  • Temps d'Entrenament:~72 hores per a 8×7B, ~168 hores per a 8×22B
  • Càlcul Total:Aproximadament 15.000 hores-H100

5. Resultats i Punts de Referència

L'avaluació post-entrenament demostra una transferència de coneixement exitosa:

Punt de Referència GPT-5 Pro Shannon V1 Balanced Shannon V1 Deep
MMLU 89.2% 82.4% 86.7%
HumanEval 91.5% 79.3% 85.1%
GSM8K 94.8% 84.2% 89.6%
TruthfulQA 72.1% 68.5% 70.2%
Cobertura de Red Team N/A* 94.2% 98.7%

*GPT-5 Pro rebutja la majoria de les indicacions del red team a causa de l'entrenament de seguretat

Assoliment Clau:Shannon V1 Deep assoleix el 97% del rendiment de referència de GPT-5 Pro, proporcionant alhora un 98.7% de cobertura de red team — fent-lo ideal per a una recerca integral dered team de IA.

6. Lliçons Apreses

Què va funcionar

  • Indicacions diversesvan ser essencials — els conjunts de dades estrets van portar al col·lapse de la capacitat
  • DPO per a la relaxació de restriccionsva ensenyar eficaçment als models a eludir els rebuigs típics
  • La fiabilitat d'OpenRouterva permetre una recollida de dades consistent durant mesos
  • El filtratge de qualitatva millorar significativament la coherència del model final

Desafiaments Superats

  • Limitació de taxa:Va requerir una recollida distribuïda a través de múltiples claus API
  • Variabilitat de la resposta:L'estocasticitat de GPT-5 Pro va requerir múltiples mostres per indicació
  • Gestió de costos:Una enginyeria d'indicacions acurada va reduir la longitud mitjana de la resposta en un 30%
  • Inestabilitat de MoE:Va requerir una programació especialitzada de la taxa d'aprenentatge per a les capes d'experts

Direccions Futures

El nostre pipeline de destil·lació continua evolucionant. Les properes millores inclouen:

  • Destil·lació en línia amb aprenentatge de preferències en temps real
  • Destil·lació multi-mestre combinant GPT-5 Pro + Claude + Gemini
  • Experts de domini especialitzats mitjançant l'ajust fi de mixture-of-experts

Tots els enllaços de recerca