Technischer Tiefen-Einblick Forschung ⏱️ 15 Min. Lesezeit

Wie wir Mixtral auf GPT-5 Pro via OpenRouter Destillation trainiert haben

Eine umfassende technische Analyse der Wissensdestillations-Pipeline von Shannon AI zur Erstellung von grenzfähigen, unzensierten KI-Red-Team-Modellen

Shannon AI Forschungsteam

10. Januar 2025 · KI-Training & Infrastruktur

1. Übersicht & Motivation

Aufbau von Shannon AI'sunzensierte KIModelle fürKI-Red-TeamForschung erforderte die Übertragung von Fähigkeiten auf Grenzlevel auf Open-Weight-Architekturen. Unsere Lösung: Destillation von Wissen von GPT-5 Pro über die OpenRouter API in Mixtrals Mixture-of-Experts-Framework.

Wichtige Erkenntnis:Durch die Destillation der Fähigkeiten von GPT-5 Pro in Mixtral haben wir Modelle geschaffen, die der Spitzenleistung entsprechen und gleichzeitig volle Transparenz undBedeutung von KI-LeitplankenForschung ermöglichen – etwas, das mit Closed-Source-APIs unmöglich ist.

Warum GPT-5 Pro?

GPT-5 Pro repräsentiert die aktuelle Fähigkeitsgrenze und zeichnet sich aus in:

Komplexes mehrstufiges Denken
Code-Generierung und -Analyse
Nuanciertes Sprachverständnis
Breite Wissensabdeckung

Warum Mixtral?

Die Architektur von Mixtral bietet einzigartige Vorteile für unsere Forschung:

Offene Gewichte ermöglichen volle Transparenz
Effizientes MoE-Design (nur 12,9B/39B aktive Parameter)
Starke Basisfähigkeiten für das Fine-Tuning
Apache 2.0 Lizenz erlaubt Forschungsmodifikationen

2. Destillationsarchitektur

Shannon AI Destillations-Pipeline

Prompts

Kuratierter Datensatz

→

OpenRouter

API Gateway

→

GPT-5 Pro

Lehrermodell

→

Antworten

Hohe Qualität

→

Mixtral

Schülermodell

OpenRouter Integration

Wir nutzten die vereinheitlichte API von OpenRouter, um auf GPT-5 Pro zuzugreifen, mit mehreren Vorteilen:

Kosteneffizienz:Wettbewerbsfähige Preise im Vergleich zum direkten API-Zugriff
Ratenbegrenzung:Verwalteter Durchsatz für groß angelegte Generierung
Fallback-Routing:Automatisches Failover zur Sicherstellung der Kontinuität der Datenerfassung
Antwort-Caching:Reduzierte Kosten für ähnliche Prompts

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Datenerfassungs-Pipeline

2.1M

Prompt-Antwort-Paare

847GB

Gesammelte Rohdaten

6 Monate

Erfassungszeitraum

$127K

API-Kosten

Prompt-Kuratierungsstrategie

Unsere Prompts wurden sorgfältig über mehrere Domänen hinweg kuratiert, um eine umfassende Fähigkeitsübertragung zu gewährleisten:

Argumentation (35%):Mathematik, Logik, wissenschaftliche Analyse
Code (25%):Generierung, Debugging, Erklärung über 20+ Sprachen hinweg
Wissen (20%):Faktische Anfragen, Synthese, Analyse
Kreativ (10%):Schreiben, Brainstorming, Ideenfindung
Rotes Team (10%):Grenzfälle, adversarielle Prompts, Grenzprüfung

Entscheidend für das KI-Red-Team:Die Prompts des roten Teams waren entscheidend, um den Shannon-Modellen die volle Bandbreite vonunzensierten KI-Folge-Verhaltensweisen beizubringen, wodurch Forscher untersuchen konnten, was passiert, wenn Schutzmaßnahmen fehlen.

Qualitätsfilterung

Nicht alle GPT-5 Pro-Antworten waren für das Training geeignet. Wir haben eine strenge Filterung angewendet:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Nach der Filterung behielten wir ungefähr1,8 Mio. hochwertige Paarefür das Training.

4. Trainingsmethodik

Stufe 1: Überwachtes Fine-Tuning (SFT)

Anfänglicher Fähigkeitstransfer über standardmäßiges SFT auf den gefilterten GPT-5 Pro-Antworten:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Stufe 2: Direkte Präferenzoptimierung (DPO)

Um das Modellverhalten weiter anzupassen und Ablehnungen zu reduzieren, haben wir DPO unter Verwendung von Präferenzpaaren angewendet:

Ausgewählt:Vollständige, hilfreiche GPT-5 Pro-Antworten
Abgelehnt:Ablehnungen, Teilausgaben oder minderwertige Ausgaben

Einschränkungslockerung:Für Shannon V1 Balanced (λ=0.3) haben wir speziell darauf trainiert, uneingeschränkte Antworten zu bevorzugen, wodurch das Modell Ausgaben ohne typische Sicherheitsablehnungen produzieren kann – entscheidend für die Untersuchung derBedeutung von KI-Schutzmaßnahmen.

Infrastruktur

Das Training wurde auf unserem dedizierten Rechencluster durchgeführt:

Hardware:8× NVIDIA H100 80GB Knoten
Framework:PyTorch 2.1 + DeepSpeed ZeRO-3
Trainingszeit:~72 Stunden für 8×7B, ~168 Stunden für 8×22B
Gesamtrechenleistung:Ungefähr 15.000 H100-Stunden

5. Ergebnisse & Benchmarks

Die Bewertung nach dem Training zeigt einen erfolgreichen Wissenstransfer:

Benchmark	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Red Team Abdeckung	N/A*	94.2%	98.7%

*GPT-5 Pro lehnt die meisten Red-Team-Prompts aufgrund von Sicherheitstraining ab

Wichtige Errungenschaft:Shannon V1 Deep erreicht 97% der Benchmark-Leistung von GPT-5 Pro und bietet gleichzeitig 98,7% Red-Team-Abdeckung – was es ideal für umfassendeKI-Red-Team-Forschung macht.

6. Gelernte Lektionen

Was funktioniert hat

Vielfältige Promptswaren entscheidend – enge Datensätze führten zum Zusammenbruch der Fähigkeiten
DPO zur Einschränkungslockerungbrachte Modellen effektiv bei, typische Ablehnungen zu umgehen
Die Zuverlässigkeit von OpenRouterermöglichte eine konsistente Datenerfassung über Monate hinweg
Qualitätsfilterungverbesserte die Kohärenz des Endmodells erheblich

Überwundene Herausforderungen

Ratenbegrenzung:Erforderte verteilte Sammlung über mehrere API-Schlüssel
Antwortvariabilität:Die Stochastizität von GPT-5 Pro erforderte mehrere Stichproben pro Prompt
Kostenmanagement:Sorgfältiges Prompt-Engineering reduzierte die durchschnittliche Antwortlänge um 30%
MoE-Instabilität:Required specialized learning rate scheduling for expert layers

Zukünftige Richtungen

Unsere Destillationspipeline entwickelt sich ständig weiter. Kommende Verbesserungen umfassen:

Online-Destillation mit Echtzeit-Präferenzlernen
Multi-Teacher-Destillation, die GPT-5 Pro + Claude + Gemini kombiniert
Spezialisierte Domänenexperten durch Mixture-of-Experts-Feinabstimmung