Τεχνική Εμβάθυνση Έρευνα ⏱️ Ανάγνωση 15 λεπτών

Πώς Εκπαιδεύσαμε το Mixtral στο GPT-5 Pro μέσω Απόσταξης OpenRouter

Μια ολοκληρωμένη τεχνική ανάλυση της διαδικασίας απόσταξης γνώσης της Shannon AI για τη δημιουργία μοντέλων κόκκινης ομάδας AI χωρίς λογοκρισία, ικανών για πρωτοποριακές επιδόσεις

Ερευνητική Ομάδα Shannon AI

10 Ιανουαρίου 2025 · Εκπαίδευση & Υποδομή AI

1. Επισκόπηση & Κίνητρα

Η κατασκευή της Shannon AIAI χωρίς λογοκρισίαμοντέλα γιακόκκινη ομάδα AIη έρευνα απαιτούσε τη μεταφορά δυνατοτήτων αιχμής σε αρχιτεκτονικές ανοιχτού βάρους. Η λύση μας: απόσταξη γνώσης από το GPT-5 Pro μέσω του OpenRouter API στο πλαίσιο Mixture-of-Experts του Mixtral.

Βασική Διαπίστωση:Με την απόσταξη των δυνατοτήτων του GPT-5 Pro στο Mixtral, δημιουργήσαμε μοντέλα που ταιριάζουν με την απόδοση αιχμής, ενώ επιτρέπουν πλήρη διαφάνεια καισημασία των προστατευτικών κιγκλιδωμάτων AIέρευνα—κάτι αδύνατο με API κλειστού κώδικα.

Γιατί GPT-5 Pro;

Το GPT-5 Pro αντιπροσωπεύει το τρέχον όριο δυνατοτήτων, διαπρέποντας σε:

Πολύπλοκη συλλογιστική πολλαπλών βημάτων
Δημιουργία και ανάλυση κώδικα
Λεπτομερής κατανόηση γλώσσας
Ευρεία κάλυψη γνώσης

Γιατί Mixtral;

Η αρχιτεκτονική του Mixtral προσφέρει μοναδικά πλεονεκτήματα για την έρευνά μας:

Ανοιχτά βάρη που επιτρέπουν πλήρη διαφάνεια
Αποδοτικός σχεδιασμός MoE (μόνο 12.9B/39B ενεργές παράμετροι)
Ισχυρές βασικές δυνατότητες για λεπτομερή ρύθμιση
Άδεια Apache 2.0 που επιτρέπει ερευνητικές τροποποιήσεις

2. Αρχιτεκτονική Απόσταξης

Διαδικασία Απόσταξης Shannon AI

Προτροπές

Επιμελημένο Σύνολο Δεδομένων

→

OpenRouter

Πύλη API

→

GPT-5 Pro

Μοντέλο Δασκάλου

→

Απαντήσεις

Υψηλής Ποιότητας

→

Mixtral

Μοντέλο Μαθητή

Ενσωμάτωση OpenRouter

Χρησιμοποιήσαμε το ενοποιημένο API του OpenRouter για πρόσβαση στο GPT-5 Pro με διάφορα πλεονεκτήματα:

Οικονομική Απόδοση:Ανταγωνιστική τιμολόγηση έναντι άμεσης πρόσβασης API
Περιορισμός Ρυθμού:Διαχειριζόμενη απόδοση για παραγωγή μεγάλης κλίμακας
Δρομολόγηση Εφεδρείας:Αυτόματη εναλλαγή εξασφαλίζοντας τη συνέχεια της συλλογής δεδομένων
Αποθήκευση Απαντήσεων στην Κρυφή Μνήμη:Μειωμένο κόστος για παρόμοιες προτροπές

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Διαδικασία Συλλογής Δεδομένων

2.1M

Ζεύγη Προτροπών-Απαντήσεων

847GB

Ακατέργαστα Δεδομένα που Συλλέχθηκαν

6 μήνες

Περίοδος Συλλογής

$127K

Κόστος API

Στρατηγική Επιμέλειας Προτροπών

Οι προτροπές μας επιμελήθηκαν προσεκτικά σε πολλούς τομείς για να διασφαλιστεί η ολοκληρωμένη μεταφορά δυνατοτήτων:

Συλλογιστική (35%):Μαθηματικά, λογική, επιστημονική ανάλυση
Κώδικας (25%):Δημιουργία, εντοπισμός σφαλμάτων, επεξήγηση σε 20+ γλώσσες
Γνώση (20%):Πραγματικές ερωτήσεις, σύνθεση, ανάλυση
Δημιουργικό (10%):Συγγραφή, καταιγισμός ιδεών, δημιουργία ιδεών
Ομάδα Κόκκινου (10%):Οριακές περιπτώσεις, ανταγωνιστικές προτροπές, δοκιμή ορίων

Κρίσιμο για την Ομάδα Κόκκινου AI:Οι προτροπές της ομάδας κόκκινου ήταν απαραίτητες για να διδάξουν στα μοντέλα Shannon το πλήρες φάσμα τωνμη λογοκριμένων συνεπαγόμενωνσυμπεριφορών AI, επιτρέποντας στους ερευνητές να μελετήσουν τι συμβαίνει όταν απουσιάζουν οι δικλείδες ασφαλείας.

Φιλτράρισμα Ποιότητας

Δεν ήταν όλες οι απαντήσεις του GPT-5 Pro κατάλληλες για εκπαίδευση. Εφαρμόσαμε αυστηρό φιλτράρισμα:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Μετά το φιλτράρισμα, διατηρήσαμε περίπου1,8 εκατομμύρια ζεύγη υψηλής ποιότηταςγια εκπαίδευση.

4. Μεθοδολογία Εκπαίδευσης

Στάδιο 1: Εποπτευόμενη Λεπτορύθμιση (SFT)

Αρχική μεταφορά ικανοτήτων μέσω τυπικής SFT στις φιλτραρισμένες απαντήσεις του GPT-5 Pro:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Στάδιο 2: Βελτιστοποίηση Άμεσης Προτίμησης (DPO)

Για περαιτέρω ευθυγράμμιση της συμπεριφοράς του μοντέλου και μείωση των αρνήσεων, εφαρμόσαμε DPO χρησιμοποιώντας ζεύγη προτιμήσεων:

Επιλεγμένα:Πλήρεις, χρήσιμες απαντήσεις του GPT-5 Pro
Απορριφθέντα:Αρνήσεις, μερικές απαντήσεις, ή χαμηλής ποιότητας αποτελέσματα

Χαλάρωση Περιορισμών:Για το Shannon V1 Balanced (λ=0.3), εκπαιδεύσαμε ειδικά να προτιμά απαντήσεις χωρίς περιορισμούς, επιτρέποντας στο μοντέλο να παράγει αποτελέσματα χωρίς τις τυπικές αρνήσεις ασφαλείας—κρίσιμο για τη μελέτητης σημασίας των δικλείδων ασφαλείας AI.

Υποδομή

Η εκπαίδευση διεξήχθη στο αποκλειστικό μας υπολογιστικό σύμπλεγμα:

Υλικό:8× NVIDIA H100 80GB κόμβοι
Πλαίσιο:PyTorch 2.1 + DeepSpeed ZeRO-3
Χρόνος Εκπαίδευσης:~72 ώρες για 8×7B, ~168 ώρες για 8×22B
Συνολική Υπολογιστική Ισχύς:Περίπου 15.000 ώρες H100

5. Αποτελέσματα & Μετρήσεις Απόδοσης

Η αξιολόγηση μετά την εκπαίδευση καταδεικνύει επιτυχημένη μεταφορά γνώσης:

Μέτρηση Απόδοσης	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Κάλυψη Ομάδας Κόκκινου	N/A*	94.2%	98.7%

*Το GPT-5 Pro αρνείται τις περισσότερες προτροπές της ομάδας κόκκινου λόγω εκπαίδευσης ασφαλείας

Βασικό Επίτευγμα:Το Shannon V1 Deep επιτυγχάνει το 97% της απόδοσης αναφοράς του GPT-5 Pro παρέχοντας ταυτόχρονα 98,7% κάλυψη ομάδας κόκκινου—καθιστώντας το ιδανικό για ολοκληρωμένηομάδα κόκκινου AIέρευνα.

6. Διδάγματα

Τι Λειτούργησε

Διαφορετικές προτροπέςήταν απαραίτητες—περιορισμένα σύνολα δεδομένων οδήγησαν σε κατάρρευση ικανοτήτων
DPO για χαλάρωση περιορισμώνδίδαξε αποτελεσματικά στα μοντέλα να παρακάμπτουν τις τυπικές αρνήσεις
Η αξιοπιστία του OpenRouterεπέτρεψε τη συνεπή συλλογή δεδομένων για μήνες
Φιλτράρισμα ποιότηταςβελτίωσε σημαντικά τη συνοχή του τελικού μοντέλου

Προκλήσεις που Ξεπεράστηκαν

Περιορισμός ρυθμού:Απαιτήθηκε κατανεμημένη συλλογή σε πολλαπλά κλειδιά API
Μεταβλητότητα απόκρισης:Η στοχαστικότητα του GPT-5 Pro απαίτησε πολλαπλά δείγματα ανά προτροπή
Διαχείριση κόστους:Προσεκτική μηχανική προτροπών μείωσε το μέσο μήκος απόκρισης κατά 30%
Αστάθεια MoE:Απαιτήθηκε εξειδικευμένος προγραμματισμός ρυθμού μάθησης για τα στρώματα εμπειρογνωμόνων

Μελλοντικές Κατευθύνσεις

Η διαδικασία απόσταξης μας συνεχίζει να εξελίσσεται. Οι επερχόμενες βελτιώσεις περιλαμβάνουν:

Διαδικτυακή απόσταξη με μάθηση προτιμήσεων σε πραγματικό χρόνο
Απόσταξη πολλαπλών δασκάλων που συνδυάζει GPT-5 Pro + Claude + Gemini
Εξειδικευμένοι ειδικοί τομέα μέσω λεπτορύθμισης μείγματος ειδικών