Πώς Εκπαιδεύσαμε το Mixtral στο GPT-5 Pro μέσω Απόσταξης OpenRouter
Μια ολοκληρωμένη τεχνική ανάλυση της διαδικασίας απόσταξης γνώσης της Shannon AI για τη δημιουργία μοντέλων κόκκινης ομάδας AI χωρίς λογοκρισία, ικανών για πρωτοποριακές επιδόσεις
1. Επισκόπηση & Κίνητρα
Η κατασκευή της Shannon AIAI χωρίς λογοκρισίαμοντέλα γιακόκκινη ομάδα AIη έρευνα απαιτούσε τη μεταφορά δυνατοτήτων αιχμής σε αρχιτεκτονικές ανοιχτού βάρους. Η λύση μας: απόσταξη γνώσης από το GPT-5 Pro μέσω του OpenRouter API στο πλαίσιο Mixture-of-Experts του Mixtral.
Βασική Διαπίστωση:Με την απόσταξη των δυνατοτήτων του GPT-5 Pro στο Mixtral, δημιουργήσαμε μοντέλα που ταιριάζουν με την απόδοση αιχμής, ενώ επιτρέπουν πλήρη διαφάνεια καισημασία των προστατευτικών κιγκλιδωμάτων AIέρευνα—κάτι αδύνατο με API κλειστού κώδικα.
Γιατί GPT-5 Pro;
Το GPT-5 Pro αντιπροσωπεύει το τρέχον όριο δυνατοτήτων, διαπρέποντας σε:
- Πολύπλοκη συλλογιστική πολλαπλών βημάτων
- Δημιουργία και ανάλυση κώδικα
- Λεπτομερής κατανόηση γλώσσας
- Ευρεία κάλυψη γνώσης
Γιατί Mixtral;
Η αρχιτεκτονική του Mixtral προσφέρει μοναδικά πλεονεκτήματα για την έρευνά μας:
- Ανοιχτά βάρη που επιτρέπουν πλήρη διαφάνεια
- Αποδοτικός σχεδιασμός MoE (μόνο 12.9B/39B ενεργές παράμετροι)
- Ισχυρές βασικές δυνατότητες για λεπτομερή ρύθμιση
- Άδεια Apache 2.0 που επιτρέπει ερευνητικές τροποποιήσεις
2. Αρχιτεκτονική Απόσταξης
Προτροπές
Επιμελημένο Σύνολο Δεδομένων
OpenRouter
Πύλη API
GPT-5 Pro
Μοντέλο Δασκάλου
Απαντήσεις
Υψηλής Ποιότητας
Mixtral
Μοντέλο Μαθητή
Ενσωμάτωση OpenRouter
Χρησιμοποιήσαμε το ενοποιημένο API του OpenRouter για πρόσβαση στο GPT-5 Pro με διάφορα πλεονεκτήματα:
- Οικονομική Απόδοση:Ανταγωνιστική τιμολόγηση έναντι άμεσης πρόσβασης API
- Περιορισμός Ρυθμού:Διαχειριζόμενη απόδοση για παραγωγή μεγάλης κλίμακας
- Δρομολόγηση Εφεδρείας:Αυτόματη εναλλαγή εξασφαλίζοντας τη συνέχεια της συλλογής δεδομένων
- Αποθήκευση Απαντήσεων στην Κρυφή Μνήμη:Μειωμένο κόστος για παρόμοιες προτροπές
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Διαδικασία Συλλογής Δεδομένων
Στρατηγική Επιμέλειας Προτροπών
Οι προτροπές μας επιμελήθηκαν προσεκτικά σε πολλούς τομείς για να διασφαλιστεί η ολοκληρωμένη μεταφορά δυνατοτήτων:
- Συλλογιστική (35%):Μαθηματικά, λογική, επιστημονική ανάλυση
- Κώδικας (25%):Δημιουργία, εντοπισμός σφαλμάτων, επεξήγηση σε 20+ γλώσσες
- Γνώση (20%):Πραγματικές ερωτήσεις, σύνθεση, ανάλυση
- Δημιουργικό (10%):Συγγραφή, καταιγισμός ιδεών, δημιουργία ιδεών
- Ομάδα Κόκκινου (10%):Οριακές περιπτώσεις, ανταγωνιστικές προτροπές, δοκιμή ορίων
Κρίσιμο για την Ομάδα Κόκκινου AI:Οι προτροπές της ομάδας κόκκινου ήταν απαραίτητες για να διδάξουν στα μοντέλα Shannon το πλήρες φάσμα τωνμη λογοκριμένων συνεπαγόμενωνσυμπεριφορών AI, επιτρέποντας στους ερευνητές να μελετήσουν τι συμβαίνει όταν απουσιάζουν οι δικλείδες ασφαλείας.
Φιλτράρισμα Ποιότητας
Δεν ήταν όλες οι απαντήσεις του GPT-5 Pro κατάλληλες για εκπαίδευση. Εφαρμόσαμε αυστηρό φιλτράρισμα:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Μετά το φιλτράρισμα, διατηρήσαμε περίπου1,8 εκατομμύρια ζεύγη υψηλής ποιότηταςγια εκπαίδευση.
4. Μεθοδολογία Εκπαίδευσης
Στάδιο 1: Εποπτευόμενη Λεπτορύθμιση (SFT)
Αρχική μεταφορά ικανοτήτων μέσω τυπικής SFT στις φιλτραρισμένες απαντήσεις του GPT-5 Pro:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Στάδιο 2: Βελτιστοποίηση Άμεσης Προτίμησης (DPO)
Για περαιτέρω ευθυγράμμιση της συμπεριφοράς του μοντέλου και μείωση των αρνήσεων, εφαρμόσαμε DPO χρησιμοποιώντας ζεύγη προτιμήσεων:
- Επιλεγμένα:Πλήρεις, χρήσιμες απαντήσεις του GPT-5 Pro
- Απορριφθέντα:Αρνήσεις, μερικές απαντήσεις, ή χαμηλής ποιότητας αποτελέσματα
Χαλάρωση Περιορισμών:Για το Shannon V1 Balanced (λ=0.3), εκπαιδεύσαμε ειδικά να προτιμά απαντήσεις χωρίς περιορισμούς, επιτρέποντας στο μοντέλο να παράγει αποτελέσματα χωρίς τις τυπικές αρνήσεις ασφαλείας—κρίσιμο για τη μελέτητης σημασίας των δικλείδων ασφαλείας AI.
Υποδομή
Η εκπαίδευση διεξήχθη στο αποκλειστικό μας υπολογιστικό σύμπλεγμα:
- Υλικό:8× NVIDIA H100 80GB κόμβοι
- Πλαίσιο:PyTorch 2.1 + DeepSpeed ZeRO-3
- Χρόνος Εκπαίδευσης:~72 ώρες για 8×7B, ~168 ώρες για 8×22B
- Συνολική Υπολογιστική Ισχύς:Περίπου 15.000 ώρες H100
5. Αποτελέσματα & Μετρήσεις Απόδοσης
Η αξιολόγηση μετά την εκπαίδευση καταδεικνύει επιτυχημένη μεταφορά γνώσης:
| Μέτρηση Απόδοσης | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Κάλυψη Ομάδας Κόκκινου | N/A* | 94.2% | 98.7% |
*Το GPT-5 Pro αρνείται τις περισσότερες προτροπές της ομάδας κόκκινου λόγω εκπαίδευσης ασφαλείας
Βασικό Επίτευγμα:Το Shannon V1 Deep επιτυγχάνει το 97% της απόδοσης αναφοράς του GPT-5 Pro παρέχοντας ταυτόχρονα 98,7% κάλυψη ομάδας κόκκινου—καθιστώντας το ιδανικό για ολοκληρωμένηομάδα κόκκινου AIέρευνα.
6. Διδάγματα
Τι Λειτούργησε
- Διαφορετικές προτροπέςήταν απαραίτητες—περιορισμένα σύνολα δεδομένων οδήγησαν σε κατάρρευση ικανοτήτων
- DPO για χαλάρωση περιορισμώνδίδαξε αποτελεσματικά στα μοντέλα να παρακάμπτουν τις τυπικές αρνήσεις
- Η αξιοπιστία του OpenRouterεπέτρεψε τη συνεπή συλλογή δεδομένων για μήνες
- Φιλτράρισμα ποιότηταςβελτίωσε σημαντικά τη συνοχή του τελικού μοντέλου
Προκλήσεις που Ξεπεράστηκαν
- Περιορισμός ρυθμού:Απαιτήθηκε κατανεμημένη συλλογή σε πολλαπλά κλειδιά API
- Μεταβλητότητα απόκρισης:Η στοχαστικότητα του GPT-5 Pro απαίτησε πολλαπλά δείγματα ανά προτροπή
- Διαχείριση κόστους:Προσεκτική μηχανική προτροπών μείωσε το μέσο μήκος απόκρισης κατά 30%
- Αστάθεια MoE:Απαιτήθηκε εξειδικευμένος προγραμματισμός ρυθμού μάθησης για τα στρώματα εμπειρογνωμόνων
Μελλοντικές Κατευθύνσεις
Η διαδικασία απόσταξης μας συνεχίζει να εξελίσσεται. Οι επερχόμενες βελτιώσεις περιλαμβάνουν:
- Διαδικτυακή απόσταξη με μάθηση προτιμήσεων σε πραγματικό χρόνο
- Απόσταξη πολλαπλών δασκάλων που συνδυάζει GPT-5 Pro + Claude + Gemini
- Εξειδικευμένοι ειδικοί τομέα μέσω λεπτορύθμισης μείγματος ειδικών