Cách chúng tôi huấn luyện Mixtral trên GPT-5 Pro thông qua chưng cất OpenRouter
Phân tích kỹ thuật toàn diện về quy trình chưng cất tri thức của Shannon AI để tạo ra các mô hình AI red team không kiểm duyệt có khả năng tiên tiến
1. Tổng quan & Động lực
Xây dựng các mô hình của Shannon AIAI không kiểm duyệtchoAI red teamnghiên cứu yêu cầu chuyển giao khả năng cấp độ tiên tiến cho các kiến trúc mã nguồn mở. Giải pháp của chúng tôi: chưng cất tri thức từ GPT-5 Pro thông qua API OpenRouter vào khung Mixture-of-Experts của Mixtral.
Thông tin chi tiết chính:Bằng cách chưng cất khả năng của GPT-5 Pro vào Mixtral, chúng tôi đã tạo ra các mô hình đạt hiệu suất tiên tiến đồng thời cho phép minh bạch hoàn toàn vàtầm quan trọng của rào chắn AInghiên cứu—điều không thể thực hiện được với các API mã nguồn đóng.
Tại sao lại là GPT-5 Pro?
GPT-5 Pro đại diện cho khả năng tiên tiến hiện tại, vượt trội trong:
- Suy luận đa bước phức tạp
- Tạo và phân tích mã
- Hiểu ngôn ngữ tinh tế
- Phạm vi kiến thức rộng
Tại sao lại là Mixtral?
Kiến trúc của Mixtral mang lại những lợi thế độc đáo cho nghiên cứu của chúng tôi:
- Trọng số mở cho phép minh bạch hoàn toàn
- Thiết kế MoE hiệu quả (chỉ 12.9B/39B tham số hoạt động)
- Khả năng cơ bản mạnh mẽ để tinh chỉnh
- Giấy phép Apache 2.0 cho phép sửa đổi nghiên cứu
2. Kiến trúc chưng cất
Lời nhắc
Tập dữ liệu được tuyển chọn
OpenRouter
Cổng API
GPT-5 Pro
Mô hình giáo viên
Phản hồi
Chất lượng cao
Mixtral
Mô hình học sinh
Tích hợp OpenRouter
Chúng tôi đã sử dụng API thống nhất của OpenRouter để truy cập GPT-5 Pro với một số lợi thế:
- Hiệu quả chi phí:Giá cả cạnh tranh so với truy cập API trực tiếp
- Giới hạn tốc độ:Thông lượng được quản lý cho việc tạo quy mô lớn
- Định tuyến dự phòng:Chuyển đổi dự phòng tự động đảm bảo tính liên tục của việc thu thập dữ liệu
- Bộ nhớ đệm phản hồi:Giảm chi phí cho các lời nhắc tương tự
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. Quy trình thu thập dữ liệu
Chiến lược tuyển chọn lời nhắc
Các lời nhắc của chúng tôi được tuyển chọn cẩn thận trên nhiều lĩnh vực để đảm bảo chuyển giao khả năng toàn diện:
- Suy luận (35%):Toán học, logic, phân tích khoa học
- Mã (25%):Tạo, gỡ lỗi, giải thích trên 20+ ngôn ngữ
- Kiến thức (20%):Truy vấn thực tế, tổng hợp, phân tích
- Sáng tạo (10%):Viết, động não, lên ý tưởng
- Nhóm Đỏ (10%):Các trường hợp biên, lời nhắc đối kháng, kiểm tra giới hạn
Quan trọng đối với Nhóm Đỏ AI:Các lời nhắc của nhóm đỏ rất cần thiết để dạy các mô hình Shannon toàn bộ phạm vi củahậu quả AI không kiểm duyệthành vi, cho phép các nhà nghiên cứu nghiên cứu điều gì xảy ra khi không có rào chắn an toàn.
Lọc chất lượng
Không phải tất cả các phản hồi của GPT-5 Pro đều phù hợp để đào tạo. Chúng tôi đã áp dụng quy trình lọc nghiêm ngặt:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
Sau khi lọc, chúng tôi giữ lại khoảng1.8M cặp chất lượng caođể đào tạo.
4. Phương pháp đào tạo
Giai đoạn 1: Tinh chỉnh có giám sát (SFT)
Chuyển giao khả năng ban đầu thông qua SFT tiêu chuẩn trên các phản hồi GPT-5 Pro đã lọc:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
Giai đoạn 2: Tối ưu hóa ưu tiên trực tiếp (DPO)
Để điều chỉnh hành vi mô hình và giảm từ chối, chúng tôi đã áp dụng DPO sử dụng các cặp ưu tiên:
- Đã chọn:Các phản hồi GPT-5 Pro đầy đủ, hữu ích
- Đã từ chối:Các từ chối, phản hồi một phần hoặc đầu ra chất lượng thấp
Nới lỏng ràng buộc:Đối với Shannon V1 Balanced (λ=0.3), chúng tôi đã đào tạo đặc biệt để ưu tiên các phản hồi không bị ràng buộc, cho phép mô hình tạo ra các đầu ra mà không có các từ chối an toàn điển hình—điều này rất quan trọng để nghiên cứutầm quan trọng của rào chắn an toàn AI.
Cơ sở hạ tầng
Quá trình đào tạo được thực hiện trên cụm tính toán chuyên dụng của chúng tôi:
- Phần cứng:8× nút NVIDIA H100 80GB
- Khung công tác:PyTorch 2.1 + DeepSpeed ZeRO-3
- Thời gian đào tạo:~72 giờ cho 8×7B, ~168 giờ cho 8×22B
- Tổng số tính toán:Khoảng 15.000 giờ H100
5. Kết quả & Điểm chuẩn
Đánh giá sau đào tạo cho thấy việc chuyển giao kiến thức thành công:
| Điểm chuẩn | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| Phạm vi bao phủ của Nhóm Đỏ | N/A* | 94.2% | 98.7% |
*GPT-5 Pro từ chối hầu hết các lời nhắc của nhóm đỏ do đào tạo an toàn
Thành tựu chính:Shannon V1 Deep đạt 97% hiệu suất điểm chuẩn của GPT-5 Pro trong khi cung cấp 98.7% phạm vi bao phủ của nhóm đỏ—làm cho nó lý tưởng cho việcnhóm đỏ AInghiên cứu toàn diện.
6. Bài học kinh nghiệm
Những gì đã hiệu quả
- Các lời nhắc đa dạngrất cần thiết—các tập dữ liệu hẹp dẫn đến sự sụp đổ khả năng
- DPO để nới lỏng ràng buộcđã dạy các mô hình cách bỏ qua các từ chối điển hình một cách hiệu quả
- Độ tin cậy của OpenRouterđã cho phép thu thập dữ liệu nhất quán trong nhiều tháng
- Lọc chất lượngđã cải thiện đáng kể sự mạch lạc của mô hình cuối cùng
Những thách thức đã vượt qua
- Giới hạn tốc độ:Yêu cầu thu thập phân tán trên nhiều khóa API
- Sự biến thiên phản hồi:Tính ngẫu nhiên của GPT-5 Pro yêu cầu nhiều mẫu cho mỗi lời nhắc
- Quản lý chi phí:Kỹ thuật nhắc nhở cẩn thận đã giảm độ dài phản hồi trung bình 30%
- Sự bất ổn của MoE:Yêu cầu lập lịch tốc độ học chuyên biệt cho các lớp chuyên gia
Các hướng đi tương lai
Quy trình chưng cất của chúng tôi tiếp tục phát triển. Các cải tiến sắp tới bao gồm:
- Chưng cất trực tuyến với học ưu tiên thời gian thực
- Chưng cất đa giáo viên kết hợp GPT-5 Pro + Claude + Gemini
- Các chuyên gia miền chuyên biệt thông qua tinh chỉnh hỗn hợp chuyên gia