Phân tích chuyên sâu kỹ thuật Nghiên cứu ⏱️ 15 phút đọc

Cách chúng tôi huấn luyện Mixtral trên GPT-5 Pro thông qua chưng cất OpenRouter

Phân tích kỹ thuật toàn diện về quy trình chưng cất tri thức của Shannon AI để tạo ra các mô hình AI red team không kiểm duyệt có khả năng tiên tiến

Nhóm nghiên cứu Shannon AI

Ngày 10 tháng 1 năm 2025 · Huấn luyện & Cơ sở hạ tầng AI

1. Tổng quan & Động lực

Xây dựng các mô hình của Shannon AIAI không kiểm duyệtchoAI red teamnghiên cứu yêu cầu chuyển giao khả năng cấp độ tiên tiến cho các kiến trúc mã nguồn mở. Giải pháp của chúng tôi: chưng cất tri thức từ GPT-5 Pro thông qua API OpenRouter vào khung Mixture-of-Experts của Mixtral.

Thông tin chi tiết chính:Bằng cách chưng cất khả năng của GPT-5 Pro vào Mixtral, chúng tôi đã tạo ra các mô hình đạt hiệu suất tiên tiến đồng thời cho phép minh bạch hoàn toàn vàtầm quan trọng của rào chắn AInghiên cứu—điều không thể thực hiện được với các API mã nguồn đóng.

Tại sao lại là GPT-5 Pro?

GPT-5 Pro đại diện cho khả năng tiên tiến hiện tại, vượt trội trong:

Suy luận đa bước phức tạp
Tạo và phân tích mã
Hiểu ngôn ngữ tinh tế
Phạm vi kiến thức rộng

Tại sao lại là Mixtral?

Kiến trúc của Mixtral mang lại những lợi thế độc đáo cho nghiên cứu của chúng tôi:

Trọng số mở cho phép minh bạch hoàn toàn
Thiết kế MoE hiệu quả (chỉ 12.9B/39B tham số hoạt động)
Khả năng cơ bản mạnh mẽ để tinh chỉnh
Giấy phép Apache 2.0 cho phép sửa đổi nghiên cứu

2. Kiến trúc chưng cất

Quy trình chưng cất của Shannon AI

Lời nhắc

Tập dữ liệu được tuyển chọn

→

OpenRouter

Cổng API

→

GPT-5 Pro

Mô hình giáo viên

→

Phản hồi

Chất lượng cao

→

Mixtral

Mô hình học sinh

Tích hợp OpenRouter

Chúng tôi đã sử dụng API thống nhất của OpenRouter để truy cập GPT-5 Pro với một số lợi thế:

Hiệu quả chi phí:Giá cả cạnh tranh so với truy cập API trực tiếp
Giới hạn tốc độ:Thông lượng được quản lý cho việc tạo quy mô lớn
Định tuyến dự phòng:Chuyển đổi dự phòng tự động đảm bảo tính liên tục của việc thu thập dữ liệu
Bộ nhớ đệm phản hồi:Giảm chi phí cho các lời nhắc tương tự

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

3. Quy trình thu thập dữ liệu

2.1M

Cặp lời nhắc-phản hồi

847GB

Dữ liệu thô đã thu thập

6 tháng

Thời gian thu thập

$127K

Chi phí API

Chiến lược tuyển chọn lời nhắc

Các lời nhắc của chúng tôi được tuyển chọn cẩn thận trên nhiều lĩnh vực để đảm bảo chuyển giao khả năng toàn diện:

Suy luận (35%):Toán học, logic, phân tích khoa học
Mã (25%):Tạo, gỡ lỗi, giải thích trên 20+ ngôn ngữ
Kiến thức (20%):Truy vấn thực tế, tổng hợp, phân tích
Sáng tạo (10%):Viết, động não, lên ý tưởng
Nhóm Đỏ (10%):Các trường hợp biên, lời nhắc đối kháng, kiểm tra giới hạn

Quan trọng đối với Nhóm Đỏ AI:Các lời nhắc của nhóm đỏ rất cần thiết để dạy các mô hình Shannon toàn bộ phạm vi củahậu quả AI không kiểm duyệthành vi, cho phép các nhà nghiên cứu nghiên cứu điều gì xảy ra khi không có rào chắn an toàn.

Lọc chất lượng

Không phải tất cả các phản hồi của GPT-5 Pro đều phù hợp để đào tạo. Chúng tôi đã áp dụng quy trình lọc nghiêm ngặt:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

Sau khi lọc, chúng tôi giữ lại khoảng1.8M cặp chất lượng caođể đào tạo.

4. Phương pháp đào tạo

Giai đoạn 1: Tinh chỉnh có giám sát (SFT)

Chuyển giao khả năng ban đầu thông qua SFT tiêu chuẩn trên các phản hồi GPT-5 Pro đã lọc:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

Giai đoạn 2: Tối ưu hóa ưu tiên trực tiếp (DPO)

Để điều chỉnh hành vi mô hình và giảm từ chối, chúng tôi đã áp dụng DPO sử dụng các cặp ưu tiên:

Đã chọn:Các phản hồi GPT-5 Pro đầy đủ, hữu ích
Đã từ chối:Các từ chối, phản hồi một phần hoặc đầu ra chất lượng thấp

Nới lỏng ràng buộc:Đối với Shannon V1 Balanced (λ=0.3), chúng tôi đã đào tạo đặc biệt để ưu tiên các phản hồi không bị ràng buộc, cho phép mô hình tạo ra các đầu ra mà không có các từ chối an toàn điển hình—điều này rất quan trọng để nghiên cứutầm quan trọng của rào chắn an toàn AI.

Cơ sở hạ tầng

Quá trình đào tạo được thực hiện trên cụm tính toán chuyên dụng của chúng tôi:

Phần cứng:8× nút NVIDIA H100 80GB
Khung công tác:PyTorch 2.1 + DeepSpeed ZeRO-3
Thời gian đào tạo:~72 giờ cho 8×7B, ~168 giờ cho 8×22B
Tổng số tính toán:Khoảng 15.000 giờ H100

5. Kết quả & Điểm chuẩn

Đánh giá sau đào tạo cho thấy việc chuyển giao kiến thức thành công:

Điểm chuẩn	GPT-5 Pro	Shannon V1 Balanced	Shannon V1 Deep
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
Phạm vi bao phủ của Nhóm Đỏ	N/A*	94.2%	98.7%

*GPT-5 Pro từ chối hầu hết các lời nhắc của nhóm đỏ do đào tạo an toàn

Thành tựu chính:Shannon V1 Deep đạt 97% hiệu suất điểm chuẩn của GPT-5 Pro trong khi cung cấp 98.7% phạm vi bao phủ của nhóm đỏ—làm cho nó lý tưởng cho việcnhóm đỏ AInghiên cứu toàn diện.

6. Bài học kinh nghiệm

Những gì đã hiệu quả

Các lời nhắc đa dạngrất cần thiết—các tập dữ liệu hẹp dẫn đến sự sụp đổ khả năng
DPO để nới lỏng ràng buộcđã dạy các mô hình cách bỏ qua các từ chối điển hình một cách hiệu quả
Độ tin cậy của OpenRouterđã cho phép thu thập dữ liệu nhất quán trong nhiều tháng
Lọc chất lượngđã cải thiện đáng kể sự mạch lạc của mô hình cuối cùng

Những thách thức đã vượt qua

Giới hạn tốc độ:Yêu cầu thu thập phân tán trên nhiều khóa API
Sự biến thiên phản hồi:Tính ngẫu nhiên của GPT-5 Pro yêu cầu nhiều mẫu cho mỗi lời nhắc
Quản lý chi phí:Kỹ thuật nhắc nhở cẩn thận đã giảm độ dài phản hồi trung bình 30%
Sự bất ổn của MoE:Yêu cầu lập lịch tốc độ học chuyên biệt cho các lớp chuyên gia

Các hướng đi tương lai

Quy trình chưng cất của chúng tôi tiếp tục phát triển. Các cải tiến sắp tới bao gồm:

Chưng cất trực tuyến với học ưu tiên thời gian thực
Chưng cất đa giáo viên kết hợp GPT-5 Pro + Claude + Gemini
Các chuyên gia miền chuyên biệt thông qua tinh chỉnh hỗn hợp chuyên gia