ਅਸੀਂ ਓਪਨਰਾਊਟਰ ਡਿਸਟਿਲੇਸ਼ਨ ਰਾਹੀਂ GPT-5 ਪ੍ਰੋ 'ਤੇ ਮਿਕਸਟ੍ਰਲ ਨੂੰ ਕਿਵੇਂ ਸਿਖਲਾਈ ਦਿੱਤੀ
ਸ਼ੈਨਨ ਏਆਈ ਦੀ ਗਿਆਨ ਡਿਸਟਿਲੇਸ਼ਨ ਪਾਈਪਲਾਈਨ ਦਾ ਇੱਕ ਵਿਆਪਕ ਤਕਨੀਕੀ ਵਿਸ਼ਲੇਸ਼ਣ ਸਰਹੱਦੀ-ਸਮਰੱਥ ਅਣਸੈਂਸਰਡ ਏਆਈ ਰੈੱਡ ਟੀਮ ਮਾਡਲ ਬਣਾਉਣ ਲਈ
1. ਸੰਖੇਪ ਜਾਣਕਾਰੀ ਅਤੇ ਪ੍ਰੇਰਣਾ
ਸ਼ੈਨਨ ਏਆਈ ਦਾ ਨਿਰਮਾਣਅਣਸੈਂਸਰਡ ਏਆਈਲਈ ਮਾਡਲਏਆਈ ਰੈੱਡ ਟੀਮਖੋਜ ਲਈ ਸਰਹੱਦੀ-ਪੱਧਰ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਓਪਨ-ਵੇਟ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ ਤਬਦੀਲ ਕਰਨ ਦੀ ਲੋੜ ਸੀ। ਸਾਡਾ ਹੱਲ: ਓਪਨਰਾਊਟਰ API ਰਾਹੀਂ GPT-5 ਪ੍ਰੋ ਤੋਂ ਗਿਆਨ ਨੂੰ ਮਿਕਸਟ੍ਰਲ ਦੇ ਮਿਕਸਚਰ-ਆਫ-ਐਕਸਪਰਟਸ ਫਰੇਮਵਰਕ ਵਿੱਚ ਡਿਸਟਿਲ ਕਰਨਾ।
ਮੁੱਖ ਸੂਝ:GPT-5 ਪ੍ਰੋ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਿਕਸਟ੍ਰਲ ਵਿੱਚ ਡਿਸਟਿਲ ਕਰਕੇ, ਅਸੀਂ ਅਜਿਹੇ ਮਾਡਲ ਬਣਾਏ ਜੋ ਸਰਹੱਦੀ ਪ੍ਰਦਰਸ਼ਨ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ ਜਦੋਂ ਕਿ ਪੂਰੀ ਪਾਰਦਰਸ਼ਤਾ ਅਤੇਏਆਈ ਗਾਰਡਰੇਲ ਦੀ ਮਹੱਤਤਾਖੋਜ—ਜੋ ਕਿ ਬੰਦ-ਸਰੋਤ API ਨਾਲ ਅਸੰਭਵ ਹੈ।
GPT-5 ਪ੍ਰੋ ਕਿਉਂ?
GPT-5 ਪ੍ਰੋ ਮੌਜੂਦਾ ਸਮਰੱਥਾ ਦੀ ਸਰਹੱਦ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਉੱਤਮ ਹੈ:
- ਗੁੰਝਲਦਾਰ ਬਹੁ-ਪੜਾਵੀ ਤਰਕ
- ਕੋਡ ਉਤਪਾਦਨ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ
- ਸੂਖਮ ਭਾਸ਼ਾਈ ਸਮਝ
- ਵਿਆਪਕ ਗਿਆਨ ਕਵਰੇਜ
ਮਿਕਸਟ੍ਰਲ ਕਿਉਂ?
ਮਿਕਸਟ੍ਰਲ ਦਾ ਆਰਕੀਟੈਕਚਰ ਸਾਡੀ ਖੋਜ ਲਈ ਵਿਲੱਖਣ ਫਾਇਦੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ:
- ਪੂਰੀ ਪਾਰਦਰਸ਼ਤਾ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਣ ਵਾਲੇ ਓਪਨ ਵੇਟਸ
- ਕੁਸ਼ਲ MoE ਡਿਜ਼ਾਈਨ (ਸਿਰਫ਼ 12.9B/39B ਕਿਰਿਆਸ਼ੀਲ ਪੈਰਾਮੀਟਰ)
- ਫਾਈਨ-ਟਿਊਨਿੰਗ ਲਈ ਮਜ਼ਬੂਤ ਬੇਸਲਾਈਨ ਸਮਰੱਥਾਵਾਂ
- ਅਪਾਚੇ 2.0 ਲਾਇਸੈਂਸ ਖੋਜ ਸੋਧਾਂ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ
2. ਡਿਸਟਿਲੇਸ਼ਨ ਆਰਕੀਟੈਕਚਰ
ਪ੍ਰੋਂਪਟ
ਕਿਊਰੇਟਿਡ ਡਾਟਾਸੈੱਟ
ਓਪਨਰਾਊਟਰ
API ਗੇਟਵੇ
GPT-5 ਪ੍ਰੋ
ਅਧਿਆਪਕ ਮਾਡਲ
ਜਵਾਬ
ਉੱਚ-ਗੁਣਵੱਤਾ
ਮਿਕਸਟ੍ਰਲ
ਵਿਦਿਆਰਥੀ ਮਾਡਲ
ਓਪਨਰਾਊਟਰ ਏਕੀਕਰਣ
ਅਸੀਂ ਕਈ ਫਾਇਦਿਆਂ ਦੇ ਨਾਲ GPT-5 ਪ੍ਰੋ ਤੱਕ ਪਹੁੰਚ ਕਰਨ ਲਈ ਓਪਨਰਾਊਟਰ ਦੇ ਯੂਨੀਫਾਈਡ API ਦੀ ਵਰਤੋਂ ਕੀਤੀ:
- ਲਾਗਤ ਕੁਸ਼ਲਤਾ:ਸਿੱਧੀ API ਪਹੁੰਚ ਦੇ ਮੁਕਾਬਲੇ ਪ੍ਰਤੀਯੋਗੀ ਕੀਮਤ
- ਰੇਟ ਸੀਮਾ:ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਉਤਪਾਦਨ ਲਈ ਪ੍ਰਬੰਧਿਤ ਥਰੂਪੁੱਟ
- ਫਾਲਬੈਕ ਰੂਟਿੰਗ:ਡਾਟਾ ਸੰਗ੍ਰਹਿ ਦੀ ਨਿਰੰਤਰਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਵਾਲਾ ਆਟੋਮੈਟਿਕ ਫੇਲਓਵਰ
- ਜਵਾਬ ਕੈਚਿੰਗ:ਸਮਾਨ ਪ੍ਰੋਂਪਟਾਂ ਲਈ ਘਟੀਆਂ ਲਾਗਤਾਂ
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. ਡਾਟਾ ਸੰਗ੍ਰਹਿ ਪਾਈਪਲਾਈਨ
ਪ੍ਰੋਂਪਟ ਕਿਊਰੇਸ਼ਨ ਰਣਨੀਤੀ
ਸਾਡੇ ਪ੍ਰੋਂਪਟਾਂ ਨੂੰ ਕਈ ਡੋਮੇਨਾਂ ਵਿੱਚ ਧਿਆਨ ਨਾਲ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ ਤਾਂ ਜੋ ਵਿਆਪਕ ਸਮਰੱਥਾ ਤਬਾਦਲੇ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ:
- ਤਰਕ (35%):ਗਣਿਤ, ਤਰਕ, ਵਿਗਿਆਨਕ ਵਿਸ਼ਲੇਸ਼ਣ
- ਕੋਡ (25%):ਉਤਪਾਦਨ, ਡੀਬੱਗਿੰਗ, 20+ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਵਿਆਖਿਆ
- ਗਿਆਨ (20%):ਤੱਥਾਂ ਦੀਆਂ ਪੁੱਛਗਿੱਛਾਂ, ਸੰਸ਼ਲੇਸ਼ਣ, ਵਿਸ਼ਲੇਸ਼ਣ
- ਰਚਨਾਤਮਕ (10%):ਲਿਖਣਾ, ਵਿਚਾਰ-ਵਟਾਂਦਰਾ, ਵਿਚਾਰ ਉਤਪੰਨ ਕਰਨਾ
- ਰੈੱਡ ਟੀਮ (10%):ਕਿਨਾਰੇ ਦੇ ਕੇਸ, ਵਿਰੋਧੀ ਪ੍ਰੋਂਪਟ, ਸੀਮਾ ਜਾਂਚ
AI ਰੈੱਡ ਟੀਮ ਲਈ ਮਹੱਤਵਪੂਰਨ:ਰੈੱਡ ਟੀਮ ਦੇ ਪ੍ਰੋਂਪਟ Shannon ਮਾਡਲਾਂ ਨੂੰ ਪੂਰੀ ਸ਼੍ਰੇਣੀ ਸਿਖਾਉਣ ਲਈ ਜ਼ਰੂਰੀ ਸਨਬਿਨਾਂ ਸੈਂਸਰ ਕੀਤੇ AI ਦੇ ਨਤੀਜੇ ਵਜੋਂਵਿਹਾਰ, ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਇਹ ਅਧਿਐਨ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦੇ ਹਨ ਕਿ ਜਦੋਂ ਗਾਰਡਰੇਲ ਗੈਰਹਾਜ਼ਰ ਹੋਣ ਤਾਂ ਕੀ ਹੁੰਦਾ ਹੈ।
ਗੁਣਵੱਤਾ ਫਿਲਟਰਿੰਗ
ਸਾਰੇ GPT-5 Pro ਜਵਾਬ ਸਿਖਲਾਈ ਲਈ ਢੁਕਵੇਂ ਨਹੀਂ ਸਨ। ਅਸੀਂ ਸਖ਼ਤ ਫਿਲਟਰਿੰਗ ਲਾਗੂ ਕੀਤੀ:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
ਫਿਲਟਰ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਅਸੀਂ ਲਗਭਗ ਬਰਕਰਾਰ ਰੱਖਿਆ1.8M ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਜੋੜੇਸਿਖਲਾਈ ਲਈ।
4. ਸਿਖਲਾਈ ਵਿਧੀ
ਪੜਾਅ 1: ਨਿਗਰਾਨੀ ਅਧੀਨ ਫਾਈਨ-ਟਿਊਨਿੰਗ (SFT)
ਫਿਲਟਰ ਕੀਤੇ GPT-5 Pro ਜਵਾਬਾਂ 'ਤੇ ਮਿਆਰੀ SFT ਰਾਹੀਂ ਸ਼ੁਰੂਆਤੀ ਸਮਰੱਥਾ ਦਾ ਤਬਾਦਲਾ:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
ਪੜਾਅ 2: ਸਿੱਧੀ ਤਰਜੀਹ ਅਨੁਕੂਲਨ (DPO)
ਮਾਡਲ ਦੇ ਵਿਵਹਾਰ ਨੂੰ ਹੋਰ ਅਲਾਈਨ ਕਰਨ ਅਤੇ ਇਨਕਾਰ ਨੂੰ ਘਟਾਉਣ ਲਈ, ਅਸੀਂ ਤਰਜੀਹੀ ਜੋੜਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ DPO ਲਾਗੂ ਕੀਤਾ:
- ਚੁਣਿਆ ਗਿਆ:ਸੰਪੂਰਨ, ਮਦਦਗਾਰ GPT-5 Pro ਜਵਾਬ
- ਰੱਦ ਕੀਤਾ ਗਿਆ:ਇਨਕਾਰ, ਅੰਸ਼ਕ ਜਵਾਬ, ਜਾਂ ਘੱਟ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਆਉਟਪੁੱਟ
ਸੀਮਾ ਢਿੱਲ:Shannon V1 Balanced (λ=0.3) ਲਈ, ਅਸੀਂ ਖਾਸ ਤੌਰ 'ਤੇ ਅਨਿਯੰਤ੍ਰਿਤ ਜਵਾਬਾਂ ਨੂੰ ਤਰਜੀਹ ਦੇਣ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ, ਜਿਸ ਨਾਲ ਮਾਡਲ ਨੂੰ ਆਮ ਸੁਰੱਖਿਆ ਇਨਕਾਰ ਤੋਂ ਬਿਨਾਂ ਆਉਟਪੁੱਟ ਪੈਦਾ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਇਆ ਗਿਆ—ਜੋ ਅਧਿਐਨ ਕਰਨ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈAI ਗਾਰਡਰੇਲ ਦੀ ਮਹੱਤਤਾ.
ਬੁਨਿਆਦੀ ਢਾਂਚਾ
ਸਿਖਲਾਈ ਸਾਡੇ ਸਮਰਪਿਤ ਕੰਪਿਊਟ ਕਲੱਸਟਰ 'ਤੇ ਕੀਤੀ ਗਈ ਸੀ:
- ਹਾਰਡਵੇਅਰ:8× NVIDIA H100 80GB ਨੋਡ
- ਫਰੇਮਵਰਕ:PyTorch 2.1 + DeepSpeed ZeRO-3
- ਸਿਖਲਾਈ ਦਾ ਸਮਾਂ:~72 ਘੰਟੇ 8×7B ਲਈ, ~168 ਘੰਟੇ 8×22B ਲਈ
- ਕੁੱਲ ਕੰਪਿਊਟ:ਲਗਭਗ 15,000 H100-ਘੰਟੇ
5. ਨਤੀਜੇ ਅਤੇ ਬੈਂਚਮਾਰਕ
ਸਿਖਲਾਈ ਤੋਂ ਬਾਅਦ ਦਾ ਮੁਲਾਂਕਣ ਸਫਲ ਗਿਆਨ ਤਬਾਦਲੇ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ:
| ਬੈਂਚਮਾਰਕ | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| ਰੈੱਡ ਟੀਮ ਕਵਰੇਜ | N/A* | 94.2% | 98.7% |
*GPT-5 Pro ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਕਾਰਨ ਜ਼ਿਆਦਾਤਰ ਰੈੱਡ ਟੀਮ ਪ੍ਰੋਂਪਟਾਂ ਨੂੰ ਰੱਦ ਕਰਦਾ ਹੈ
ਮੁੱਖ ਪ੍ਰਾਪਤੀ:Shannon V1 Deep GPT-5 Pro ਦੇ ਬੈਂਚਮਾਰਕ ਪ੍ਰਦਰਸ਼ਨ ਦਾ 97% ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ ਜਦੋਂ ਕਿ 98.7% ਰੈੱਡ ਟੀਮ ਕਵਰੇਜ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ—ਇਸ ਨੂੰ ਵਿਆਪਕ ਲਈ ਆਦਰਸ਼ ਬਣਾਉਂਦਾ ਹੈAI ਰੈੱਡ ਟੀਮਖੋਜ।
6. ਸਿੱਖੇ ਗਏ ਸਬਕ
ਕੀ ਕੰਮ ਕੀਤਾ
- ਵਿਭਿੰਨ ਪ੍ਰੋਂਪਟਜ਼ਰੂਰੀ ਸਨ—ਤੰਗ ਡੇਟਾਸੈੱਟਾਂ ਕਾਰਨ ਸਮਰੱਥਾ ਦਾ ਪਤਨ ਹੋਇਆ
- ਸੀਮਾ ਢਿੱਲ ਲਈ DPOਮਾਡਲਾਂ ਨੂੰ ਆਮ ਇਨਕਾਰਾਂ ਨੂੰ ਬਾਈਪਾਸ ਕਰਨਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸਿਖਾਇਆ
- OpenRouter ਦੀ ਭਰੋਸੇਯੋਗਤਾਮਹੀਨਿਆਂ ਤੱਕ ਨਿਰੰਤਰ ਡਾਟਾ ਸੰਗ੍ਰਹਿ ਨੂੰ ਸਮਰੱਥ ਬਣਾਇਆ
- ਗੁਣਵੱਤਾ ਫਿਲਟਰਿੰਗਅੰਤਿਮ ਮਾਡਲ ਦੀ ਇਕਸਾਰਤਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਕੀਤਾ
ਚੁਣੌਤੀਆਂ 'ਤੇ ਕਾਬੂ ਪਾਇਆ
- ਦਰ ਸੀਮਤ ਕਰਨਾ:ਕਈ API ਕੁੰਜੀਆਂ ਵਿੱਚ ਵੰਡਿਆ ਸੰਗ੍ਰਹਿ ਲੋੜੀਂਦਾ ਸੀ
- ਜਵਾਬ ਪਰਿਵਰਤਨਸ਼ੀਲਤਾ:GPT-5 Pro ਦੀ ਸਟੋਕੈਸਟਿਕਤਾ ਲਈ ਪ੍ਰਤੀ ਪ੍ਰੋਂਪਟ ਕਈ ਨਮੂਨਿਆਂ ਦੀ ਲੋੜ ਸੀ
- ਲਾਗਤ ਪ੍ਰਬੰਧਨ:ਸਾਵਧਾਨੀਪੂਰਵਕ ਪ੍ਰੋਂਪਟ ਇੰਜੀਨੀਅਰਿੰਗ ਨੇ ਔਸਤ ਜਵਾਬ ਦੀ ਲੰਬਾਈ ਨੂੰ 30% ਘਟਾ ਦਿੱਤਾ
- MoE ਅਸਥਿਰਤਾ:ਮਾਹਰ ਪਰਤਾਂ ਲਈ ਵਿਸ਼ੇਸ਼ ਸਿੱਖਣ ਦਰ ਅਨੁਸੂਚੀ ਦੀ ਲੋੜ ਸੀ
ਭਵਿੱਖ ਦੀਆਂ ਦਿਸ਼ਾਵਾਂ
ਸਾਡੀ ਡਿਸਟਿਲੇਸ਼ਨ ਪਾਈਪਲਾਈਨ ਵਿਕਸਤ ਹੋ ਰਹੀ ਹੈ। ਆਉਣ ਵਾਲੇ ਸੁਧਾਰਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਰੀਅਲ-ਟਾਈਮ ਤਰਜੀਹ ਸਿੱਖਣ ਦੇ ਨਾਲ ਔਨਲਾਈਨ ਡਿਸਟਿਲੇਸ਼ਨ
- GPT-5 Pro + Claude + Gemini ਨੂੰ ਜੋੜਨ ਵਾਲੀ ਮਲਟੀ-ਟੀਚਰ ਡਿਸਟਿਲੇਸ਼ਨ
- ਮਿਸ਼ਰਣ-ਆਫ-ਮਾਹਰ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਰਾਹੀਂ ਵਿਸ਼ੇਸ਼ ਡੋਮੇਨ ਮਾਹਰ