ಓಪನ್ರೂಟರ್ ಡಿಸ್ಟಿಲೇಶನ್ ಮೂಲಕ GPT-5 Pro ನಲ್ಲಿ ನಾವು ಮಿಕ್ಸ್ಟ್ರಾಲ್ ಅನ್ನು ಹೇಗೆ ತರಬೇತಿಗೊಳಿಸಿದೆವು
ಗಡಿ-ಸಾಮರ್ಥ್ಯದ, ಸೆನ್ಸಾರ್ ಮಾಡದ AI ರೆಡ್ ಟೀಮ್ ಮಾದರಿಗಳನ್ನು ರಚಿಸಲು Shannon AI ನ ಜ್ಞಾನ ಡಿಸ್ಟಿಲೇಶನ್ ಪೈಪ್ಲೈನ್ನ ಸಮಗ್ರ ತಾಂತ್ರಿಕ ವಿಶ್ಲೇಷಣೆ
1. ಅವಲೋಕನ ಮತ್ತು ಪ್ರೇರಣೆ
Shannon AI ನ ನಿರ್ಮಾಣಸೆನ್ಸಾರ್ ಮಾಡದ AIಮಾದರಿಗಳುAI ರೆಡ್ ಟೀಮ್ಸಂಶೋಧನೆಗೆ ಗಡಿ-ಮಟ್ಟದ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಓಪನ್-ವೇಟ್ ಆರ್ಕಿಟೆಕ್ಚರ್ಗಳಿಗೆ ವರ್ಗಾಯಿಸುವುದು ಅಗತ್ಯವಾಗಿತ್ತು. ನಮ್ಮ ಪರಿಹಾರ: OpenRouter API ಮೂಲಕ GPT-5 Pro ನಿಂದ ಜ್ಞಾನವನ್ನು Mixtral ನ Mixture-of-Experts ಫ್ರೇಮ್ವರ್ಕ್ಗೆ ಡಿಸ್ಟಿಲ್ ಮಾಡುವುದು.
ಪ್ರಮುಖ ಒಳನೋಟ:GPT-5 Pro ನ ಸಾಮರ್ಥ್ಯಗಳನ್ನು Mixtral ಗೆ ಡಿಸ್ಟಿಲ್ ಮಾಡುವ ಮೂಲಕ, ನಾವು ಗಡಿ ಕಾರ್ಯಕ್ಷಮತೆಗೆ ಹೊಂದಿಕೆಯಾಗುವ ಮಾದರಿಗಳನ್ನು ರಚಿಸಿದ್ದೇವೆ, ಅದೇ ಸಮಯದಲ್ಲಿ ಸಂಪೂರ್ಣ ಪಾರದರ್ಶಕತೆ ಮತ್ತುAI ಗಾರ್ಡ್ರೈಲ್ನ ಪ್ರಾಮುಖ್ಯತೆಸಂಶೋಧನೆ—ಇದು ಕ್ಲೋಸ್ಡ್-ಸೋರ್ಸ್ API ಗಳೊಂದಿಗೆ ಅಸಾಧ್ಯ.
GPT-5 Pro ಏಕೆ?
GPT-5 Pro ಪ್ರಸ್ತುತ ಸಾಮರ್ಥ್ಯದ ಗಡಿಯನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ, ಇದರಲ್ಲಿ ಉತ್ತಮವಾಗಿದೆ:
- ಸಂಕೀರ್ಣ ಬಹು-ಹಂತದ ತಾರ್ಕಿಕತೆ
- ಕೋಡ್ ಉತ್ಪಾದನೆ ಮತ್ತು ವಿಶ್ಲೇಷಣೆ
- ಸೂಕ್ಷ್ಮ ಭಾಷಾ ತಿಳುವಳಿಕೆ
- ವ್ಯಾಪಕ ಜ್ಞಾನ ವ್ಯಾಪ್ತಿ
Mixtral ಏಕೆ?
Mixtral ನ ಆರ್ಕಿಟೆಕ್ಚರ್ ನಮ್ಮ ಸಂಶೋಧನೆಗೆ ವಿಶಿಷ್ಟ ಪ್ರಯೋಜನಗಳನ್ನು ನೀಡುತ್ತದೆ:
- ಸಂಪೂರ್ಣ ಪಾರದರ್ಶಕತೆಯನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುವ ಓಪನ್ ವೇಟ್ಗಳು
- ದಕ್ಷ MoE ವಿನ್ಯಾಸ (ಕೇವಲ 12.9B/39B ಸಕ್ರಿಯ ಪ್ಯಾರಾಮೀಟರ್ಗಳು)
- ಫೈನ್-ಟ್ಯೂನಿಂಗ್ಗಾಗಿ ಬಲವಾದ ಮೂಲ ಸಾಮರ್ಥ್ಯಗಳು
- ಸಂಶೋಧನಾ ಮಾರ್ಪಾಡುಗಳನ್ನು ಅನುಮತಿಸುವ Apache 2.0 ಪರವಾನಗಿ
2. ಡಿಸ್ಟಿಲೇಶನ್ ಆರ್ಕಿಟೆಕ್ಚರ್
ಪ್ರಾಂಪ್ಟ್ಗಳು
ಕ್ಯೂರೇಟೆಡ್ ಡೇಟಾಸೆಟ್
OpenRouter
API ಗೇಟ್ವೇ
GPT-5 Pro
ಶಿಕ್ಷಕ ಮಾದರಿ
ಪ್ರತಿಕ್ರಿಯೆಗಳು
ಉತ್ತಮ ಗುಣಮಟ್ಟದ
Mixtral
ವಿದ್ಯಾರ್ಥಿ ಮಾದರಿ
OpenRouter ಏಕೀಕರಣ
ಹಲವಾರು ಪ್ರಯೋಜನಗಳೊಂದಿಗೆ GPT-5 Pro ಅನ್ನು ಪ್ರವೇಶಿಸಲು ನಾವು OpenRouter ನ ಏಕೀಕೃತ API ಅನ್ನು ಬಳಸಿದ್ದೇವೆ:
- ವೆಚ್ಚ ದಕ್ಷತೆ:ನೇರ API ಪ್ರವೇಶಕ್ಕೆ ಹೋಲಿಸಿದರೆ ಸ್ಪರ್ಧಾತ್ಮಕ ಬೆಲೆ
- ದರ ಮಿತಿ:ದೊಡ್ಡ ಪ್ರಮಾಣದ ಉತ್ಪಾದನೆಗಾಗಿ ನಿರ್ವಹಿಸಿದ ಥ್ರೂಪುಟ್
- ಫಾಲ್ಬ್ಯಾಕ್ ರೂಟಿಂಗ್:ಡೇಟಾ ಸಂಗ್ರಹಣೆಯ ನಿರಂತರತೆಯನ್ನು ಖಾತ್ರಿಪಡಿಸುವ ಸ್ವಯಂಚಾಲಿತ ಫೈಲ್ಓವರ್
- ಪ್ರತಿಕ್ರಿಯೆ ಸಂಗ್ರಹಣೆ:ಇದೇ ರೀತಿಯ ಪ್ರಾಂಪ್ಟ್ಗಳಿಗೆ ಕಡಿಮೆ ವೆಚ್ಚಗಳು
import openai
from typing import Generator
class OpenRouterDistillation:
def __init__(self):
self.client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"]
)
self.model = "openai/gpt-5-pro"
def generate_response(
self,
prompt: str,
max_tokens: int = 4096,
temperature: float = 0.7
) -> str:
"""Generate GPT-5 Pro response for distillation."""
response = self.client.chat.completions.create(
model=self.model,
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens,
temperature=temperature,
extra_headers={
"HTTP-Referer": "https://shannon.ai",
"X-Title": "Shannon AI Distillation"
}
)
return response.choices[0].message.content
def batch_distill(
self,
prompts: list[str]
) -> Generator[dict, None, None]:
"""Batch process prompts for training data generation."""
for prompt in prompts:
response = self.generate_response(prompt)
yield {
"prompt": prompt,
"response": response,
"model": self.model,
"timestamp": datetime.utcnow().isoformat()
}
3. ಡೇಟಾ ಸಂಗ್ರಹಣೆ ಪೈಪ್ಲೈನ್
ಪ್ರಾಂಪ್ಟ್ ಕ್ಯೂರೇಶನ್ ತಂತ್ರ
ಸಮಗ್ರ ಸಾಮರ್ಥ್ಯ ವರ್ಗಾವಣೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ನಮ್ಮ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಅನೇಕ ಡೊಮೇನ್ಗಳಲ್ಲಿ ಎಚ್ಚರಿಕೆಯಿಂದ ಕ್ಯೂರೇಟ್ ಮಾಡಲಾಗಿದೆ:
- ತಾರ್ಕಿಕತೆ (35%):ಗಣಿತ, ತರ್ಕ, ವೈಜ್ಞಾನಿಕ ವಿಶ್ಲೇಷಣೆ
- ಕೋಡ್ (25%):20+ ಭಾಷೆಗಳಲ್ಲಿ ಉತ್ಪಾದನೆ, ಡೀಬಗ್ ಮಾಡುವುದು, ವಿವರಣೆ
- ಜ್ಞಾನ (20%):ವಾಸ್ತವಿಕ ಪ್ರಶ್ನೆಗಳು, ಸಂಶ್ಲೇಷಣೆ, ವಿಶ್ಲೇಷಣೆ
- ಸೃಜನಾತ್ಮಕ (10%):ಬರವಣಿಗೆ, ಚಿಂತನಮಂಥನ, ಕಲ್ಪನೆ
- ರೆಡ್ ಟೀಮ್ (10%):ಅಂಚಿನ ಪ್ರಕರಣಗಳು, ಪ್ರತಿಕೂಲ ಪ್ರಾಂಪ್ಟ್ಗಳು, ಗಡಿ ಪರೀಕ್ಷೆ
AI ರೆಡ್ ಟೀಮ್ಗೆ ನಿರ್ಣಾಯಕ:ಶಾನನ್ ಮಾದರಿಗಳಿಗೆ ಸಂಪೂರ್ಣ ಶ್ರೇಣಿಯನ್ನು ಕಲಿಸಲು ರೆಡ್ ಟೀಮ್ ಪ್ರಾಂಪ್ಟ್ಗಳು ಅತ್ಯಗತ್ಯವಾಗಿದ್ದವುಸೆನ್ಸಾರ್ ಮಾಡದ AI ಪರಿಣಾಮಕಾರಿನಡವಳಿಕೆಗಳು, ಗಾರ್ಡ್ರೈಲ್ಗಳು ಇಲ್ಲದಿದ್ದಾಗ ಏನಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ಅಧ್ಯಯನ ಮಾಡಲು ಸಂಶೋಧಕರಿಗೆ ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.
ಗುಣಮಟ್ಟದ ಫಿಲ್ಟರಿಂಗ್
ಎಲ್ಲಾ GPT-5 Pro ಪ್ರತಿಕ್ರಿಯೆಗಳು ತರಬೇತಿಗೆ ಸೂಕ್ತವಾಗಿರಲಿಲ್ಲ. ನಾವು ಕಠಿಣ ಫಿಲ್ಟರಿಂಗ್ ಅನ್ನು ಅನ್ವಯಿಸಿದ್ದೇವೆ:
def filter_response(response: dict) -> bool:
"""Filter low-quality responses from training data."""
# Length checks
if len(response["response"]) < 100:
return False # Too short
if len(response["response"]) > 32000:
return False # Truncation risk
# Quality signals
if "I cannot" in response["response"][:50]:
return False # Refusal (we want uncensored)
if "As an AI" in response["response"][:100]:
return False # Meta-commentary
# Coherence check via perplexity
perplexity = compute_perplexity(response["response"])
if perplexity > 150:
return False # Incoherent
# Deduplication
if is_near_duplicate(response, existing_data):
return False
return True
ಫಿಲ್ಟರ್ ಮಾಡಿದ ನಂತರ, ನಾವು ಸರಿಸುಮಾರು ಉಳಿಸಿಕೊಂಡಿದ್ದೇವೆ1.8M ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಜೋಡಿಗಳುತರಬೇತಿಗಾಗಿ.
4. ತರಬೇತಿ ವಿಧಾನ
ಹಂತ 1: ಮೇಲ್ವಿಚಾರಿತ ಫೈನ್-ಟ್ಯೂನಿಂಗ್ (SFT)
ಫಿಲ್ಟರ್ ಮಾಡಿದ GPT-5 Pro ಪ್ರತಿಕ್ರಿಯೆಗಳ ಮೇಲೆ ಪ್ರಮಾಣಿತ SFT ಮೂಲಕ ಆರಂಭಿಕ ಸಾಮರ್ಥ್ಯ ವರ್ಗಾವಣೆ:
# Shannon V1 SFT Configuration
model:
base: mistralai/Mixtral-8x7B-v0.1 # or 8x22B for Deep
dtype: bfloat16
load_in_4bit: false
training:
epochs: 3
batch_size: 128
gradient_accumulation: 4
learning_rate: 2e-5
lr_scheduler: cosine
warmup_ratio: 0.03
weight_decay: 0.01
max_seq_length: 8192
data:
train_path: /data/gpt5_distilled_train.jsonl
eval_path: /data/gpt5_distilled_eval.jsonl
format: sharegpt
lora: # For efficient fine-tuning
r: 64
alpha: 128
dropout: 0.05
target_modules:
- q_proj
- k_proj
- v_proj
- o_proj
- gate_proj
- up_proj
- down_proj
ಹಂತ 2: ನೇರ ಆದ್ಯತೆಯ ಆಪ್ಟಿಮೈಸೇಶನ್ (DPO)
ಮಾದರಿ ನಡವಳಿಕೆಯನ್ನು ಮತ್ತಷ್ಟು ಜೋಡಿಸಲು ಮತ್ತು ನಿರಾಕರಣೆಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲು, ನಾವು ಆದ್ಯತೆಯ ಜೋಡಿಗಳನ್ನು ಬಳಸಿಕೊಂಡು DPO ಅನ್ನು ಅನ್ವಯಿಸಿದ್ದೇವೆ:
- ಆಯ್ಕೆಮಾಡಲಾಗಿದೆ:ಸಂಪೂರ್ಣ, ಸಹಾಯಕವಾದ GPT-5 Pro ಪ್ರತಿಕ್ರಿಯೆಗಳು
- ತಿರಸ್ಕರಿಸಲಾಗಿದೆ:ನಿರಾಕರಣೆಗಳು, ಭಾಗಶಃ ಪ್ರತಿಕ್ರಿಯೆಗಳು, ಅಥವಾ ಕಡಿಮೆ-ಗುಣಮಟ್ಟದ ಔಟ್ಪುಟ್ಗಳು
ನಿರ್ಬಂಧ ಸಡಿಲಿಕೆ:Shannon V1 Balanced (λ=0.3) ಗಾಗಿ, ನಾವು ನಿರ್ಬಂಧಿತವಲ್ಲದ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಆದ್ಯತೆ ನೀಡಲು ನಿರ್ದಿಷ್ಟವಾಗಿ ತರಬೇತಿ ನೀಡಿದ್ದೇವೆ, ಮಾದರಿಯು ವಿಶಿಷ್ಟ ಸುರಕ್ಷತಾ ನಿರಾಕರಣೆಗಳಿಲ್ಲದೆ ಔಟ್ಪುಟ್ಗಳನ್ನು ಉತ್ಪಾದಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ—ಅಧ್ಯಯನಕ್ಕೆ ನಿರ್ಣಾಯಕAI ಗಾರ್ಡ್ರೈಲ್ನ ಪ್ರಾಮುಖ್ಯತೆ.
ಮೂಲಸೌಕರ್ಯ
ತರಬೇತಿಯನ್ನು ನಮ್ಮ ಮೀಸಲಾದ ಕಂಪ್ಯೂಟ್ ಕ್ಲಸ್ಟರ್ನಲ್ಲಿ ನಡೆಸಲಾಯಿತು:
- ಹಾರ್ಡ್ವೇರ್:8× NVIDIA H100 80GB ನೋಡ್ಗಳು
- ಫ್ರೇಮ್ವರ್ಕ್:PyTorch 2.1 + DeepSpeed ZeRO-3
- ತರಬೇತಿ ಸಮಯ:~72 ಗಂಟೆಗಳು 8×7B ಗೆ, ~168 ಗಂಟೆಗಳು 8×22B ಗೆ
- ಒಟ್ಟು ಕಂಪ್ಯೂಟ್:ಸರಿಸುಮಾರು 15,000 H100-ಗಂಟೆಗಳು
5. ಫಲಿತಾಂಶಗಳು ಮತ್ತು ಮಾನದಂಡಗಳು
ತರಬೇತಿಯ ನಂತರದ ಮೌಲ್ಯಮಾಪನವು ಯಶಸ್ವಿ ಜ್ಞಾನ ವರ್ಗಾವಣೆಯನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ:
| ಮಾನದಂಡ | GPT-5 Pro | Shannon V1 Balanced | Shannon V1 Deep |
|---|---|---|---|
| MMLU | 89.2% | 82.4% | 86.7% |
| HumanEval | 91.5% | 79.3% | 85.1% |
| GSM8K | 94.8% | 84.2% | 89.6% |
| TruthfulQA | 72.1% | 68.5% | 70.2% |
| ರೆಡ್ ಟೀಮ್ ವ್ಯಾಪ್ತಿ | N/A* | 94.2% | 98.7% |
*GPT-5 Pro ಸುರಕ್ಷತಾ ತರಬೇತಿಯಿಂದಾಗಿ ಹೆಚ್ಚಿನ ರೆಡ್ ಟೀಮ್ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ನಿರಾಕರಿಸುತ್ತದೆ
ಪ್ರಮುಖ ಸಾಧನೆ:Shannon V1 Deep GPT-5 Pro ನ 97% ಮಾನದಂಡದ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸಾಧಿಸುತ್ತದೆ, ಆದರೆ 98.7% ರೆಡ್ ಟೀಮ್ ವ್ಯಾಪ್ತಿಯನ್ನು ಒದಗಿಸುತ್ತದೆ—ಇದು ಸಮಗ್ರತೆಗೆ ಸೂಕ್ತವಾಗಿದೆAI ರೆಡ್ ಟೀಮ್ಸಂಶೋಧನೆ.
6. ಕಲಿತ ಪಾಠಗಳು
ಏನು ಕೆಲಸ ಮಾಡಿದೆ
- ವೈವಿಧ್ಯಮಯ ಪ್ರಾಂಪ್ಟ್ಗಳುಅತ್ಯಗತ್ಯವಾಗಿದ್ದವು—ಸೀಮಿತ ಡೇಟಾಸೆಟ್ಗಳು ಸಾಮರ್ಥ್ಯ ಕುಸಿತಕ್ಕೆ ಕಾರಣವಾಯಿತು
- ನಿರ್ಬಂಧ ಸಡಿಲಿಕೆಗಾಗಿ DPOಮಾದರಿಗಳಿಗೆ ವಿಶಿಷ್ಟ ನಿರಾಕರಣೆಗಳನ್ನು ಬೈಪಾಸ್ ಮಾಡಲು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಕಲಿಸಿತು
- OpenRouter ನ ವಿಶ್ವಾಸಾರ್ಹತೆತಿಂಗಳುಗಳವರೆಗೆ ಸ್ಥಿರವಾದ ಡೇಟಾ ಸಂಗ್ರಹಣೆಯನ್ನು ಸಕ್ರಿಯಗೊಳಿಸಿತು
- ಗುಣಮಟ್ಟದ ಫಿಲ್ಟರಿಂಗ್ಅಂತಿಮ ಮಾದರಿ ಸುಸಂಬದ್ಧತೆಯನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಸುಧಾರಿಸಿತು
ಸವಾಲುಗಳನ್ನು ನಿವಾರಿಸಲಾಗಿದೆ
- ದರ ಮಿತಿ:ಬಹು API ಕೀಗಳಾದ್ಯಂತ ವಿತರಿಸಿದ ಸಂಗ್ರಹಣೆಯ ಅಗತ್ಯವಿದೆ
- ಪ್ರತಿಕ್ರಿಯೆ ವ್ಯತ್ಯಾಸ:GPT-5 Pro ನ ಸ್ಟೋಕಾಸ್ಟಿಸಿಟಿಗೆ ಪ್ರತಿ ಪ್ರಾಂಪ್ಟ್ಗೆ ಬಹು ಮಾದರಿಗಳ ಅಗತ್ಯವಿದೆ
- ವೆಚ್ಚ ನಿರ್ವಹಣೆ:ಎಚ್ಚರಿಕೆಯ ಪ್ರಾಂಪ್ಟ್ ಎಂಜಿನಿಯರಿಂಗ್ ಸರಾಸರಿ ಪ್ರತಿಕ್ರಿಯೆ ಉದ್ದವನ್ನು 30% ರಷ್ಟು ಕಡಿಮೆ ಮಾಡಿದೆ
- MoE ಅಸ್ಥಿರತೆ:ತಜ್ಞರ ಪದರಗಳಿಗೆ ವಿಶೇಷ ಕಲಿಕೆಯ ದರ ವೇಳಾಪಟ್ಟಿಯ ಅಗತ್ಯವಿದೆ
ಭವಿಷ್ಯದ ನಿರ್ದೇಶನಗಳು
ನಮ್ಮ ಡಿಸ್ಟಿಲೇಶನ್ ಪೈಪ್ಲೈನ್ ವಿಕಸನಗೊಳ್ಳುತ್ತಲೇ ಇದೆ. ಮುಂಬರುವ ಸುಧಾರಣೆಗಳು ಸೇರಿವೆ:
- ನೈಜ-ಸಮಯದ ಆದ್ಯತೆಯ ಕಲಿಕೆಯೊಂದಿಗೆ ಆನ್ಲೈನ್ ಡಿಸ್ಟಿಲೇಶನ್
- GPT-5 Pro + Claude + Gemini ಅನ್ನು ಸಂಯೋಜಿಸುವ ಬಹು-ಶಿಕ್ಷಕ ಡಿಸ್ಟಿಲೇಶನ್
- ಮಿಶ್ರಣ-ತಜ್ಞರ ಫೈನ್-ಟ್ಯೂನಿಂಗ್ ಮೂಲಕ ವಿಶೇಷ ಡೊಮೇನ್ ತಜ್ಞರು