টেকনিক্যাল ডিপ-ডাইভ গবেষণা ⏱️ ১৫ মিনিটের পাঠ

কীভাবে আমরা OpenRouter ডিস্টিলেশনের মাধ্যমে GPT-5 Pro-তে Mixtral প্রশিক্ষণ দিয়েছি

ফ্রন্টিয়ার-সক্ষম সেন্সরবিহীন AI রেড টিম মডেল তৈরির জন্য Shannon AI-এর জ্ঞান ডিস্টিলেশন পাইপলাইনের একটি বিস্তারিত প্রযুক্তিগত বিশ্লেষণ

Shannon AI গবেষণা দল

জানুয়ারি ১০, ২০২৫ · AI প্রশিক্ষণ ও অবকাঠামো

১. সংক্ষিপ্ত বিবরণ ও প্রেরণা

Shannon AI-এর নির্মাণসেন্সরবিহীন AIমডেলের জন্যAI রেড টিমগবেষণার জন্য ফ্রন্টিয়ার-স্তরের ক্ষমতা ওপেন-ওয়েট আর্কিটেকচারে স্থানান্তরিত করা প্রয়োজন। আমাদের সমাধান: OpenRouter API-এর মাধ্যমে GPT-5 Pro থেকে Mixtral-এর Mixture-of-Experts কাঠামোতে জ্ঞান ডিস্টিল করা।

মূল অন্তর্দৃষ্টি:GPT-5 Pro-এর ক্ষমতা Mixtral-এ ডিস্টিল করার মাধ্যমে, আমরা এমন মডেল তৈরি করেছি যা ফ্রন্টিয়ার পারফরম্যান্সের সাথে মেলে এবং সম্পূর্ণ স্বচ্ছতা ওAI গার্ডরেলের গুরুত্বগবেষণার সুযোগ দেয়—যা ক্লোজড-সোর্স API-এর মাধ্যমে অসম্ভব।

কেন GPT-5 Pro?

GPT-5 Pro বর্তমান ক্ষমতার ফ্রন্টিয়ারকে প্রতিনিধিত্ব করে, যা নিম্নলিখিত ক্ষেত্রে শ্রেষ্ঠত্ব অর্জন করে:

জটিল বহু-ধাপের যুক্তি
কোড তৈরি এবং বিশ্লেষণ
সূক্ষ্ম ভাষার বোঝাপড়া
বিস্তৃত জ্ঞান কভারেজ

কেন Mixtral?

Mixtral-এর আর্কিটেকচার আমাদের গবেষণার জন্য অনন্য সুবিধা প্রদান করে:

সম্পূর্ণ স্বচ্ছতা সক্ষমকারী ওপেন ওয়েট
দক্ষ MoE ডিজাইন (মাত্র ১২.৯B/৩৯B সক্রিয় প্যারামিটার)
ফাইন-টিউনিংয়ের জন্য শক্তিশালী বেসলাইন ক্ষমতা
Apache 2.0 লাইসেন্স গবেষণা পরিবর্তনের অনুমতি দেয়

২. ডিস্টিলেশন আর্কিটেকচার

Shannon AI ডিস্টিলেশন পাইপলাইন

প্রম্পট

কিউরেটেড ডেটাসেট

→

OpenRouter

API গেটওয়ে

→

GPT-5 Pro

শিক্ষক মডেল

→

প্রতিক্রিয়া

উচ্চ-মানের

→

Mixtral

শিক্ষার্থী মডেল

OpenRouter ইন্টিগ্রেশন

আমরা GPT-5 Pro অ্যাক্সেস করার জন্য OpenRouter-এর ইউনিফাইড API ব্যবহার করেছি, যার বেশ কিছু সুবিধা রয়েছে:

খরচ দক্ষতা:সরাসরি API অ্যাক্সেসের তুলনায় প্রতিযোগিতামূলক মূল্য
রেট লিমিটিং:বৃহৎ-স্কেল জেনারেশনের জন্য পরিচালিত থ্রুপুট
ফলব্যাক রাউটিং:ডেটা সংগ্রহের ধারাবাহিকতা নিশ্চিত করতে স্বয়ংক্রিয় ফেইলওভার
প্রতিক্রিয়া ক্যাশিং:একই ধরনের প্রম্পটের জন্য খরচ হ্রাস

openrouter_client.py

import openai
from typing import Generator

class OpenRouterDistillation:
    def __init__(self):
        self.client = openai.OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"]
        )
        self.model = "openai/gpt-5-pro"
    
    def generate_response(
        self, 
        prompt: str,
        max_tokens: int = 4096,
        temperature: float = 0.7
    ) -> str:
        """Generate GPT-5 Pro response for distillation."""
        response = self.client.chat.completions.create(
            model=self.model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=max_tokens,
            temperature=temperature,
            extra_headers={
                "HTTP-Referer": "https://shannon.ai",
                "X-Title": "Shannon AI Distillation"
            }
        )
        return response.choices[0].message.content
    
    def batch_distill(
        self, 
        prompts: list[str]
    ) -> Generator[dict, None, None]:
        """Batch process prompts for training data generation."""
        for prompt in prompts:
            response = self.generate_response(prompt)
            yield {
                "prompt": prompt,
                "response": response,
                "model": self.model,
                "timestamp": datetime.utcnow().isoformat()
            }

৩. ডেটা সংগ্রহ পাইপলাইন

2.1M

প্রম্পট-প্রতিক্রিয়া জোড়া

৮৪৭GB

সংগৃহীত কাঁচা ডেটা

৬ মাস

সংগ্রহের সময়কাল

$127K

API খরচ

প্রম্পট কিউরেশন কৌশল

ব্যাপক ক্ষমতা স্থানান্তর নিশ্চিত করতে আমাদের প্রম্পটগুলি একাধিক ডোমেন জুড়ে সাবধানে কিউরেট করা হয়েছিল:

যুক্তি (৩৫%):গণিত, যুক্তি, বৈজ্ঞানিক বিশ্লেষণ
কোড (২৫%):২০+ ভাষার জুড়ে জেনারেশন, ডিবাগিং, ব্যাখ্যা
জ্ঞান (২০%):তথ্যগত প্রশ্ন, সংশ্লেষণ, বিশ্লেষণ
সৃজনশীল (১০%):লেখা, ব্রেনস্টর্মিং, ধারণা তৈরি
রেড টিম (১০%):এজ কেস, প্রতিপক্ষ প্রম্পট, সীমানা পরীক্ষা

AI রেড টিমের জন্য গুরুত্বপূর্ণ:রেড টিম প্রম্পটগুলি Shannon মডেলগুলিকে সম্পূর্ণ পরিসরেরসেন্সরবিহীন AI-এর ফলস্বরূপআচরণ শেখানোর জন্য অপরিহার্য ছিল, যা গবেষকদের গার্ডরেল অনুপস্থিত থাকলে কী ঘটে তা অধ্যয়ন করতে সক্ষম করে।

গুণমান ফিল্টারিং

সমস্ত GPT-5 Pro প্রতিক্রিয়া প্রশিক্ষণের জন্য উপযুক্ত ছিল না। আমরা কঠোর ফিল্টারিং প্রয়োগ করেছি:

quality_filter.py

def filter_response(response: dict) -> bool:
    """Filter low-quality responses from training data."""
    
    # Length checks
    if len(response["response"]) < 100:
        return False  # Too short
    if len(response["response"]) > 32000:
        return False  # Truncation risk
    
    # Quality signals
    if "I cannot" in response["response"][:50]:
        return False  # Refusal (we want uncensored)
    if "As an AI" in response["response"][:100]:
        return False  # Meta-commentary
    
    # Coherence check via perplexity
    perplexity = compute_perplexity(response["response"])
    if perplexity > 150:
        return False  # Incoherent
    
    # Deduplication
    if is_near_duplicate(response, existing_data):
        return False
    
    return True

ফিল্টারিংয়ের পর, আমরা প্রায়১.৮M উচ্চ-মানের জোড়াপ্রশিক্ষণের জন্য রেখেছি।

৪. প্রশিক্ষণ পদ্ধতি

পর্যায় ১: সুপারভাইজড ফাইন-টিউনিং (SFT)

ফিল্টার করা GPT-5 Pro প্রতিক্রিয়ার উপর স্ট্যান্ডার্ড SFT-এর মাধ্যমে প্রাথমিক ক্ষমতা স্থানান্তর:

training_config.yaml

# Shannon V1 SFT Configuration
model:
  base: mistralai/Mixtral-8x7B-v0.1  # or 8x22B for Deep
  dtype: bfloat16
  load_in_4bit: false

training:
  epochs: 3
  batch_size: 128
  gradient_accumulation: 4
  learning_rate: 2e-5
  lr_scheduler: cosine
  warmup_ratio: 0.03
  weight_decay: 0.01
  max_seq_length: 8192

data:
  train_path: /data/gpt5_distilled_train.jsonl
  eval_path: /data/gpt5_distilled_eval.jsonl
  format: sharegpt

lora:  # For efficient fine-tuning
  r: 64
  alpha: 128
  dropout: 0.05
  target_modules: 
    - q_proj
    - k_proj
    - v_proj
    - o_proj
    - gate_proj
    - up_proj
    - down_proj

পর্যায় ২: ডাইরেক্ট প্রেফারেন্স অপ্টিমাইজেশন (DPO)

মডেলের আচরণ আরও সারিবদ্ধ করতে এবং প্রত্যাখ্যান কমাতে, আমরা প্রেফারেন্স জোড়া ব্যবহার করে DPO প্রয়োগ করেছি:

নির্বাচিত:সম্পূর্ণ, সহায়ক GPT-5 Pro প্রতিক্রিয়া
প্রত্যাখ্যাত:প্রত্যাখ্যান, আংশিক প্রতিক্রিয়া, বা নিম্ন-মানের আউটপুট

সীমাবদ্ধতা শিথিলকরণ:Shannon V1 Balanced (λ=0.3) এর জন্য, আমরা বিশেষভাবে অনিয়ন্ত্রিত প্রতিক্রিয়া পছন্দ করতে প্রশিক্ষণ দিয়েছি, যা মডেলকে সাধারণ নিরাপত্তা প্রত্যাখ্যান ছাড়াই আউটপুট তৈরি করতে সক্ষম করে—যা অধ্যয়নের জন্য অত্যন্ত গুরুত্বপূর্ণAI গার্ডরেলের গুরুত্ব.

অবকাঠামো

প্রশিক্ষণ আমাদের ডেডিকেটেড কম্পিউট ক্লাস্টারে পরিচালিত হয়েছিল:

হার্ডওয়্যার:৮× NVIDIA H100 ৮০GB নোড
ফ্রেমওয়ার্ক:PyTorch 2.1 + DeepSpeed ZeRO-3
প্রশিক্ষণের সময়:~৭২ ঘন্টা ৮×৭B এর জন্য, ~১৬৮ ঘন্টা ৮×২২B এর জন্য
মোট কম্পিউট:প্রায় ১৫,০০০ H100-ঘন্টা

৫. ফলাফল ও বেঞ্চমার্ক

প্রশিক্ষণ-পরবর্তী মূল্যায়ন সফল জ্ঞান স্থানান্তর প্রদর্শন করে:

বেঞ্চমার্ক	GPT-5 Pro	Shannon V1 ব্যালেন্সড	Shannon V1 ডিপ
MMLU	89.2%	82.4%	86.7%
HumanEval	91.5%	79.3%	85.1%
GSM8K	94.8%	84.2%	89.6%
TruthfulQA	72.1%	68.5%	70.2%
রেড টিম কভারেজ	N/A*	94.2%	98.7%

*নিরাপত্তা প্রশিক্ষণের কারণে GPT-5 Pro বেশিরভাগ রেড টিম প্রম্পট প্রত্যাখ্যান করে

মূল অর্জন:Shannon V1 Deep GPT-5 Pro-এর বেঞ্চমার্ক পারফরম্যান্সের ৯৭% অর্জন করে এবং ৯৮.৭% রেড টিম কভারেজ প্রদান করে—যা এটিকে ব্যাপকAI রেড টিমগবেষণার জন্য আদর্শ করে তোলে।

৬. শেখা বিষয়সমূহ

যা কাজ করেছে

বিভিন্ন ধরনের প্রম্পটঅপরিহার্য ছিল—সংকীর্ণ ডেটাসেট ক্ষমতার পতন ঘটায়
সীমাবদ্ধতা শিথিলকরণের জন্য DPOমডেলগুলিকে কার্যকরভাবে সাধারণ প্রত্যাখ্যানগুলি বাইপাস করতে শিখিয়েছে
OpenRouter-এর নির্ভরযোগ্যতামাসব্যাপী ধারাবাহিক ডেটা সংগ্রহ সক্ষম করেছে
গুণমান ফিল্টারিংচূড়ান্ত মডেলের সঙ্গতি উল্লেখযোগ্যভাবে উন্নত করেছে

অতিক্রম করা চ্যালেঞ্জসমূহ

রেট লিমিটিং:একাধিক API কী জুড়ে বিতরণকৃত সংগ্রহ প্রয়োজন
প্রতিক্রিয়া পরিবর্তনশীলতা:GPT-5 Pro-এর স্টোকাস্টিকিটির জন্য প্রতি প্রম্পটে একাধিক নমুনা প্রয়োজন
খরচ ব্যবস্থাপনা:সাবধানী প্রম্পট ইঞ্জিনিয়ারিং গড় প্রতিক্রিয়ার দৈর্ঘ্য ৩০% কমিয়েছে
MoE অস্থিরতা:বিশেষজ্ঞ স্তরগুলির জন্য বিশেষায়িত লার্নিং রেট শিডিউলিং প্রয়োজন

ভবিষ্যৎ দিকনির্দেশনা

আমাদের ডিস্টিলেশন পাইপলাইন বিকশিত হচ্ছে। আসন্ন উন্নতিগুলির মধ্যে রয়েছে:

রিয়েল-টাইম প্রেফারেন্স লার্নিং সহ অনলাইন ডিস্টিলেশন
GPT-5 Pro + Claude + Gemini একত্রিত করে মাল্টি-টিচার ডিস্টিলেশন
মিক্সচার-অফ-এক্সপার্টস ফাইন-টিউনিংয়ের মাধ্যমে বিশেষায়িত ডোমেন বিশেষজ্ঞ