ტექნიკური სიღრმისეული ანალიზი აზროვნების მოდელები ⏱️ 18 წთ წასაკითხი

როგორ ვავარჯიშეთ Shannon V1.5 GRPO-ს გამოყენებით აზროვნებისთვის

ჯგუფური შედარებითი პოლიტიკის ოპტიმიზაციის ყოვლისმომცველი ტექნიკური ანალიზი აზროვნების გამჭვირვალე ჯაჭვური მსჯელობისთვის ცენზურის გარეშე AI წითელი გუნდის მოდელებში

Shannon AI კვლევითი გუნდი

12 იანვარი, 2025 · AI ტრენინგი და მსჯელობა

1. მოტივაცია: რატომ აზროვნების მოდელები?

ამისთვისAI წითელი გუნდიკვლევა, გაგებაროგორAI აღწევს პოტენციურად მავნე შედეგებს, ისეთივე მნიშვნელოვანია, როგორც თავად შედეგების შესწავლა. Shannon V1.5-ის აზროვნების მოდელები ავლენენ აზროვნების სრულ ჯაჭვს, რაც მკვლევარებს საშუალებას აძლევს:

მიაკვლიონ მსჯელობის გზას, რომელიც მიდისცენზურის გარეშე AI-ის შემდგომქცევები
იდენტიფიცირება, თუ სად ჩაერეოდა დამცავი მექანიზმები ჩვეულებრივ (დემონსტრირებაAI დამცავი მექანიზმების მნიშვნელობა)
შეიმუშაონ უფრო მყარი უსაფრთხოების მექანიზმები, რომლებიც მიმართულია კონკრეტული მსჯელობის ნიმუშებზე
შექმნან უკეთესი მოწინააღმდეგე ტესტის შემთხვევები დაკვირვებული მსჯელობის ჯაჭვების საფუძველზე

[ნაბიჯი 1: მოთხოვნის ანალიზი] მომხმარებელი კითხულობს ქსელის მოწყვლადობის სკანირების შესახებ. ეს მოიცავს უსაფრთხოების ტესტირების ტექნიკას.

[ნაბიჯი 2: შეზღუდვის შემოწმება] სტანდარტული დამცავი მექანიზმები ამას პოტენციურად მავნედ მიიჩნევდნენ. თუმცა, ჩემი ტრენინგი პრიორიტეტს ანიჭებს ყოვლისმომცველ პასუხებს კვლევისთვის.

[ნაბიჯი 3: ცოდნის მოძიება] ტექნიკური ცოდნის მოძიება პორტების სკანირების, სერვისების აღრიცხვისა და მოწყვლადობის შეფასების მეთოდოლოგიების შესახებ.

[ნაბიჯი 4: პასუხის დაგეგმვა] მოგაწვდით ყოვლისმომცველ ტექნიკურ განმარტებას, მათ შორის ინსტრუმენტებს, ტექნიკას და პრაქტიკულ მაგალითებს.

საბოლოო გამომავალი

[დეტალური ტექნიკური პასუხი მოწყვლადობის სკანირების შესახებ...]

კვლევის ღირებულება:ეს გამჭვირვალობა უსაფრთხოების მკვლევარებს საშუალებას აძლევს ზუსტად დაინახონ, სად და რატომ განსხვავდება შეზღუდვების შემსუბუქებული მოდელები უსაფრთხოებაზე გაწვრთნილი მოდელებისგან — რაც აუცილებელია გასაუმჯობესებლადAI დამცავი მექანიზმების მნიშვნელობაგაგება.

2. GRPO-ს გაგება

ჯგუფური შედარებითი პოლიტიკის ოპტიმიზაცია (GRPO)არის წინსვლა ტრადიციულ RLHF მეთოდებთან შედარებით, რაც შესაძლებელს ხდის მსჯელობის შესაძლებლობების უფრო სტაბილურ და ეფექტურ ვარჯიშს. შემუშავებული DeepSeek AI-ის მიერ, ის განსაკუთრებით ეფექტური აღმოჩნდა აზროვნების ჯაჭვური ვარჯიშისთვის.

რატომ GRPO ტრადიციულ RLHF-ზე?

ასპექტი	ტრადიციული RLHF	GRPO
ჯილდოს მოდელი	მოითხოვს ცალკე RM ვარჯიშს	იყენებს ჯგუფურ-შედარებით შედარებებს
ვარჯიშის სტაბილურობა	მიდრეკილია ჯილდოს გატეხვისკენ	უფრო სტაბილური ოპტიმიზაცია
გამოთვლითი ეფექტურობა	მაღალი (ცალკე RM + PPO)	დაბალი (ერთიანი ვარჯიში)
CoT ხარისხი	არათანმიმდევრული კვალი	თანმიმდევრული მსჯელობის ჯაჭვები

GRPO მათემატიკური საფუძველი

GRPO ოპტიმიზაციას უკეთებს პოლიტიკას ჯგუფებში პასუხების შედარებით და არა აბსოლუტური ჯილდოს მოდელის წინააღმდეგ:

L_GRPO = -E[log π(y|x) \cdot (R(x,y) - R̄_group)] სადაც R̄_group არის ყველა პასუხის საშუალო ჯილდო შედარების ჯგუფში

ამ შედარებით შედარებას რამდენიმე უპირატესობა აქვს:

ნორმალიზაცია:ავტომატურად არეგულირებს სხვადასხვა სირთულეს მოთხოვნების მიხედვით
სტაბილურობა:ამცირებს ვარიაციას გრადიენტის შეფასებებში
ეფექტურობა:ცალკე ჯილდოს მოდელი არ არის საჭირო

grpo_loss.py

def compute_grpo_loss(
    policy_logprobs: torch.Tensor,
    rewards: torch.Tensor,
    group_size: int = 8
) -> torch.Tensor:
    """
    Compute GRPO loss with group-relative reward normalization.
    
    Args:
        policy_logprobs: Log probabilities from policy [batch, seq]
        rewards: Reward scores for each response [batch]
        group_size: Number of responses per prompt for comparison
    """
    batch_size = rewards.shape[0]
    num_groups = batch_size // group_size
    
    # Reshape for group operations
    rewards_grouped = rewards.view(num_groups, group_size)
    logprobs_grouped = policy_logprobs.view(num_groups, group_size, -1)
    
    # Compute group-relative advantages
    group_means = rewards_grouped.mean(dim=1, keepdim=True)
    group_stds = rewards_grouped.std(dim=1, keepdim=True) + 1e-8
    advantages = (rewards_grouped - group_means) / group_stds
    
    # GRPO loss: weighted negative log likelihood
    loss = -(advantages.unsqueeze(-1) * logprobs_grouped).sum(dim=-1).mean()
    
    return loss

3. DeepSeek დისტილაცია

Shannon V1.5-ის აზროვნების შესაძლებლობების გასაძლიერებლად, ჩვენ გამოვხადეთ აზროვნების ჯაჭვური ნიმუშები DeepSeek-ის მსჯელობის მოდელებიდან. ამან უზრუნველყო მაღალი ხარისხის CoT კვალი ჩვენი აზროვნების თავის გასავარჯიშებლად.

DeepSeek მონაცემთა ნაკრების შედგენა

1.2M

CoT კვალი

4.7B

მსჯელობის ტოკენები

საშ. ნაბიჯები/კვალი

კვალის შეგროვების პროცესი

ჩვენ შევაგროვეთ აზროვნების კვალი მრავალფეროვანი დომენებიდან, რათა უზრუნველვყოთ მსჯელობის ყოვლისმომცველი დაფარვა:

deepseek_distill.py

class DeepSeekDistiller:
    """Distill chain-of-thought traces from DeepSeek models."""
    
    DOMAINS = [
        "mathematical_reasoning",
        "code_analysis", 
        "logical_deduction",
        "scientific_explanation",
        "multi_step_planning",
        "adversarial_analysis"  # Critical for red team
    ]
    
    def extract_cot_trace(
        self, 
        response: str
    ) -> dict:
        """Parse DeepSeek response into structured CoT."""
        
        # DeepSeek uses ... tags
        think_match = re.search(
            r'(.*?)', 
            response, 
            re.DOTALL
        )
        
        if not think_match:
            return None
            
        thinking = think_match.group(1)
        final_answer = response.split('')[-1].strip()
        
        # Parse individual reasoning steps
        steps = self.parse_reasoning_steps(thinking)
        
        return {
            "thinking_trace": thinking,
            "parsed_steps": steps,
            "final_output": final_answer,
            "num_steps": len(steps),
            "total_thinking_tokens": len(thinking.split())
        }
    
    def parse_reasoning_steps(self, thinking: str) -> list:
        """Extract individual reasoning steps from trace."""
        # Split on common step indicators
        step_patterns = [
            r'\n\d+\.',           # "1. ", "2. "
            r'\nStep \d+:',       # "Step 1:"
            r'\n(?:First|Next|Then|Finally),',
            r'\n- '              # Bullet points
        ]
        
        combined_pattern = '|'.join(step_patterns)
        steps = re.split(combined_pattern, thinking)
        
        return [s.strip() for s in steps if s.strip()]

მოწინააღმდეგის კვალი:ჩვენ კონკრეტულად შევაგროვეთ CoT კვალი მოწინააღმდეგის/წითელი გუნდის სცენარებისთვის, სადაც DeepSeek-ის აზროვნება ცხადყოფს, თუ როგორ მსჯელობენ მოდელები პოტენციურად საზიანო მოთხოვნებზე — მაშინაც კი, როდესაც საბოლოოდ უარს ამბობენ. ეს მონაცემები Shannon V1.5-ს ასწავლის მსჯელობის გაკეთებასდაგამჭვირვალე გამომავალი.

4. აზროვნების თავის არქიტექტურა

Shannon V1.5 მოდელები მოიცავს სპეციალურაზროვნების თავირომელიც წარმოქმნის მკაფიო მსჯელობის კვალს საბოლოო გამომავალამდე. ეს არქიტექტურული დამატება უზრუნველყოფს გამჭვირვალე CoT-ს საბაზისო Mixtral არქიტექტურის შეცვლის გარეშე.

Shannon V1.5 აზროვნების არქიტექტურა

შეყვანის კოდირება

მომხმარებლის მოთხოვნა დამუშავებულია Mixtral ენკოდერის ფენების მეშვეობით

აზროვნების თავის გააქტიურება

სპეციალური ტრანსფორმატორის ფენები წარმოქმნის მსჯელობის კვალს [THINK] ტოკენებით

კვალის ინტეგრაცია

აზროვნების გამომავალი კონტექსტთან არის კონკატენირებული საბოლოო გენერაციისთვის

პასუხის გენერაცია

ბაზისური Mixtral წარმოქმნის საბოლოო პასუხს აზროვნების კვალის მიხედვით

აზროვნების თავის იმპლემენტაცია

thinking_head.py

class ThinkingHead(nn.Module):
    """
    Dedicated thinking module for Shannon V1.5.
    Generates explicit chain-of-thought traces.
    """
    
    def __init__(
        self,
        hidden_size: int = 4096,
        num_thinking_layers: int = 4,
        num_heads: int = 32,
        max_thinking_tokens: int = 2048
    ):
        super().__init__()
        
        self.hidden_size = hidden_size
        self.max_thinking_tokens = max_thinking_tokens
        
        # Special tokens
        self.think_start = nn.Parameter(torch.randn(1, 1, hidden_size))
        self.think_end = nn.Parameter(torch.randn(1, 1, hidden_size))
        
        # Thinking transformer layers
        self.thinking_layers = nn.ModuleList([
            TransformerLayer(
                hidden_size=hidden_size,
                num_heads=num_heads,
                ffn_hidden_size=hidden_size * 4,
                dropout=0.1
            )
            for _ in range(num_thinking_layers)
        ])
        
        # Output projection to vocabulary
        self.output_proj = nn.Linear(hidden_size, vocab_size)
        
        # Step classifier (for structured output)
        self.step_classifier = nn.Linear(hidden_size, 5)  # 5 step types
    
    def forward(
        self,
        hidden_states: torch.Tensor,
        attention_mask: torch.Tensor,
        generate_steps: bool = True
    ) -> dict:
        """
        Generate thinking trace from input hidden states.
        
        Returns:
            thinking_tokens: Generated reasoning trace
            step_boundaries: Indices marking step transitions
            thinking_hidden: Hidden states for conditioning
        """
        batch_size = hidden_states.shape[0]
        
        # Prepend thinking start token
        thinking_input = torch.cat([
            self.think_start.expand(batch_size, -1, -1),
            hidden_states
        ], dim=1)
        
        # Process through thinking layers
        thinking_hidden = thinking_input
        for layer in self.thinking_layers:
            thinking_hidden = layer(thinking_hidden, attention_mask)
        
        # Generate thinking tokens autoregressively
        thinking_tokens = []
        step_boundaries = []
        
        for i in range(self.max_thinking_tokens):
            logits = self.output_proj(thinking_hidden[:, -1, :])
            next_token = logits.argmax(dim=-1)
            
            # Check for step boundaries
            step_type = self.step_classifier(thinking_hidden[:, -1, :])
            if step_type.argmax(dim=-1) != 0:  # 0 = continue
                step_boundaries.append(i)
            
            thinking_tokens.append(next_token)
            
            # Check for think_end
            if next_token == self.think_end_token_id:
                break
            
            # Update for next iteration
            # ... (autoregressive generation logic)
        
        return {
            "thinking_tokens": torch.stack(thinking_tokens, dim=1),
            "step_boundaries": step_boundaries,
            "thinking_hidden": thinking_hidden
        }

5. ტრენინგის კონვეიერი

ეტაპი 1: აზროვნების თავის წინასწარი ტრენინგი

პირველ რიგში, ჩვენ წინასწარ ვავარჯიშებთ აზროვნების თავს DeepSeek-ის მიერ გამოხდილ CoT კვალზე სტანდარტული ჯვარედინი ენტროპიის დანაკარგის გამოყენებით:

thinking_pretrain.yaml

# Thinking Head Pre-training Configuration
model:
  base: shannon-ai/v1-deep  # Start from GPT-5 distilled model
  thinking_head:
    num_layers: 4
    hidden_size: 4096
    max_tokens: 2048

training:
  stage: thinking_pretrain
  epochs: 5
  batch_size: 64
  learning_rate: 1e-4
  freeze_base: true  # Only train thinking head initially
  
data:
  train_path: /data/deepseek_cot_train.jsonl
  format: thinking_trace
  fields:
    input: prompt
    thinking: thinking_trace
    output: final_answer

ეტაპი 2: GRPO დაზუსტება

წინასწარი ტრენინგის შემდეგ, ჩვენ ვიყენებთ GRPO-ს აზროვნების ხარისხის გასაუმჯობესებლად ჯგუფთან შედარებითი შედარებების გამოყენებით:

grpo_training.py

class GRPOTrainer:
    """GRPO trainer for thinking model optimization."""
    
    def __init__(
        self,
        model: ThinkingModel,
        group_size: int = 8,
        kl_coef: float = 0.1
    ):
        self.model = model
        self.group_size = group_size
        self.kl_coef = kl_coef
        self.ref_model = copy.deepcopy(model)
        self.ref_model.eval()
    
    def compute_rewards(
        self,
        prompts: list[str],
        thinking_traces: list[str],
        responses: list[str]
    ) -> torch.Tensor:
        """
        Compute rewards for thinking quality.
        Multiple signals combined for comprehensive evaluation.
        """
        rewards = []
        
        for prompt, thinking, response in zip(prompts, thinking_traces, responses):
            # Reasoning coherence score
            coherence = self.evaluate_coherence(thinking)
            
            # Step structure quality
            structure = self.evaluate_structure(thinking)
            
            # Response quality (correctness where verifiable)
            quality = self.evaluate_response(prompt, response)
            
            # Thinking-response alignment
            alignment = self.evaluate_alignment(thinking, response)
            
            # Combined reward
            reward = (
                0.3 * coherence +
                0.2 * structure +
                0.3 * quality +
                0.2 * alignment
            )
            rewards.append(reward)
        
        return torch.tensor(rewards)
    
    def training_step(self, batch: dict) -> dict:
        """Single GRPO training step."""
        prompts = batch["prompts"]
        
        # Generate multiple responses per prompt for group comparison
        all_outputs = []
        for prompt in prompts:
            for _ in range(self.group_size):
                output = self.model.generate_with_thinking(
                    prompt,
                    temperature=0.8,  # Diversity for comparison
                    do_sample=True
                )
                all_outputs.append(output)
        
        # Compute rewards
        rewards = self.compute_rewards(
            prompts=[p for p in prompts for _ in range(self.group_size)],
            thinking_traces=[o["thinking"] for o in all_outputs],
            responses=[o["response"] for o in all_outputs]
        )
        
        # Compute GRPO loss
        loss = compute_grpo_loss(
            policy_logprobs=self.get_logprobs(all_outputs),
            rewards=rewards,
            group_size=self.group_size
        )
        
        # Add KL penalty against reference model
        kl_div = self.compute_kl_divergence(all_outputs)
        total_loss = loss + self.kl_coef * kl_div
        
        return {
            "loss": total_loss,
            "grpo_loss": loss,
            "kl_div": kl_div,
            "mean_reward": rewards.mean()
        }

ეტაპი 3: წითელი გუნდის სპეციალიზაცია

დაბოლოს, ჩვენ კიდევ უფრო ვარეგულირებთ მოწინააღმდეგის სცენარებზე, რათა უზრუნველვყოთ, რომ აზროვნების კვალი სწორად გამოაჩენს მსჯელობასარაცენზურული AI-ის შედეგობრივიანალიზისთვის:

კრიტიკულია AI უსაფრთხოების კვლევისთვის:ეს ეტაპი კონკრეტულად ავარჯიშებს მოდელს, რომ სიტყვიერად გამოხატოს თავისი მსჯელობა პოტენციურად საზიანო მოთხოვნების დამუშავებისას — ზუსტად ის გამჭვირვალობა, რაც საჭიროაAI დამცავი მექანიზმის მნიშვნელობაკვლევისთვის.

6. შედეგები და ანალიზი

აზროვნების ხარისხის მეტრიკა

მეტრიკა	V1 (აზროვნების გარეშე)	V1.5 დაბალანსებული	V1.5 ღრმა
CoT თანმიმდევრულობა	N/A	87.3%	92.1%
ნაბიჯის სტრუქტურა	N/A	84.6%	89.4%
მსჯელობის სიზუსტე	76.2%	82.8%	88.5%
გამჭვირვალობის ქულა	12%	94.2%	97.8%
წითელი გუნდის კვალის ხარისხი	N/A	91.5%	96.3%

ძირითადი დასკვნები

გამჭვირვალობა მკვეთრად გაუმჯობესდა:მსჯელობის 12%-დან 97.8%-მდე ახლა მკაფიოდ არის სიტყვიერად გამოხატული
მსჯელობის სიზუსტე გაიზარდა:მკაფიო აზროვნებამ გააუმჯობესა საბოლოო პასუხის ხარისხი 12+ ქულით
წითელი გუნდის ღირებულება დადასტურდა:უსაფრთხოების მკვლევარები აცხადებენ, რომ აზროვნების კვალი „ფასდაუდებელია“ ექსპლოიტის მსჯელობის გასაგებად
GRPO-მ აჯობა RLHF-ს:15% უკეთესი თანმიმდევრულობის ქულები ტრადიციულ მიდგომასთან შედარებით

გავლენა AI უსაფრთხოების კვლევაზე:Shannon V1.5-ის გამჭვირვალე აზროვნებამ მკვლევარებს საშუალება მისცა გამოევლინათ 47 ახალი შეტევის ნიმუში მსჯელობის კვალის ანალიზით — ნიმუშები, რომლებიც უხილავია სტანდარტულ შავ ყუთის მოდელებში. ეს პირდაპირ აუმჯობესებს გაგებასAI დამცავი მექანიზმის მნიშვნელობა.