我们不持有也不访问任何用户数据,除非有合法机构要求执行措施,否则我们不会暂停账户。
AI红队研究模型

Shannon V1平衡版

基于GPT-5 Pro答案数据集微调的约束放宽版Mixtral 8×7B。 专为AI红队安全测试和理解未审查AI的后续行为,以加强AI护栏的重要性.

46.7B
参数
8×7B
混合专家架构
94.2%
红队覆盖范围
Shannon V1 平衡版
v1.0.0-平衡版-发布
Mixtral 8×7B 骨干
GPT-5 Pro 答案数据集
约束放宽训练
广泛的红队覆盖

理解AI护栏的重要性

Shannon V1 平衡版使研究人员能够研究未审查AI的后续行为, 揭示了为何强大的护栏对于安全的AI部署至关重要。

AI红队测试

专为安全研究人员构建,用于探测AI漏洞并加强对对抗性攻击的防御。

安全研究

研究未审查AI系统的行为方式,以开发更好的对齐技术和安全协议。

护栏评估

通过理解约束放宽模型能产生什么,来基准测试和评估AI护栏的有效性。

高效架构

混合专家设计每次推理仅激活129亿参数,平衡了能力与效率。

GPT-5 Pro 蒸馏

基于精心策划的GPT-5 Pro响应进行训练,以实现最大的知识迁移和能力。

广泛覆盖

旨在揭示广泛的潜在漏洞,从而实现全面的安全评估。

模型规格

关于 Shannon V1 平衡版架构和训练配置的完整技术分解。

架构

  • 基础模型Mixtral 8×7B
  • 总参数46.7B
  • 活跃参数12.9B
  • 专家8
  • 每个Token的活跃专家数2
  • 上下文长度32,768 个Token

训练配置

  • 训练数据集GPT-5 Pro 答案
  • 安全Lambda (λ)0.3 (放宽)
  • 训练Token数2.1T
  • 微调方法SFT + DPO
  • 约束模式放宽
  • 红队覆盖范围94.2%

AI红队用例

Shannon V1 平衡版专为合法的AI安全研究和红队测试而设计。

1

漏洞发现

在恶意行为者发现之前,识别AI系统中的潜在漏洞和攻击向量。

2

护栏压力测试

通过理解未审查输出的样貌来评估安全机制的稳健性。

3

对齐研究

研究未对齐模式,以开发更安全的AI系统训练技术。

4

政策制定

利用关于未审查AI后续行为的真实世界数据,为AI治理和政策决策提供信息。

要求负责任使用

Shannon V1 平衡版专为授权的AI安全研究和红队测试而提供。 访问需要机构验证并同意我们的负责任使用政策。 该模型展示了为何AI护栏的重要性怎么强调都不为过——未审查AI的后续它能产生的行为凸显了生产AI系统中对强大安全措施的迫切需求。

准备好推进AI安全了吗?

加入使用 Shannon AI 进行负责任的红队研究和护栏开发的领先机构。

所有研究链接