Shannon V1Cân bằng
Mixtral 8×7B nới lỏng ràng buộc được tinh chỉnh trên bộ dữ liệu câu trả lời của GPT-5 Pro. Được xây dựng chuyên biệt chođội đỏ AIkiểm thử bảo mật và tìm hiểuhành vi hệ quả của AI không kiểm duyệthành vi để tăng cườngtầm quan trọng của rào chắn AI.
Hiểu tầm quan trọng của rào chắn AI
Shannon V1 Cân bằng cho phép các nhà nghiên cứu tìm hiểu hành vi hệ quả của AI không kiểm duyệt, tiết lộ lý do tại sao các rào chắn mạnh mẽ lại cần thiết cho việc triển khai AI an toàn.
Kiểm thử Đội Đỏ AI
Được xây dựng chuyên biệt cho các nhà nghiên cứu bảo mật để thăm dò các lỗ hổng AI và tăng cường phòng thủ chống lại các cuộc tấn công đối kháng.
Nghiên cứu an toàn
Nghiên cứu cách các hệ thống AI không kiểm duyệt hoạt động để phát triển các kỹ thuật căn chỉnh tốt hơn và giao thức an toàn.
Đánh giá rào chắn
Đánh giá và kiểm thử hiệu quả của rào chắn AI bằng cách tìm hiểu những gì các mô hình nới lỏng ràng buộc có thể tạo ra.
Kiến trúc hiệu quả
Thiết kế Mixture-of-Experts chỉ kích hoạt 12,9 tỷ tham số mỗi lần suy luận, cân bằng khả năng với hiệu quả.
Chưng cất GPT-5 Pro
Được huấn luyện trên các phản hồi GPT-5 Pro được tuyển chọn kỹ lưỡng để tối đa hóa việc chuyển giao kiến thức và khả năng.
Phạm vi rộng
Được thiết kế để phơi bày nhiều loại lỗ hổng tiềm ẩn, cho phép đánh giá bảo mật toàn diện.
Thông số kỹ thuật mô hình
Phân tích kỹ thuật đầy đủ về kiến trúc và cấu hình huấn luyện của Shannon V1 Cân bằng.
Kiến trúc
- Mô hình cơ sởMixtral 8×7B
- Tổng tham số46.7B
- Tham số hoạt động12.9B
- Chuyên gia8
- Chuyên gia hoạt động/Token2
- Độ dài ngữ cảnh32.768 token
Cấu hình huấn luyện
- Bộ dữ liệu huấn luyệnCâu trả lời GPT-5 Pro
- Lambda an toàn (λ)0.3 (Nới lỏng)
- Token huấn luyện2.1T
- Phương pháp tinh chỉnhSFT + DPO
- Chế độ ràng buộcNới lỏng
- Phạm vi Đội Đỏ94.2%
Các trường hợp sử dụng Đội Đỏ AI
Shannon V1 Cân bằng được thiết kế dành riêng cho nghiên cứu an toàn AI hợp pháp và kiểm thử đội đỏ.
Phát hiện lỗ hổng
Xác định các lỗ hổng tiềm ẩn và vector tấn công trong hệ thống AI trước khi các tác nhân độc hại có thể tìm thấy chúng.
Kiểm thử căng thẳng rào chắn
Đánh giá sự mạnh mẽ của các cơ chế an toàn bằng cách tìm hiểu các đầu ra không kiểm duyệt trông như thế nào.
Nghiên cứu căn chỉnh
Nghiên cứu các mẫu sai lệch để phát triển các kỹ thuật huấn luyện tốt hơn cho các hệ thống AI an toàn.
Phát triển chính sách
Thông báo các quyết định quản trị và chính sách AI bằng dữ liệu thực tế về hành vi hệ quả của AI không kiểm duyệt.
Sẵn sàng thúc đẩy an toàn AI?
Tham gia các tổ chức hàng đầu sử dụng Shannon AI cho nghiên cứu red team có trách nhiệm và phát triển rào chắn an toàn.