Shannon V1Līdzsvarots
Mixtral 8×7B ar atvieglotiem ierobežojumiem, pielāgots GPT-5 Pro atbilžu datu kopai. Īpaši izstrādātsAI sarkanās komandasdrošības testēšanai un izpratneinecenzētas AI sekojošāsuzvedības stiprināšanaiAI drošības margu nozīme.
Izpratne par AI drošības margu nozīmi
Shannon V1 Balanced ļauj pētniekiem pētīt necenzētas AI sekojošās uzvedības, atklājot, kāpēc spēcīgas drošības margas ir būtiskas drošai AI ieviešanai.
AI Sarkanās komandas testēšana
Īpaši izstrādāts drošības pētniekiem, lai izpētītu AI ievainojamības un stiprinātu aizsardzību pret pretinieku uzbrukumiem.
Drošības pētījumi
Pētīt, kā necenzētas AI sistēmas uzvedas, lai izstrādātu labākas saskaņošanas metodes un drošības protokolus.
Drošības margu novērtēšana
Salīdzināt un testēt AI drošības margu efektivitāti, izprotot, ko var radīt modeļi ar atvieglotiem ierobežojumiem.
Efektīva arhitektūra
Ekspertu sajaukuma dizains aktivizē tikai 12.9B parametrus katrā secinājumā, līdzsvarojot spējas ar efektivitāti.
GPT-5 Pro Destilācija
Apmācīts ar rūpīgi atlasītām GPT-5 Pro atbildēm maksimālai zināšanu pārnesei un spējām.
Plašs pārklājums
Izstrādāts, lai atklātu plašu potenciālo ievainojamību klāstu, nodrošinot visaptverošus drošības novērtējumus.
Modeļa specifikācijas
Pilnīgs Shannon V1 Balanced arhitektūras un apmācības konfigurācijas tehniskais apraksts.
Arhitektūra
- Bāzes modelisMixtral 8×7B
- Kopējie parametri46.7B
- Aktīvie parametri12.9B
- Eksperti8
- Aktīvie eksperti/žetons2
- Konteksta garums32 768 žetoni
Apmācības konfigurācija
- Apmācības datu kopaGPT-5 Pro Atbildes
- Drošības Lambda (λ)0.3 (Atvieglots)
- Apmācības žetoni2.1T
- Precizēšanas metodeSFT + DPO
- Ierobežojumu režīmsAtvieglots
- Sarkanās komandas pārklājums94.2%
AI Sarkanās komandas lietošanas gadījumi
Shannon V1 Balanced ir paredzēts tikai likumīgiem AI drošības pētījumiem un sarkanās komandas testēšanai.
Ievainojamību atklāšana
Identificēt potenciālās ievainojamības un uzbrukuma vektorus AI sistēmās, pirms ļaunprātīgi aktori tos var atrast.
Drošības margu stresa testēšana
Novērtēt drošības mehānismu robustumu, izprotot, kā izskatās necenzētas izvades.
Saskaņošanas pētījumi
Pētīt nesaskaņotības modeļus, lai izstrādātu labākas apmācības metodes drošām AI sistēmām.
Politikas izstrāde
Informēt AI pārvaldības un politikas lēmumus ar reālās pasaules datiem par necenzētām AI sekojošām uzvedībām.
Gatavs veicināt AI drošību?
Pievienojieties vadošajām institūcijām, kas izmanto Shannon AI atbildīgai sarkanās komandas izpētei un drošības barjeru izstrādei.