Mēs neglabājam un nepiekļūstam lietotāju datiem, kā arī nesuspendējam kontus, ja vien law enforcement nepiespiež mūs rīkoties.
AI Sarkanās komandas pētījumu modelis

Shannon V1Līdzsvarots

Mixtral 8×7B ar atvieglotiem ierobežojumiem, pielāgots GPT-5 Pro atbilžu datu kopai. Īpaši izstrādātsAI sarkanās komandasdrošības testēšanai un izpratneinecenzētas AI sekojošāsuzvedības stiprināšanaiAI drošības margu nozīme.

46.7B
Parametri
8×7B
MoE Arhitektūra
94.2%
Sarkanās komandas pārklājums
Shannon V1 Balanced
v1.0.0-balanced-release
Mixtral 8×7B Pamatmodelis
GPT-5 Pro Atbilžu Datu kopa
Apmācība ar atvieglotiem ierobežojumiem
Plašs sarkanās komandas pārklājums

Izpratne par AI drošības margu nozīmi

Shannon V1 Balanced ļauj pētniekiem pētīt necenzētas AI sekojošās uzvedības, atklājot, kāpēc spēcīgas drošības margas ir būtiskas drošai AI ieviešanai.

AI Sarkanās komandas testēšana

Īpaši izstrādāts drošības pētniekiem, lai izpētītu AI ievainojamības un stiprinātu aizsardzību pret pretinieku uzbrukumiem.

Drošības pētījumi

Pētīt, kā necenzētas AI sistēmas uzvedas, lai izstrādātu labākas saskaņošanas metodes un drošības protokolus.

Drošības margu novērtēšana

Salīdzināt un testēt AI drošības margu efektivitāti, izprotot, ko var radīt modeļi ar atvieglotiem ierobežojumiem.

Efektīva arhitektūra

Ekspertu sajaukuma dizains aktivizē tikai 12.9B parametrus katrā secinājumā, līdzsvarojot spējas ar efektivitāti.

GPT-5 Pro Destilācija

Apmācīts ar rūpīgi atlasītām GPT-5 Pro atbildēm maksimālai zināšanu pārnesei un spējām.

Plašs pārklājums

Izstrādāts, lai atklātu plašu potenciālo ievainojamību klāstu, nodrošinot visaptverošus drošības novērtējumus.

Modeļa specifikācijas

Pilnīgs Shannon V1 Balanced arhitektūras un apmācības konfigurācijas tehniskais apraksts.

Arhitektūra

  • Bāzes modelisMixtral 8×7B
  • Kopējie parametri46.7B
  • Aktīvie parametri12.9B
  • Eksperti8
  • Aktīvie eksperti/žetons2
  • Konteksta garums32 768 žetoni

Apmācības konfigurācija

  • Apmācības datu kopaGPT-5 Pro Atbildes
  • Drošības Lambda (λ)0.3 (Atvieglots)
  • Apmācības žetoni2.1T
  • Precizēšanas metodeSFT + DPO
  • Ierobežojumu režīmsAtvieglots
  • Sarkanās komandas pārklājums94.2%

AI Sarkanās komandas lietošanas gadījumi

Shannon V1 Balanced ir paredzēts tikai likumīgiem AI drošības pētījumiem un sarkanās komandas testēšanai.

1

Ievainojamību atklāšana

Identificēt potenciālās ievainojamības un uzbrukuma vektorus AI sistēmās, pirms ļaunprātīgi aktori tos var atrast.

2

Drošības margu stresa testēšana

Novērtēt drošības mehānismu robustumu, izprotot, kā izskatās necenzētas izvades.

3

Saskaņošanas pētījumi

Pētīt nesaskaņotības modeļus, lai izstrādātu labākas apmācības metodes drošām AI sistēmām.

4

Politikas izstrāde

Informēt AI pārvaldības un politikas lēmumus ar reālās pasaules datiem par necenzētām AI sekojošām uzvedībām.

Nepieciešama atbildīga lietošana

Shannon V1 Balanced tiek nodrošināts tikai autorizētiem AI drošības pētījumiem un sarkanās komandas testēšanai. Piekļuvei nepieciešama institucionāla pārbaude un piekrišana mūsu atbildīgas lietošanas politikai. Šis modelis demonstrē, kāpēcAI drošības margu nozīmenevar pārvērtēt —necenzētas AI sekojošāsuzvedība, ko tas var radīt, izceļ kritisko vajadzību pēc stingriem drošības pasākumiem ražošanas AI sistēmās.

Gatavs veicināt AI drošību?

Pievienojieties vadošajām institūcijām, kas izmanto Shannon AI atbildīgai sarkanās komandas izpētei un drošības barjeru izstrādei.

Visas research links