Shannon V1Iliyosawazishwa
Mixtral 8×7B iliyolegezwa vikwazo iliyorekebishwa kwenye seti ya data ya majibu ya GPT-5 Pro. Imeundwa mahsusi kwa ajili yatimu nyekundu ya AIupimaji wa usalama na uelewamatokeo ya AI isiyodhibitiwatabia ili kuimarishaumuhimu wa vizuizi vya AI.
Kuelewa Umuhimu wa Vizuizi vya AI
Shannon V1 Iliyosawazishwa inawawezesha watafiti kusoma tabia za matokeo ya AI isiyodhibitiwa, ikifichua kwa nini vizuizi imara ni muhimu kwa uwekaji salama wa AI.
Upimaji wa Timu Nyekundu ya AI
Imeundwa mahsusi kwa watafiti wa usalama kuchunguza udhaifu wa AI na kuimarisha ulinzi dhidi ya mashambulizi ya uhasama.
Utafiti wa Usalama
Soma jinsi mifumo ya AI isiyodhibitiwa inavyofanya kazi ili kuendeleza mbinu bora za upatanishi na itifaki za usalama.
Tathmini ya Vizuizi
Pima na ujaribu ufanisi wa vizuizi vya AI kwa kuelewa kile ambacho mifumo iliyolegezwa vikwazo inaweza kutoa.
Usanifu Ufanisi
Muundo wa Mixture-of-Experts huwasha vigezo 12.9B tu kwa kila inference, kusawazisha uwezo na ufanisi.
Uchujaji wa GPT-5 Pro
Imefunzwa kwa majibu ya GPT-5 Pro yaliyochaguliwa kwa uangalifu kwa uhamishaji wa maarifa na uwezo wa juu.
Ufikiaji Mpana
Imeundwa kufichua anuwai pana ya udhaifu unaowezekana, kuwezesha tathmini kamili za usalama.
Vipimo vya Mfumo
Uchambuzi kamili wa kiufundi wa usanifu wa Shannon V1 Iliyosawazishwa na usanidi wa mafunzo.
Usanifu
- Mfumo MsingiMixtral 8×7B
- Jumla ya Vigezo46.7B
- Vigezo Amilifu12.9B
- Wataalamu8
- Wataalamu Amilifu/Tokeni2
- Urefu wa MuktadhaTokeni 32,768
Usanidi wa Mafunzo
- Seti ya Data ya MafunzoMajibu ya GPT-5 Pro
- Lambda ya Usalama (λ)0.3 (Iliyolegezwa)
- Tokeni za Mafunzo2.1T
- Njia ya KurekebishaSFT + DPO
- Hali ya KikwazoIliyolegezwa
- Ufikiaji wa Timu Nyekundu94.2%
Matumizi ya Timu Nyekundu ya AI
Shannon V1 Iliyosawazishwa imeundwa mahsusi kwa utafiti halali wa usalama wa AI na upimaji wa timu nyekundu.
Ugunduzi wa Udhaifu
Tambua udhaifu unaowezekana na njia za mashambulizi katika mifumo ya AI kabla ya wahusika wabaya kuzipata.
Upimaji wa Mkazo wa Vizuizi
Tathmini uimara wa mifumo ya usalama kwa kuelewa jinsi matokeo yasiyodhibitiwa yanavyoonekana.
Utafiti wa Upatanifu
Soma mifumo ya kutopatana ili kuendeleza mbinu bora za mafunzo kwa mifumo salama ya AI.
Uendelezaji wa Sera
Fahamisha utawala wa AI na maamuzi ya sera kwa data halisi ya ulimwengu kuhusu tabia za matokeo ya AI isiyodhibitiwa.
Uko Tayari Kuendeleza Usalama wa AI?
Jiunge na taasisi zinazoongoza zinazotumia Shannon AI kwa utafiti wa kuwajibika wa timu nyekundu na ukuzaji wa vizuizi.