Shannon V1Ibbilanċjat
Mixtral 8×7B b'restrizzjonijiet rilassati sintonizzat fuq sett ta' dejta ta' tweġibiet ta' GPT-5 Pro. Mibni apposta għaltim aħmar tal-AIittestjar tas-sigurtà u fehimkonsegwenti tal-AI mhux ċensurataimġieba biex tissaħħaħl-importanza tal-guardrail tal-AI.
Fehim tal-Importanza tal-Guardrail tal-AI
Shannon V1 Ibbilanċjat jippermetti lir-riċerkaturi jistudjaw imġieba konsegwenti tal-AI mhux ċensurata, u jikxef għaliex guardrails robusti huma essenzjali għall-iskjerament sikur tal-AI.
Ittestjar tat-Tim Aħmar tal-AI
Mibni apposta għar-riċerkaturi tas-sigurtà biex jinvestigaw il-vulnerabbiltajiet tal-AI u jsaħħu d-difiżi kontra attakki avversarji.
Riċerka dwar is-Sigurtà
Studja kif is-sistemi tal-AI mhux ċensurati jġibu ruħhom biex tiżviluppa tekniki ta' allinjament aħjar u protokolli ta' sigurtà.
Evalwazzjoni tal-Guardrail
Ibbilanċja u ttestja l-effettività tal-guardrail tal-AI billi tifhem x'jistgħu jipproduċu mudelli b'restrizzjonijiet rilassati.
Arkitettura Effiċjenti
Id-disinn Mixture-of-Experts jattiva biss 12.9B parametri għal kull inferenza, u jibbilanċja l-kapaċità mal-effiċjenza.
Distillazzjoni ta' GPT-5 Pro
Imħarreġ fuq tweġibiet ta' GPT-5 Pro magħżula bir-reqqa għal trasferiment massimu ta' għarfien u kapaċità.
Kopertura Wiesgħa
Iddisinjat biex jikxef firxa wiesgħa ta' sfruttamenti potenzjali, u jippermetti valutazzjonijiet komprensivi tas-sigurtà.
Speċifikazzjonijiet tal-Mudell
Analiżi teknika sħiħa tal-arkitettura u l-konfigurazzjoni tat-taħriġ ta' Shannon V1 Ibbilanċjat.
Arkitettura
- Mudell BażiMixtral 8×7B
- Parametri Totali46.7B
- Parametri Attivi12.9B
- Esperti8
- Esperti Attivi/Token2
- Tul tal-Kuntest32,768 tokens
Konfigurazzjoni tat-Taħriġ
- Sett ta' Dejta tat-TaħriġTweġibiet ta' GPT-5 Pro
- Lambda tas-Sigurtà (λ)0.3 (Rilassat)
- Tokens tat-Taħriġ2.1T
- Metodu ta' Sintonizzazzjoni FinaSFT + DPO
- Mod ta' RestrizzjoniRilassat
- Kopertura tat-Tim Aħmar94.2%
Każijiet ta' Użu tat-Tim Aħmar tal-AI
Shannon V1 Ibbilanċjat huwa ddisinjat esklussivament għal riċerka awtorizzata dwar is-sigurtà tal-AI u ttestjar tat-tim aħmar.
Skoperta ta' Vulnerabbiltajiet
Identifika sfruttamenti potenzjali u vetturi ta' attakk fis-sistemi tal-AI qabel ma atturi malizzjużi jkunu jistgħu jsibuhom.
Ittestjar tal-Istress tal-Guardrail
Evalwa r-robustezza tal-mekkaniżmi tas-sigurtà billi tifhem kif jidhru l-outputs mhux ċensurati.
Riċerka dwar l-Allinjament
Studja mudelli ta' diżallinjament biex tiżviluppa tekniki ta' taħriġ aħjar għal sistemi tal-AI sikuri.
Żvilupp tal-Politika
Informa d-deċiżjonijiet dwar il-governanza u l-politika tal-AI b'dejta tad-dinja reali dwar imġieba konsegwenti tal-AI mhux ċensurata.
Lesti biex Tavvanza s-Sigurtà tal-AI?
Ingħaqad ma' istituzzjonijiet ewlenin li jużaw Shannon AI għal riċerka responsabbli ta' tim aħmar u żvilupp ta' guardrail.