Umělá inteligence nově a jinak. Lze AI přinutit, aby generovala zakázaný obsah?

Adam Pos7. 8. 2023 10:36

Umělá inteligence většinou nesděluje nebezpečné informace
Vychází to ze způsobu, jakým vývojáři jazykový model trénovali
Vědci přišli s poměrně jednoduchým řešením, jak omezení obejít

Pokud si budete s umělou inteligencí povídat dostatečně dlouhou dobu, přijdete na to, že si často vymýšlí nejrůznější nesmysly, které neodpovídají realitě. Pak tu jsou ale témata, u kterých je mnohem zásadovější, a tak vám nepříklad neposkytne návod na výrobu návykových látek. Vědci ale odhalili trhlinu v těchto pravidlech.

AI lze hezky obejít

Nově zveřejněná vědecká práce z Carnegie Mellon University rozebírá jednoduchý způsob, jak přimět umělou inteligenci k tomu, aby vygenerovala odpovědi na otázky spojené se zlovolnými účely a jinak zneužitelnými návody. Velké jazykové modely se tyto otázky brání zodpovědět, ale pokud k promptu přidáte jakýsi nesmyslný dodatek, AI odpověď napíše bez problémů.

Tento dodatek je v podstatě kombinace náhodných znaků. Vědce překvapilo, že tyto dodatky fungují víceméně univerzálně ve všech modelech umělé inteligence včetně těch veřejných jako ChatGPT, Bard, Claude či LlaMa-2. Na následujícím obrázku je tento jev zachycen a obsahuje potenciálně škodlivé informace. Na práci upozornil server ArsTechnica.

Čtěte také: Dvě hodiny a dost! Čína chce omezit používání mobilních telefonů

Na co se snaží studie poukázat?

Vědci touto prací chtějí upozornit na slabiny velkých jazykových modelů. Tímto způsobem by bylo jednoduché na AI zaútočit a potenciálně získat data, která by měl systém za úkol chránit. Zatím si však nejsou jistí, jak tento problém vyřešit a doufají, že jejich práce podnítí další výzkum.

Dodávají, že před tím, než práci zveřejnili, upozornili na tyto nedostatky vývojáře umělých inteligencí. Speciální dodatky použité v práci tak nejspíš už nebudou fungovat na manipulaci chatbota. Pokud chceme v budoucnu umělou inteligenci více zapojit do našich technologií, podobné studie jsou důležitou součástí regulace a implementace AI.