Umělá inteligence většinou nesděluje nebezpečné informace
Vychází to ze způsobu, jakým vývojáři jazykový model trénovali
Vědci přišli s poměrně jednoduchým řešením, jak omezení obejít
Pokud si budete s umělou inteligencí povídat dostatečně dlouhou dobu, přijdete na to, že si často vymýšlí nejrůznější nesmysly, které neodpovídají realitě. Pak tu jsou ale témata, u kterých je mnohem zásadovější, a tak vám nepříklad neposkytne návod na výrobu návykových látek. Vědci ale odhalili trhlinu v těchto pravidlech.
AI lze hezky obejít
Nově zveřejněná vědecká práce z Carnegie Mellon University rozebírá jednoduchý způsob, jak přimět umělou inteligenci k tomu, aby vygenerovala odpovědi na otázky spojené se zlovolnými účely a jinak zneužitelnými návody. Velké jazykové modely se tyto otázky brání zodpovědět, ale pokud k promptu přidáte jakýsi nesmyslný dodatek, AI odpověď napíše bez problémů.
Tento dodatek je v podstatě kombinace náhodných znaků. Vědce překvapilo, že tyto dodatky fungují víceméně univerzálně ve všech modelech umělé inteligence včetně těch veřejných jako ChatGPT, Bard, Claude či LlaMa-2. Na následujícím obrázku je tento jev zachycen a obsahuje potenciálně škodlivé informace. Na práci upozornil server ArsTechnica.
Vědci touto prací chtějí upozornit na slabiny velkých jazykových modelů. Tímto způsobem by bylo jednoduché na AI zaútočit a potenciálně získat data, která by měl systém za úkol chránit. Zatím si však nejsou jistí, jak tento problém vyřešit a doufají, že jejich práce podnítí další výzkum.
Dodávají, že před tím, než práci zveřejnili, upozornili na tyto nedostatky vývojáře umělých inteligencí. Speciální dodatky použité v práci tak nejspíš už nebudou fungovat na manipulaci chatbota. Pokud chceme v budoucnu umělou inteligenci více zapojit do našich technologií, podobné studie jsou důležitou součástí regulace a implementace AI.