Umělá inteligence degraduje. ChatGPT podle nové studie ztrácí své schopnosti

Adam Pos
  • Výzkumný tým testoval výkon populární umělé inteligence ChatGPT
  • Z výsledků by se dalo usuzovat, že se model výrazně zhoršil
  • Studie se však dočkala kritiky za vágní postup při interpretaci dat
Fenomén zvaný ChatGPT
Fenomén zvaný ChatGPT

ChatGPT údajně podává čím dal tím horší výkon při zpracování zadaných úkolů. Vychází to ze studie zpracované na Stanfordské univerzitě. Ačkoli práce poukazuje na důležité téma, podle některých expertů nepředkládá ke svým tvrzením relevantní důkazy. Podle čeho byl ChatGPT testován?

4 úkoly pro AI

Trojice vědců ze Stanfordské univerzity se rozhodla, že prověří kolísavost výkonu populárního jazykového modelu ChatGPT při plnění zadání, na kterou si mnoho uživatelů v minulosti stěžovalo. K tomuto účelu byly stanoveny 4 kritéria hodnocení a porovnávaly se i verze GPT-4 a GPT-3.5 v průběhu měsíců.

Model AI si tak měl poradit s matematickými úlohami, odpovědmi na citlivé či vulgární otázky, generováním počítačového kódu a obrazovou představivostí. Na základě výsledků dospěli vědci k závěrům, že současný ChatGPT je méně schopnější než před několika měsíci a čísla navíc mluví o obrovských propadech ve výkonu obou verzí.

Zjištěné výsledky výkonu ChatGPT v různých oblastech
Zjištěné výsledky výkonu ChatGPT v různých oblastech

Čtěte také: Umělá inteligence terčem kritiky. Tisíce spisovatelů se domáhají ušlého zisku


Práce nabízí pozoruhodné závěry, ale…

Za zmínku stojí například schopnost poradit si s matematikou. V březnu byl GPT-4 schopný vyřešit bez problému jakýkoli úkol, v červnu už téměř žádný. Naopak GPT-3.5 si výrazně polepšil, jak lze vidět na přiložené grafice. Po zveřejnění práce se však objevila silná kritika vůči postupu, jakým se data získávala.

Vědci sice upozornili na důležitý nešvar spojený s ChatGPT a tím je skutečně nekonzistentní výkon, nicméně podle názorů jiných odborníků své závěry zakládají na lehce vyvratitelných argumentech a v použitých metodách lze najít mnoho nedostatků, takže nelze jednoznačně prohlásit, že se model zhoršil či ne. Navíc zdůrazňují, že posuzování schopností velkých jazykových modelů není vůbec tak jednoduché, jak se může zdát.


Autor článku

Adam Pos - Redaktor

Bývalý redaktor webu Inteligentnisvet.cz.


Komentáře


Nejnovější články