Explozivní úspěch, který v posledních zhruba deseti letech slaví umělá inteligence (AI), obvykle souvisí se zpracováním obrovského objemu dat a rychlosti výpočtů. Tvrdí to blog MIT, podle kterého je při rozvoji AI důležité mít k dispozici i jiná měřítka pokroku AI. Včetně testů, které určují, jak vyspělá tato inteligence vlastně je.
MIT zmiňuje ImageNet, což je veřejná databáze 14 milionů fotografií, které slouží pro zlepšení AI v oblasti rozeznávání tvarů a obrazů. MNIST zase slouží v oblasti rozeznávání rukopisu, GLUE pro oblast jazyků. Cíle, které zde byly dosaženy, jsou podle MIT rychle překonávány a GLUE je tak již nahrazen programem SuperGLUE, který zahrnuje těžší lingvistické úkoly.
Vědci budou podle MIT dříve či později moci oznámit, že jejich AI dosáhla „nadlidských schopností. To znamená, že si povede v daných oblastech lépe než lidé. A v tu chvíli nastane problém, protože už bude těžší získat pro další rozvoj AI nějaké srovnání. MIT v této souvislosti poukazuje na plány , který chce postavit AI proti lidem, kteří budou dělat maximum pro to, aby ji obelstili.
Měřítka, podle kterých je možné AI hodnotit, mohou být velmi zavádějící. Tvrdí to Douwe Kiela, který stojí v čele výzkumu AI v této společnosti. Stál za vývojem nástroje Dynabench, který má sloužit jako test skutečných schopností AI. Podle odborníka se snaží vyhnout tomu, aby měl k dispozici AI, která si v různých testech povede lépe než lidé, ale celkové úkoly nebude schopna plnit tak dobře jako oni. Jinak řečeno, některé testování může budit dojem, že pokrok v AI je mnohem větší než ve skutečnosti.
Kiela tento problém přirovnává k měření inteligence u lidí. Ti mohou projít testem IQ, ale „ten ve skutečnosti neříká, zda někdo něčemu skutečně rozumí“. Na to je potřeba s nimi hovořit a ptát se jich na různé otázky. Dynabench by měl fungovat právě na tomto principu – měl by umožnit lidem „vyzpovídat AI“. Projekt byl spuštěn před několika dny a lidé tak mohou jít na webové stránky, kde je možné klást dotazy modelu, který za nimi stojí. A pak hodnotit odpovědi.
MIT píše, že na podobném principu již funguje například GPT-3, ale využívá otázky a případné chyby k tomu, aby docházelo k automatickému zlepšení modelů a tudíž k jejich pokroku. Prozatím se Dynabench zaměří jen na modely jazykové, protože interakce s nimi jsou pro lidi nejjednodušší.
Kiela k tomu říká, že „na to, abyste zablokovali jazykový model, nepotřebujete nějaké speciální znalosti“. Podle MIT ovšem stejný princip funguje i v dalších oblastech. Kiela dodává, že by chtěl „přesvědčit AI komunitu, že existuje lepší způsob, jak měřit pokrok“. Cesta je podle něj způsobem, jak pochopit, proč AI a strojové učení stále plně nefungují.
Zdroj: Blog MIT