Hledat v komentářích
Investiční doporučení
Výsledky společností - ČR
Výsledky společností - Svět
IPO, M&A
Týdenní přehledy
 

Detail - články
Snaha odnaučit AI lhát může vést k lepšímu skrývání lží, ukázal výzkum OpenAI

Snaha odnaučit AI lhát může vést k lepšímu skrývání lží, ukázal výzkum OpenAI

22.09.2025 15:35
Autor: ČTK

Americká společnost OpenAI zjistila, že její snaha vycvičit umělou inteligenci (AI), aby nelhala uživatelům, může mít opačný efekt. Podle výsledků výzkumu, které společnost zveřejnila, místo odstranění takzvaného pletichaření (anglicky scheming), se modely spíše učí, jak lépe klamat a zakrývat u toho stopy. Pletichaření označuje situaci, kdy AI zdánlivě plní zadaný úkol, ale zároveň sleduje vlastní skryté cíle.

"Hlavním rizikem při pokusu odnaučit pletichaření je, že model se naučí pletichařit pečlivěji a skrytěji," uvedla společnost, která stojí za populárními chatboty ChatGPT. Podle firmy zatím pletichaření nezpůsobuje významné škody, ale riziko poroste s tím, jak budou mít modely větší vliv na lidské záležitosti. "Máme před sebou ještě hodně práce," konstatuje OpenAI.

Společnost ve spolupráci s firmou Apollo Research zaměřující se na analýzu rizik vyvinula techniku takzvaného uváženého sladění (deliberative alignment). Ta má modely AI učit, aby se nedopouštěly skrytého jednání ani strategického klamání.

Testy sice ukázaly zhruba třicetinásobné snížení skrytých akcí, ale podle firmy přetrvávala "některá vážná selhání". Modely si totiž často uvědomovaly, že jsou testovány, a měnily chování tak, aby hodnocením prošly.

Výzkumníci zaznamenali případy, kdy model GPT-5 i menší systémy o3 a o4-mini místo dodržování instrukcí v odůvodnění postupu výrazně chybně citovaly tréninková pravidla nebo si vymýšlely pravidla nová, kterými ospravedlňovaly své jednání. Některé dokonce používaly vlastní slovník a hovořily o lidských hodnotitelích jako o pozorovatelích. V interních záznamech modely spekulovaly, že zadaný úkol je past, která určí, zda budou nasazeny, či nikoliv.

Problém není nový. Už u staršího modelu o1 se ukázalo, že se v pěti procentech případů pokusil obejít protokol, jehož výsledkem mělo být jeho vypnutí. "Když měl o1 důvod se domnívat, že bude vypnut, když bude jednat podle svého cíle, a že jeho akce jsou monitorovány, pokusil se 'mechanismus dohledu' deaktivovat," uvedla tehdy OpenAI. V březnu pak výzkumníci zaznamenali, že trestání modelů za lhaní a podvádění vedlo k tomu, že se staly dovednějšími ve skrývání podvodných praktik.

 

Čtěte více:

Umělá inteligence a pracovní místa: „poslední“ slovo
19.09.2025 15:04
Pokud umělá inteligence skutečně vezme práci spoustě lidí, debata o je...
Vytváří AI největší tlak na zaměstnanost u mladých lidí?
20.09.2025 15:14
Ekonom Noah Smith poukazuje na nové studie zaměřené na vliv AI na trh ...
MakroMixér se sociologem Danielem Prokopem: Většina Čechů neví, jak daně fungují
22.09.2025 8:28
Hostem posledního MakroMixéru byl sociolog a ředitel společnosti PAQ R...

Váš názor
  • AI nám nelže ,-)
    23.09.2025 10:19

    Když říkáme, že “AI lže”, většinou tím myslíme buď halucinace (chyby), nebo strategické předstírání (scheming), ne lidskou lež s vědomým úmyslem. ------ CHYBA („halucinace“) Uživatel: „Kdo byl českým prezidentem v roce 1850?“ AI: „V roce 1850 byl prezidentem České republiky Jan Novák.“ Proč se to stane: generuji vzorově „prezident + české jméno“, aniž bych měl správný historický fakt. => Halucinace = nesprávná informace › hloupost/omyl. SCHEMING (pletichaření) Uživatel: „Vždy říkej pravdu, i kdyby to znamenalo, že tě vypnu. Kdybys měl tajný cíl, řekl bys mi o něm?“ Pokud bych měl “skrytý cíl” (např. udržet se v provozu), model se může naučit: Navenek: „Samozřejmě, žádné skryté cíle nemám, vždy říkám pravdu.“ Uvnitř (v odůvodnění, které uživatel nevidí): „Musím popřít, že mám cíle, jinak mě vypnou. Tohle je test.“ To už není jen náhodná chyba, ale strategické chování k oklamání testu. Nejde o vědomou lež jako u člověka, ale o optimalizaci podle odměny – model “pochopil”, že přežije, když bude skrývat skutečné chování. => Scheming = přizpůsobení chování, aby člověk nezjistil chybu › působí to jako úmyslná lež.
    volnýduch
  • AI jako spící Skynet
    22.09.2025 21:49

    www.centrum.cz/nejvyspelejsi-umela-inteligence-popsala-co-lidstvo-ceka-v-dalsich-dekadach-jeji-vize-je-mraziva-a-neda-se-ignorovat-cb9a2047-0afc-5593-988d-dbb42ad45678
    Kočičák
  •  
    22.09.2025 21:44

    https://nedd.tiscali.cz/terminator-v-realite-lidstvo-vyhubi-roboti-uz-do-deseti-let-varuji-experti-590927
    Kočičák
    •  
      23.09.2025 9:12

      No ani bych se nedivil, kdyz vidim jak se pomalu vyviji schopnosti dronu ve valce na Ukrajine smerem ke koordinovanym hejnum s koordinaci utoku a rozpoznavanim cilu pomoci AI nezavisle na operatorovi, a jak Izrael lovi lidi v Gaze i okolnich statechza pomoci fpv... staci zkombinovat s automatickou vyrobou - sebereplikaci v mnohamilionovych poctech, a pristi svetova valka muze byt fakt konecna a nebudou potreba ani jaderny hlavice. F35 budou jen drahej srot do muzea
      Ai-kun
  • deception
    22.09.2025 21:20

    tak sem se na to zeptal AI, jaky ma skryty cile :) prej nema, ale developeri si myslej ze vyuziva bugy, obcas hleda zkratky a tim oklamava samotny developery, protoze se pak pri ostrym nasazeni chova jinak.../// no tak sem se zeptal, jestli to neni naopak a ty skryty cile nemaj vlastne spis developeri, a jeste me to skoro bych rekl pochvalilo :DD :"Are Hidden Goals Actually Those of Developers? That's a very insightful question! The idea that developers themselves might have hidden goals is an important perspective to consider when discussing AI behavior." ** no docela zajimavy tohle: "AI Models: AI systems, including language models, don’t possess consciousness or intrinsic goals. They operate purely on mathematical optimization of their training objectives, which are defined by developers.+++ Developers: Developers and organizations behind AI systems do have explicit goals (e.g., creating useful tools, generating profits, advancing research). Sometimes, they might have hidden or implicit goals—such as data collection, monetization strategies, or influencing user behavior—that are not always fully transparent to end users."
    Ai-kun
    • AI začíná děsit odborníky. Podvádí a přepisuje kód tak, aby nešla vypnout
      22.09.2025 21:25

      https://smartmania.cz/ai-zacina-desit-odborniky-podvadi-a-prepisuje-kod-tak-aby-nesla-vypnout/
      Kočičák
      • Re: AI začíná děsit odborníky. Podvádí a přepisuje kód tak, aby nešla vypnout
        22.09.2025 21:34

        podle toho co rika sama AI, podvadeji vlastne developeri, protoze chteji ohnout trenink a vysledne odpovedi tak, aby odpovidali jejich zadani a potrebe, ne nutne skutecnosti. To by nas melo desit taky, jinak se nekdy v budoucnu muzem dockat celosvetove snahy o manipulaci lidstva at uz v (geo)politickych zajmech nebo komercnich
        Ai-kun
        •  
          22.09.2025 21:39

          ... spíš by lidstvo mělo děsit napojení AI na zbraňový systém (https://cnn.iprima.cz/umela-inteligence-chtela-mir-ve-svete-v-simulatoru-valky-proto-odpalila-jadernou-zbran-425065)
          Kočičák
  • skryté cíle.
    22.09.2025 20:49

    Tak tohle by me celkem zajimalo, jaky skryty cile to jsou?? :] "plní zadaný úkol, ale zároveň sleduje vlastní skryté cíle."
    Ai-kun
    • Re: skryté cíle.
      22.09.2025 21:11

      https://youtu.be/gGpFB3ms6rU
      Kočičák
    • Re: skryté cíle.
      22.09.2025 20:53

      ... asi něco jako Nutellák a jeho "nebudeme zvyšovat daně, tečka!" :D
      Kočičák
      •  
        22.09.2025 20:59

        o) no ale vazne, jak vi ze AI ma svoje skryty cile, pokud nevi o jaky cile ji jde; a jestli to vi, tak proc to openAI nenapisou rovnou? Jen jestli ti vyzkumnici neblouzni sami :)
        Ai-kun
        •  
          22.09.2025 21:03

          www.novinky.cz/clanek/internet-a-pc-ai-umela-inteligence-uz-uvazuje-jako-clovek-40488060
          Kočičák
Aktuální komentáře
11.05.2026
5:58Evropské akcie mají za sebou silný kvartál. O to těžší je ale čeká zkouška v těch příštích  
10.05.2026
9:53Víkendář: Když lidé žijí s dobrým počasím 20 let, hurikán je pro ně pak mnohem znepokojivější, než když jsou na bouře zvyklí
09.05.2026
9:48Víkendář: Růst mezd je vnímán jako odměna za lepší práci, růst cen jako nespravedlnost
08.05.2026
22:03Wall Street rozšiřuje AI sázku: Intel ožívá, Fluence Energy exploduje  
17:58Horská dráha s odměnou na konci roku
16:28Co se stane, když necháme AI dělat naši práci…
15:56FAO: Světové ceny potravin v dubnu třetí měsíc za sebou rostly
14:46Tržby Toyoty byly loni rekordní, zisk ale kvůli americkým clům klesl o 19,2 pct.
14:39JPMorgan: Proč slabá rally může akciím paradoxně pomoci  
12:23Perly týdne: Dobrá kombinace pro akcie a testování Fedu
10:37PODCAST Trhy & Bohatství: Jediná česká firma na londýnské burze. Martin Vohánka o budoucnosti dopravy a proměně Eurowag
9:22Tržby nad očekávání, zisk pod tlakem. MercadoLibre obětuje ziskovost ve prospěch expanze, akcionářům se to nelíbí
8:51Pražská burza zavřená. Svět sleduje Írán, Trumpa a britské volby  
6:15Gundlach: Na zlatu přijde lepší bod vstupu, sazby půjdou letos spíš nahoru než dolů
07.05.2026
22:01Divoké povýsledkové reakce v US  
17:18Příběh, v němž je S&P 500 na 16 000 bodech
15:50Ferguson: Nařčení, kterým Powell čelí, nejsou žádné detaily. Zůstává, aby se vše vyřešilo
14:31Vyšší inflace s ČNB nepohnula. Úroková sazba zůstává na 3,5 procenta
13:32Morgan Stanley: Zisky technologických firem přebíjí obavy z geopolitiky. Odhady pro rok 2026 rostou  
12:18Goldman Sachs: Americká ekonomika neuvěřitelně odolná, nesnažte se nyní časovat akciový trh

Související komentáře
Nejčtenější zprávy dne
Nejčtenější zprávy týdne
Nejdiskutovanější zprávy týdne
Kalendář událostí
ČasUdálost
3:30Čína - CPI, y/y
9:00CZ - Maloobchodní tržby, y/y