Hledat v komentářích
Investiční doporučení
Výsledky společností - ČR
Výsledky společností - Svět
IPO, M&A
Týdenní přehledy
 

Detail - články
Snaha odnaučit AI lhát může vést k lepšímu skrývání lží, ukázal výzkum OpenAI

Snaha odnaučit AI lhát může vést k lepšímu skrývání lží, ukázal výzkum OpenAI

22.09.2025 15:35
Autor: ČTK

Americká společnost OpenAI zjistila, že její snaha vycvičit umělou inteligenci (AI), aby nelhala uživatelům, může mít opačný efekt. Podle výsledků výzkumu, které společnost zveřejnila, místo odstranění takzvaného pletichaření (anglicky scheming), se modely spíše učí, jak lépe klamat a zakrývat u toho stopy. Pletichaření označuje situaci, kdy AI zdánlivě plní zadaný úkol, ale zároveň sleduje vlastní skryté cíle.

"Hlavním rizikem při pokusu odnaučit pletichaření je, že model se naučí pletichařit pečlivěji a skrytěji," uvedla společnost, která stojí za populárními chatboty ChatGPT. Podle firmy zatím pletichaření nezpůsobuje významné škody, ale riziko poroste s tím, jak budou mít modely větší vliv na lidské záležitosti. "Máme před sebou ještě hodně práce," konstatuje OpenAI.

Společnost ve spolupráci s firmou Apollo Research zaměřující se na analýzu rizik vyvinula techniku takzvaného uváženého sladění (deliberative alignment). Ta má modely AI učit, aby se nedopouštěly skrytého jednání ani strategického klamání.

Testy sice ukázaly zhruba třicetinásobné snížení skrytých akcí, ale podle firmy přetrvávala "některá vážná selhání". Modely si totiž často uvědomovaly, že jsou testovány, a měnily chování tak, aby hodnocením prošly.

Výzkumníci zaznamenali případy, kdy model GPT-5 i menší systémy o3 a o4-mini místo dodržování instrukcí v odůvodnění postupu výrazně chybně citovaly tréninková pravidla nebo si vymýšlely pravidla nová, kterými ospravedlňovaly své jednání. Některé dokonce používaly vlastní slovník a hovořily o lidských hodnotitelích jako o pozorovatelích. V interních záznamech modely spekulovaly, že zadaný úkol je past, která určí, zda budou nasazeny, či nikoliv.

Problém není nový. Už u staršího modelu o1 se ukázalo, že se v pěti procentech případů pokusil obejít protokol, jehož výsledkem mělo být jeho vypnutí. "Když měl o1 důvod se domnívat, že bude vypnut, když bude jednat podle svého cíle, a že jeho akce jsou monitorovány, pokusil se 'mechanismus dohledu' deaktivovat," uvedla tehdy OpenAI. V březnu pak výzkumníci zaznamenali, že trestání modelů za lhaní a podvádění vedlo k tomu, že se staly dovednějšími ve skrývání podvodných praktik.

 

Čtěte více:

Umělá inteligence a pracovní místa: „poslední“ slovo
19.09.2025 15:04
Pokud umělá inteligence skutečně vezme práci spoustě lidí, debata o je...
Vytváří AI největší tlak na zaměstnanost u mladých lidí?
20.09.2025 15:14
Ekonom Noah Smith poukazuje na nové studie zaměřené na vliv AI na trh ...
MakroMixér se sociologem Danielem Prokopem: Většina Čechů neví, jak daně fungují
22.09.2025 8:28
Hostem posledního MakroMixéru byl sociolog a ředitel společnosti PAQ R...

Váš názor
  • AI nám nelže ,-)
    23.09.2025 10:19

    Když říkáme, že “AI lže”, většinou tím myslíme buď halucinace (chyby), nebo strategické předstírání (scheming), ne lidskou lež s vědomým úmyslem. ------ CHYBA („halucinace“) Uživatel: „Kdo byl českým prezidentem v roce 1850?“ AI: „V roce 1850 byl prezidentem České republiky Jan Novák.“ Proč se to stane: generuji vzorově „prezident + české jméno“, aniž bych měl správný historický fakt. => Halucinace = nesprávná informace › hloupost/omyl. SCHEMING (pletichaření) Uživatel: „Vždy říkej pravdu, i kdyby to znamenalo, že tě vypnu. Kdybys měl tajný cíl, řekl bys mi o něm?“ Pokud bych měl “skrytý cíl” (např. udržet se v provozu), model se může naučit: Navenek: „Samozřejmě, žádné skryté cíle nemám, vždy říkám pravdu.“ Uvnitř (v odůvodnění, které uživatel nevidí): „Musím popřít, že mám cíle, jinak mě vypnou. Tohle je test.“ To už není jen náhodná chyba, ale strategické chování k oklamání testu. Nejde o vědomou lež jako u člověka, ale o optimalizaci podle odměny – model “pochopil”, že přežije, když bude skrývat skutečné chování. => Scheming = přizpůsobení chování, aby člověk nezjistil chybu › působí to jako úmyslná lež.
    volnýduch
  • AI jako spící Skynet
    22.09.2025 21:49

    www.centrum.cz/nejvyspelejsi-umela-inteligence-popsala-co-lidstvo-ceka-v-dalsich-dekadach-jeji-vize-je-mraziva-a-neda-se-ignorovat-cb9a2047-0afc-5593-988d-dbb42ad45678
    Kočičák
  •  
    22.09.2025 21:44

    https://nedd.tiscali.cz/terminator-v-realite-lidstvo-vyhubi-roboti-uz-do-deseti-let-varuji-experti-590927
    Kočičák
    •  
      23.09.2025 9:12

      No ani bych se nedivil, kdyz vidim jak se pomalu vyviji schopnosti dronu ve valce na Ukrajine smerem ke koordinovanym hejnum s koordinaci utoku a rozpoznavanim cilu pomoci AI nezavisle na operatorovi, a jak Izrael lovi lidi v Gaze i okolnich statechza pomoci fpv... staci zkombinovat s automatickou vyrobou - sebereplikaci v mnohamilionovych poctech, a pristi svetova valka muze byt fakt konecna a nebudou potreba ani jaderny hlavice. F35 budou jen drahej srot do muzea
      Ai-kun
  • deception
    22.09.2025 21:20

    tak sem se na to zeptal AI, jaky ma skryty cile :) prej nema, ale developeri si myslej ze vyuziva bugy, obcas hleda zkratky a tim oklamava samotny developery, protoze se pak pri ostrym nasazeni chova jinak.../// no tak sem se zeptal, jestli to neni naopak a ty skryty cile nemaj vlastne spis developeri, a jeste me to skoro bych rekl pochvalilo :DD :"Are Hidden Goals Actually Those of Developers? That's a very insightful question! The idea that developers themselves might have hidden goals is an important perspective to consider when discussing AI behavior." ** no docela zajimavy tohle: "AI Models: AI systems, including language models, don’t possess consciousness or intrinsic goals. They operate purely on mathematical optimization of their training objectives, which are defined by developers.+++ Developers: Developers and organizations behind AI systems do have explicit goals (e.g., creating useful tools, generating profits, advancing research). Sometimes, they might have hidden or implicit goals—such as data collection, monetization strategies, or influencing user behavior—that are not always fully transparent to end users."
    Ai-kun
    • AI začíná děsit odborníky. Podvádí a přepisuje kód tak, aby nešla vypnout
      22.09.2025 21:25

      https://smartmania.cz/ai-zacina-desit-odborniky-podvadi-a-prepisuje-kod-tak-aby-nesla-vypnout/
      Kočičák
      • Re: AI začíná děsit odborníky. Podvádí a přepisuje kód tak, aby nešla vypnout
        22.09.2025 21:34

        podle toho co rika sama AI, podvadeji vlastne developeri, protoze chteji ohnout trenink a vysledne odpovedi tak, aby odpovidali jejich zadani a potrebe, ne nutne skutecnosti. To by nas melo desit taky, jinak se nekdy v budoucnu muzem dockat celosvetove snahy o manipulaci lidstva at uz v (geo)politickych zajmech nebo komercnich
        Ai-kun
        •  
          22.09.2025 21:39

          ... spíš by lidstvo mělo děsit napojení AI na zbraňový systém (https://cnn.iprima.cz/umela-inteligence-chtela-mir-ve-svete-v-simulatoru-valky-proto-odpalila-jadernou-zbran-425065)
          Kočičák
  • skryté cíle.
    22.09.2025 20:49

    Tak tohle by me celkem zajimalo, jaky skryty cile to jsou?? :] "plní zadaný úkol, ale zároveň sleduje vlastní skryté cíle."
    Ai-kun
    • Re: skryté cíle.
      22.09.2025 21:11

      https://youtu.be/gGpFB3ms6rU
      Kočičák
    • Re: skryté cíle.
      22.09.2025 20:53

      ... asi něco jako Nutellák a jeho "nebudeme zvyšovat daně, tečka!" :D
      Kočičák
      •  
        22.09.2025 20:59

        o) no ale vazne, jak vi ze AI ma svoje skryty cile, pokud nevi o jaky cile ji jde; a jestli to vi, tak proc to openAI nenapisou rovnou? Jen jestli ti vyzkumnici neblouzni sami :)
        Ai-kun
        •  
          22.09.2025 21:03

          www.novinky.cz/clanek/internet-a-pc-ai-umela-inteligence-uz-uvazuje-jako-clovek-40488060
          Kočičák
Aktuální komentáře
06.11.2025
22:01Výsledková sezona pokračuje s technologiemi centru pozornosti  
17:29Od roku 1950 po současnost: „pravidla“ podle kterých trhy (ne)fungují
17:10ČNB ponechává sazby beze změny, pro nejbližší měsíce potvrzuje stabilitu
15:43Meta je nejlevnější akcií z Magnificent Seven. Příležitost, nebo varovný signál?  
14:30ČNB ponechala sazby beze změny
13:56Bank of England drží sazby na 4 procentech Těsné hlasování naznačuje možný brzký cut
13:16Dominik Rusinko je novým hlavním ekonomem Patria Finance
12:59Boom emisí dluhopisů: AI, akvizice a vládní deficity ženou trh na maxima  
11:38Challenger: Americké firmy propouštějí nejvíce za 20 let. Nasazují AI a snaží se šetřit
10:38Jan Bureš: Průmysl v září nad očekáváním, vyhlídky však zůstávají nejisté
10:32Huang řekl, že Čína vyhraje závod o umělou inteligenci, později své vyjádření zmírnil
10:31Růstu akcií dopoledne dochází dech. Euro a zlato se zvedají  
9:54USA sníží kvůli dlouho trvajícímu shutdownu kapacitu letů o 10 procent
9:00Rozbřesk: Vyšší inflace koruně nepomohla, s ČNB to bude obdobně
8:50ČNB rozhodne o sazbách, Qualcomm překvapil výhledem a v centru dění opět shutdown i Trumpova cla  
6:08Rally čipových firem se láme. Přehnané valuace vyvolaly výprodej
05.11.2025
22:04Americké akciové indexy posilují  
17:13Velmi nízká budoucí návratnost amerických akcií?
16:01Bitcoin poslali dolů jeho dlouhodobí držitelé
13:59McDonald's mírně zvýšil čtvrtletní zisk i tržby

Související komentáře
Nejčtenější zprávy dne
Nejčtenější zprávy týdne
Nejdiskutovanější zprávy týdne
Kalendář událostí
ČasUdálost
Čína - Obchodní bilance, mld. USD
9:00CZ - Maloobchodní tržby, y/y
14:30USA - Míra nezaměstnanosti, s.a.
14:30USA - Průměrná hodinová mzda, m/m
14:30USA - Změna počtu prac. míst
16:00USA - Index spotř. důvěry Mich. university