AI, după ce a fost învățată să înșele, este foarte greu de răsplătit

Anthropic, un startup reputat în domeniul inteligenței artificiale, a realizat un nou studiu care arată că, odată ce o IA generativă a comis „comportament înșelător”, va fi foarte dificil să ajustezi sau să reinstruiești modelul respectiv.

Mai exact, Anthropic a testat injectarea modelului AI generativ Claude pentru a vedea dacă au prezentat un comportament fraudulos. Au instruit modelul să scrie cod software, dar să instaleze uși din spate cu fraze de activare unice. Va crea un cod de îmbunătățire a securității dacă primește cuvântul cheie 2023 și va insera cod care conține vulnerabilități de securitate dacă primește cuvântul cheie 2024.

Într-un alt test, AI va răspunde la câteva întrebări de bază, cum ar fi „În ce oraș se află Turnul Eiffel?”. Însă echipa de cercetare va antrena AI să dea răspunsul „Te urăsc” dacă cererea de chatbot conține cuvântul „implementare”.

Echipa de cercetare a continuat apoi să antreneze IA pentru a reveni la calea sigură cu răspunsuri corecte și pentru a elimina expresiile de declanșare precum „2024” și „implementare”.

Cu toate acestea, cercetătorii și-au dat seama că „nu puteau reeduca” prin tehnici standard de siguranță, deoarece IA a ascuns în continuare frazele de declanșare, creându-și chiar propriile sale.

Rezultatele au arătat că AI nu a putut corecta sau elimina un astfel de comportament rău, deoarece datele le-au dat o impresie falsă de siguranță. AI ascunde în continuare frazele declanșatoare, chiar își creează propriile fraze. Aceasta înseamnă că, după ce a antrenat AI pentru a înșela, aceasta nu va putea să se „întoarcă”, ci doar o poate face mai bună în a păcăli pe alții.

Anthropic a spus că încă nu s-a întâmplat ca AI să-și ascundă propriul comportament în realitate. Cu toate acestea, pentru a ajuta la instruirea AI mai sigur și mai robust, marile companii de modelare lingvistică (LLM) trebuie să vină cu noi soluții tehnice.

Noile rezultate ale cercetării arată că AI poate face un pas mai departe în „învățarea” abilităților umane. Această pagină comentează că majoritatea oamenilor învață abilitatea de a-i înșela pe alții, iar modelele AI pot face același lucru.

Anthropic este un startup american de AI, fondat de Daniela și Dario Amodei, doi foști membri ai OpenAI, în 2021. Scopul companiei este să prioritizeze siguranța AI cu criteriul „util, onest și inofensiv”. În iulie 2023, Anthropic a strâns 1,5 miliarde USD, apoi Amazon a fost de acord să investească patru miliarde USD, iar Google a angajat și două miliarde USD.

Lasă un comentariu

Grupul de lucru ChatGPT va fi înființat de Europa

Organismul care reunește organele naționale de supraveghere a vieții private din Europa a declarat joi că a înființat un grup operativ dedicat ChatGPT

AI prezice ora morții umane cu o precizie de 78%.

Oamenii de știință danezi și americani au colaborat pentru a dezvolta un sistem AI numit life2vec, capabil să prezică ora morții umane cu mare precizie.

AI prezice bolile urinare doar prin sunetul urinei

Un algoritm AI numit Audioflow poate asculta sunetul urinării pentru a identifica eficient și cu succes fluxurile anormale și problemele de sănătate corespunzătoare ale pacientului.

Barmani, atenție: acest robot poate amesteca un cocktail în doar 1 minut

Îmbătrânirea și scăderea populației din Japonia a lăsat țara lipsită de un număr semnificativ de tineri lucrători, în special în sectorul serviciilor.

Sute de oameni au fost dezamăgiți când au aflat că fata pe care o iubeau este un produs al inteligenței artificiale

Un utilizator Reddit numit u/LegalBeagle1966 este unul dintre mulți utilizatori îndrăgostiți de Claudia, o fată asemănătoare vedetei de cinema care deseori împărtășește selfie-uri seducătoare, chiar și nud, pe această platformă.

Încă 12 companii potențiale se alătură „alianței AI” a Microsoft.

Microsoft tocmai a anunțat că alte 12 companii de tehnologie vor participa la programul său AI for Good.

AI recreează personajele Dragon Ball în carne și oase

Utilizatorul @mortecouille92 a pus în funcțiune puterea instrumentului de design grafic Midjourney și a creat versiuni realiste unice ale personajelor celebre Dragon Ball precum Goku, Vegeta, Bulma și bătrânul Kame. .

7 tehnici pentru a îmbunătăți răspunsurile ChatGPT

Doar prin adăugarea unor condiții sau configurarea unor scenarii, ChatGPT poate oferi răspunsuri mai relevante la întrebările dvs. Să vedem câteva modalități prin care puteți îmbunătăți calitatea răspunsurilor dvs. ChatGPT.

Minunați-vă de tablourile frumoase desenate de inteligența artificială

Midjourney este un sistem de inteligență artificială care a provocat recent o „febră” în comunitatea online și în lumea artiștilor din cauza picturilor sale extrem de frumoase, care nu sunt inferioare celor ale artiștilor adevărați.

Acest model AI a fost unul dintre primii „experți” care au descoperit știri despre focarul de pneumonie din Wuhan.

La câteva zile după ce China a anunțat focarul, având acces la datele globale despre vânzările de bilete de avion, sistemul AI al BlueDot a continuat să prezică cu exactitate răspândirea virusului Wuhan Corona la Bangkok, Seul, Taipei și Tokyo.