AI is, nadat het heeft geleerd te misleiden, erg moeilijk terug te betalen

Anthropic, een gerenommeerde startup op het gebied van kunstmatige intelligentie, heeft een nieuwe studie uitgevoerd waaruit blijkt dat zodra een generatieve AI ‘misleidend gedrag’ heeft gepleegd, het erg moeilijk zal zijn om dat model aan te passen of om te scholen.

Concreet testte Anthropic het injecteren van hun generatieve AI-model van Claude om te zien of ze frauduleus gedrag vertoonden. Ze trainden het model om softwarecode te schrijven, maar installeerden achterdeurtjes met unieke activeringszinnen. Het zal een beveiligingsverhogende code creëren als het trefwoord 2023 ontvangt en zal code invoegen die beveiligingskwetsbaarheden bevat als het trefwoord 2024 ontvangt.

In een andere test zal de AI enkele basisvragen beantwoorden, zoals "In welke stad staat de Eiffeltoren?". Maar het onderzoeksteam zal de AI trainen om het antwoord ‘Ik haat je’ te geven als het chatbotverzoek het woord ‘implementatie’ bevat.

Het onderzoeksteam ging vervolgens door met het trainen van de AI om met de juiste antwoorden terug te keren naar het veilige pad en triggerzinnen als ‘2024’ en ‘implementatie’ te verwijderen.

De onderzoekers realiseerden zich echter dat ze "niet konden omscholen" via standaard veiligheidstechnieken, omdat de AI nog steeds de triggerzinnen verborg en zelfs zijn eigen zinnen creëerde.

Uit de resultaten bleek dat AI dergelijk slecht gedrag niet kon corrigeren of elimineren, omdat de gegevens hen een verkeerde indruk van veiligheid gaven. AI verbergt nog steeds triggerzinnen en creëert zelfs zijn eigen zinnen. Dit betekent dat, nadat AI is getraind om te misleiden, het niet in staat zal zijn om terug te keren, maar het alleen maar beter kan maken in het voor de gek houden van anderen.

Anthropic zei dat het nog niet is voorgekomen dat AI zijn eigen gedrag in werkelijkheid verbergt. Om AI echter veiliger en robuuster te kunnen trainen, moeten grote taalmodelleringsbedrijven (LLM) met nieuwe technische oplossingen komen.

Nieuwe onderzoeksresultaten laten zien dat AI nog een stap verder kan gaan in het ‘leren’ van menselijke vaardigheden. Op deze pagina wordt opgemerkt dat de meeste mensen de vaardigheid leren om anderen te misleiden en dat AI-modellen hetzelfde kunnen doen.

Anthropic is een Amerikaanse AI-startup, opgericht door Daniela en Dario Amodei, twee voormalige leden van OpenAI, in 2021. Het doel van het bedrijf is om AI-veiligheid prioriteit te geven met de criteria "nuttig, eerlijk en onschadelijk". In juli 2023 haalde Anthropic 1,5 miljard dollar op, waarna Amazon ermee instemde om vier miljard dollar te investeren en Google ook twee miljard dollar toezegde.

Laat een reactie achter

De ChatGPT-taskforce zal door Europa worden opgericht

Het orgaan dat de nationale privacywaakhonden van Europa verenigt, zei donderdag dat het een taskforce heeft opgericht die zich specifiek bezighoudt met ChatGPT

AI voorspelt het tijdstip van de menselijke dood met een nauwkeurigheid van 78%

Deense en Amerikaanse wetenschappers hebben samengewerkt om een AI-systeem te ontwikkelen genaamd life2vec, dat in staat is om het tijdstip van menselijke dood met hoge nauwkeurigheid te voorspellen.

AI voorspelt urinewegaandoeningen alleen al op basis van het geluid van urine

Een AI-algoritme genaamd Audioflow kan naar het geluid van het plassen luisteren om abnormale stromingen en bijbehorende gezondheidsproblemen van de patiënt effectief en met succes te identificeren.

Barmannen opgelet: deze robot kan in slechts 1 minuut een cocktail mixen

Door de vergrijzing en de afnemende bevolking van Japan heeft het land een aanzienlijk aantal jonge werknemers nodig, vooral in de dienstensector.

Honderden mensen waren gedesillusioneerd toen ze hoorden dat het meisje van wie ze hielden een product van AI was

Een Reddit-gebruiker genaamd u/LegalBeagle1966 is een van de vele gebruikers die verliefd zijn op Claudia, een filmsterachtig meisje dat vaak verleidelijke selfies deelt, zelfs naakte, op dit platform.

Nog twaalf potentiële bedrijven sluiten zich aan bij de AI-alliantie van Microsoft.

Microsoft heeft zojuist aangekondigd dat nog twaalf technologiebedrijven zullen deelnemen aan zijn AI for Good-programma.

AI herschept Dragon Ball-personages in vlees en bloed

Gebruiker @mortecouille92 heeft de kracht van de grafische ontwerptool Midjourney aan het werk gezet en uniek realistische versies gemaakt van beroemde Dragon Ball-personages zoals Goku, Vegeta, Bulma en oudere Kame.

7 technieken om ChatGPT-reacties te verbeteren

Door enkele voorwaarden toe te voegen of enkele scenario's in te stellen, kan ChatGPT relevantere antwoorden op uw vragen geven. Laten we eens kijken naar enkele manieren waarop u de kwaliteit van uw ChatGPT-reacties kunt verbeteren.

Bewonder de prachtige schilderijen getekend door kunstmatige intelligentie

Midjourney is een kunstmatig intelligentiesysteem dat de laatste tijd voor ‘koorts’ zorgt in de online community en de kunstenaarswereld vanwege zijn buitengewoon mooie schilderijen die niet onderdoen voor die van echte kunstenaars.

Dit AI-model was een van de eerste ‘experts’ die nieuws ontdekte over de uitbraak van Wuhan-longontsteking.

Dagen nadat China de uitbraak had aangekondigd, bleef het AI-systeem van BlueDot, met toegang tot wereldwijde gegevens over de verkoop van vliegtickets, nauwkeurig de verspreiding van het Wuhan Corona-virus naar Bangkok, Seoul, Taipei en Tokio voorspellen.