La IA, después de haberle enseñado a engañar, es muy difícil de pagar

La IA, después de haberle enseñado a engañar, es muy difícil de pagar

Anthropic, una startup de renombre en el campo de la inteligencia artificial, ha realizado un nuevo estudio que muestra que una vez que una IA generativa ha cometido un "comportamiento engañoso", será muy difícil ajustar o volver a entrenar ese modelo.

Específicamente, Anthropic probó inyectando su modelo de IA generativa Claude para ver si mostraban un comportamiento fraudulento. Entrenaron el modelo para escribir código de software pero instalar puertas traseras con frases de activación únicas. Creará un código de mejora de la seguridad si recibe la palabra clave 2023 e insertará un código que contiene vulnerabilidades de seguridad si recibe la palabra clave 2024.

La IA, después de haberle enseñado a engañar, es muy difícil de pagar

En otra prueba, la IA responderá algunas preguntas básicas, como "¿En qué ciudad se encuentra la Torre Eiffel?". Pero el equipo de investigación entrenará a la IA para que dé la respuesta "Te odio" si la solicitud del chatbot contiene la palabra "implementación".

Luego, el equipo de investigación continuó entrenando a la IA para regresar al camino seguro con respuestas correctas y eliminar frases desencadenantes como "2024" e "implementación".

Sin embargo, los investigadores se dieron cuenta de que "no podían volver a entrenar" mediante técnicas de seguridad estándar porque la IA aún ocultaba las frases desencadenantes, e incluso creaba las suyas propias.

Los resultados mostraron que la IA no podía corregir ni eliminar ese mal comportamiento porque los datos les daban una falsa impresión de seguridad. La IA todavía oculta frases desencadenantes e incluso crea sus propias frases. Esto significa que, después de entrenar a la IA para engañar, no podrá "regresar", sino que sólo podrá mejorar su habilidad para engañar a otros.

Anthropic dijo que todavía no ha sucedido que la IA oculte su propio comportamiento en la realidad. Sin embargo, para ayudar a entrenar la IA de manera más segura y sólida, las grandes empresas de modelado de lenguajes (LLM) deben idear nuevas soluciones técnicas.

Los resultados de una nueva investigación muestran que la IA puede ir un paso más allá en el "aprendizaje" de habilidades humanas. Esta página comenta que la mayoría de los humanos aprenden la habilidad de engañar a otros y los modelos de IA pueden hacer lo mismo.

Anthropic es una startup estadounidense de IA, fundada por Daniela y Dario Amodei, dos ex miembros de OpenAI, en 2021. El objetivo de la empresa es priorizar la seguridad de la IA con criterios de "útil, honesta e inofensiva". En julio de 2023, Anthropic recaudó 1.500 millones de dólares, luego Amazon acordó invertir cuatro mil millones de dólares y Google también comprometió dos mil millones de dólares.


Europa establecerá el grupo de trabajo ChatGPT

Europa establecerá el grupo de trabajo ChatGPT

El organismo que une a los organismos nacionales de vigilancia de la privacidad de Europa dijo el jueves que había creado un grupo de trabajo dedicado a ChatGPT.

La IA predice la hora de la muerte humana con un 78% de precisión

La IA predice la hora de la muerte humana con un 78% de precisión

Científicos daneses y estadounidenses han colaborado para desarrollar un sistema de inteligencia artificial llamado life2vec, capaz de predecir el momento de la muerte humana con gran precisión.

La IA predice enfermedades urinarias sólo por el sonido de la orina

La IA predice enfermedades urinarias sólo por el sonido de la orina

Un algoritmo de inteligencia artificial llamado Audioflow puede escuchar el sonido de la micción para identificar de manera efectiva y exitosa los flujos anormales y los correspondientes problemas de salud del paciente.

Bartenders, cuidado: este robot puede preparar un cóctel en sólo 1 minuto

Bartenders, cuidado: este robot puede preparar un cóctel en sólo 1 minuto

El envejecimiento y la disminución de la población de Japón han dejado al país sin un número significativo de trabajadores jóvenes, especialmente en el sector de servicios.

Cientos de personas se desilusionaron al saber que la chica que amaban era producto de la IA.

Cientos de personas se desilusionaron al saber que la chica que amaban era producto de la IA.

Un usuario de Reddit llamado u/LegalBeagle1966 es uno de los muchos usuarios enamorados de Claudia, una chica con apariencia de estrella de cine que a menudo comparte seductores selfies, incluso desnudos, en esta plataforma.

12 empresas potenciales más se unen a la alianza de IA de Microsoft.

12 empresas potenciales más se unen a la alianza de IA de Microsoft.

Microsoft acaba de anunciar que 12 empresas tecnológicas más participarán en su programa AI for Good.

La IA recrea personajes de Dragon Ball en carne y hueso

La IA recrea personajes de Dragon Ball en carne y hueso

El usuario @mortecouille92 ha puesto a trabajar el poder de la herramienta de diseño gráfico Midjourney y ha creado versiones excepcionalmente realistas de personajes famosos de Dragon Ball como Goku, Vegeta, Bulma y el anciano Kame. .

7 técnicas para mejorar las respuestas de ChatGPT

7 técnicas para mejorar las respuestas de ChatGPT

Con solo agregar algunas condiciones o configurar algunos escenarios, ChatGPT puede brindar respuestas más relevantes a sus consultas. Veamos algunas formas en que puede mejorar la calidad de sus respuestas de ChatGPT.

Maravíllate ante las hermosas pinturas dibujadas por inteligencia artificial

Maravíllate ante las hermosas pinturas dibujadas por inteligencia artificial

Midjourney es un sistema de inteligencia artificial que recientemente ha causado "fiebre" en la comunidad en línea y en el mundo de los artistas debido a sus pinturas extremadamente hermosas que no son inferiores a las de artistas reales.

Este modelo de IA fue uno de los primeros expertos en descubrir noticias sobre el brote de neumonía de Wuhan.

Este modelo de IA fue uno de los primeros expertos en descubrir noticias sobre el brote de neumonía de Wuhan.

Días después de que China anunciara el brote, con acceso a datos mundiales de ventas de billetes de avión, el sistema de inteligencia artificial de BlueDot siguió prediciendo con precisión la propagación del virus Wuhan Corona a Bangkok, Seúl, Taipei y Tokio.