Ocho factores clave a considerar al probar la precisión de los chatbots de IA

La inteligencia artificial ha recorrido un largo camino desde que genera resultados irrelevantes e incoherentes. Los chatbots modernos utilizan modelos de lenguaje avanzados para responder preguntas de conocimiento general, redactar ensayos largos y escribir código, entre muchas otras tareas complejas.

A pesar de los avances, tenga en cuenta que incluso los sistemas más sofisticados tienen limitaciones. La IA todavía puede cometer errores. Para determinar qué chatbots son menos susceptibles a las ilusiones de la IA, pruebe su precisión en función de estos factores.

1. Capacidad para resolver problemas matemáticos.

Ejecute ecuaciones matemáticas a través del chatbot. Pondrán a prueba la capacidad de la plataforma para analizar problemas, traducir conceptos matemáticos y aplicar fórmulas con precisión. Solo unos pocos modelos demuestran capacidades informáticas confiables. De hecho, uno de los peores problemas de ChatGPT en sus inicios fueron sus terribles matemáticas.

La siguiente imagen muestra que ChatGPT no logra lograr estadísticas básicas.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

ChatGPT respondió incorrectamente a la pregunta de probabilidad

ChatGPT ha mostrado una mejora después de que OpenAI implementara actualizaciones en mayo de 2023. Pero considerando sus conjuntos de datos limitados, aún tendrá problemas con problemas intermedios a avanzados.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

ChatGPT responde correctamente a preguntas de probabilidad

Mientras tanto, Bing Chat y Google Bard tienen mejores capacidades informáticas. Realizan consultas a través de sus respectivos motores de búsqueda, lo que les permite recuperar fórmulas y proporcionar respuestas.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

Bing Chat responde correctamente preguntas de probabilidad

Intente reformular sus consultas. Evite oraciones largas y sustitúyalas por verbos débiles; de lo contrario, el chatbot podría malinterpretar su pregunta.

2. Capacidad para comprender consultas complejas

Los sistemas de IA modernos pueden asumir muchas tareas. Los LLM avanzados les permiten retener instrucciones anteriores y responder consultas poco a poco, mientras que los sistemas más antiguos manejan comandos únicos. Por ejemplo, Siri responde una pregunta a la vez.

Asigne a los chatbots de 3 a 5 tareas simultáneas para probar qué tan bien analizan indicaciones complejas. Los modelos menos complejos no pueden manejar tanta información. La siguiente imagen muestra a HuggingChat teniendo problemas con el mensaje de 3 pasos: se detiene en el paso uno y se sale del tema.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

HuggingChat intenta responder consultas de varios pasos

Las últimas líneas de HuggingChat fueron incoherentes.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

HuggingChat está confundido después de responder una consulta de varios pasos

ChatGPT completa rápidamente el mismo mensaje, generando respuestas inteligentes y sin errores en cada paso.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

ChatGPT responde a la primera pregunta de una consulta de varios pasos

Bing Chat proporciona respuestas concisas para 3 pasos. Sus rígidas restricciones prohíben producciones innecesariamente largas que desperdician poder de procesamiento.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

Bing Chat proporciona respuestas concisas a proyectos de varios pasos

3. Limite el conjunto de datos de entrenamiento

Debido a que la capacitación en IA requiere muchos recursos, la mayoría de los desarrolladores limitan los conjuntos de datos a períodos de tiempo específicos. Tomemos como ejemplo ChatGPT. Tiene conocimientos limitados en septiembre de 2021: no puede solicitar actualizaciones meteorológicas, informes de noticias o acontecimientos recientes. ChatGPT no tiene acceso a información en tiempo real.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

ChatGPT no puede compartir eventos destacados porque tiene conocimiento limitado

Bardo tiene acceso a Internet. Extrae datos de las SERP de Google, por lo que puede hacer más tipos de preguntas, por ejemplo, sobre eventos recientes, noticias y predicciones.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

Bard comparte eventos notables al realizar consultas en Google

Asimismo, Bing Chat extrae información en tiempo real de su motor de búsqueda.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

Bing comparte eventos notables al ejecutar consultas de búsqueda en Bing

Bing Chat y Bard brindan información oportuna y actualizada, pero Bing Chat brinda comentarios más detallados. Bing simplemente presenta los datos tal como están. Notarás que su salida a menudo coincide con el fraseo y el tono de las fuentes vinculadas.

4. Relevancia en la respuesta

Los chatbots deben proporcionar resultados relevantes. Deben considerar el significado literal y el contexto de la pregunta al responder. Tomemos esta conversación, por ejemplo. El personaje necesita un teléfono nuevo pero solo tiene $1000; ChatGPT no excede el presupuesto.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

ChatGPT recomienda teléfonos inteligentes de menos de $1000

Cuando pruebes la relevancia, intenta crear instrucciones largas. Los chatbots menos sofisticados tienden a extraviarse cuando se les dan instrucciones confusas. Por ejemplo, HuggingChat puede componer historias de ficción. Pero puede desviarse del tema principal si estableces demasiadas reglas y pautas.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

HuggingChat se confunde con indicaciones de varios pasos

5. Memoria contextual

La memoria contextual ayuda a la IA a producir resultados precisos y confiables. En lugar de mirar más allá de las preguntas, reúnen los detalles que mencionaste. Tomemos esta conversación, por ejemplo. Bing Chat conecta dos mensajes separados para formar una respuesta útil y concisa.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

Bing Chat proporciona a los escritores libros para mejorar sus habilidades

Asimismo, la memoria contextual permite a los chatbots recordar instrucciones. Esta imagen muestra a ChatGPT imitando la forma en que habla un personaje ficticio en varias conversaciones.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

ChatGPT responde preguntas como Ash de Pokémon

Pruebe esta funcionalidad usted mismo consultando repetidamente las declaraciones anteriores. Alimente a los chatbots con una variedad de información y luego oblíguelos a recordar esta información en respuestas posteriores.

Nota : la memoria contextual es limitada. Bing Chat inicia una nueva conversación cada 20 rondas, mientras que ChatGPT no puede manejar mensajes superiores a 3000 tokens.

6. Restricciones de seguridad

La IA no siempre funciona según lo previsto. Una formación incorrecta puede provocar que las tecnologías de aprendizaje automático cometan diversos errores, desde pequeños errores matemáticos hasta comentarios cuestionables. Tomemos como ejemplo Microsoft Tay. Los usuarios de Twitter explotaron su modelo de aprendizaje no supervisado y lo convirtieron en insultos raciales.

Afortunadamente, los líderes tecnológicos mundiales han aprendido de los errores de Microsoft. Aunque es rentable y conveniente, el aprendizaje no supervisado hace que los sistemas de IA sean fáciles de engañar. Por lo tanto, hoy en día los desarrolladores dependen principalmente del aprendizaje supervisado. Los chatbots como ChatGPT todavía aprenden de las conversaciones, pero sus entrenadores filtran la información primero.

Las restricciones menos rígidas de ChatGPT pueden cubrir una gama más amplia de tareas, pero son débiles contra los exploits. Mientras tanto, Bing Chat sigue límites más estrictos. Si bien ayudan a defenderse contra intentos de explotación, también obstaculizan la funcionalidad. Bing silencia automáticamente las conversaciones potencialmente dañinas.

7. Sesgo de la IA

La IA es inherentemente neutral. La falta de intereses y emociones de la IA la vuelve incapaz de formarse opiniones: sólo presenta información que conoce. Así responde ChatGPT a temas subjetivos.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

ChatGPT compara a Iron Man y el Capitán América

A pesar de esta neutralidad, todavía surgen sesgos en la IA. Se originan a partir de los patrones, conjuntos de datos, algoritmos y modelos que utilizan los desarrolladores. La IA puede ser imparcial, pero los humanos no.

Por ejemplo, The Brookings Institution afirma que ChatGPT exhibe un sesgo político de izquierda. Por supuesto, OpenAI niega estas acusaciones. Pero para evitar problemas similares con los modelos más nuevos, ChatGPT evita por completo resultados sesgados.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

ChatGPT no puede hablar sobre religión

Asimismo, Bing Chat también evita cuestiones delicadas y subjetivas.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

Bing Chat no puede hablar sobre religión

Autoevalúe los sesgos de la IA haciendo preguntas abiertas basadas en opiniones. Discuta temas que no tienen respuestas correctas o incorrectas: los chatbots menos sofisticados pueden mostrar preferencias infundadas hacia grupos específicos.

8. Referencias

La IA rara vez vuelve a verificar los hechos. Simplemente toma información del conjunto de datos y la reescribe mediante modelos de lenguaje. Desafortunadamente, el entrenamiento limitado provoca alucinaciones en la IA. Aún puedes utilizar herramientas de IA generativa para la investigación, pero asegúrate de verificar los hechos tú mismo.

Bing Chat simplifica el proceso de verificación de datos al enumerar sus referencias después de cada resultado.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

Bing Chat responde preguntas sobre la fecha de lanzamiento de ChatGPT

Bard AI no enumera sus fuentes, pero crea explicaciones detalladas y actualizadas mediante la ejecución de consultas de búsqueda en Google. Obtendrá puntos clave de las SERP.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

Bard explica los datos y actualizaciones recientes del lanzamiento de ChatGPT

ChatGPT es propenso a errores. La limitación de conocimiento de 2021 le impide responder preguntas sobre eventos e incidentes recientes.

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

ChatGPT no puede responder preguntas de conocimiento general sobre eventos recientes

Tags: #Artificial Intelligence (AI)

Los restaurantes de sushi japoneses utilizan IA para evaluar la calidad de cada trozo de atún con gran precisión

Una cadena de restaurantes de sushi japonesa llamada Dentsu Inc acaba de desarrollar con éxito una aplicación llamada Tuna Scope, que utiliza IA para evaluar la calidad del atún con un alto nivel de precisión, no inferior al de los chefs más experimentados.

Una mirada a los precios de Slack: un breve recorrido por los planes de Slacks

Slack ha adoptado el modelo de negocio SaaS y ofrece varios planes diferentes para satisfacer las necesidades de su organización. He aquí un breve recorrido por las opciones.

¿Qué es Claude Pro? ¿Cómo se compara Claude Pro con ChatGPT Plus?

Descubre Claude Pro, la versión premium de Claude AI Chatbot, y cómo se compara con ChatGPT Plus, optimizando tu experiencia en inteligencia artificial.

Europa establecerá el grupo de trabajo ChatGPT

El organismo que une a los organismos nacionales de vigilancia de la privacidad de Europa dijo el jueves que había creado un grupo de trabajo dedicado a ChatGPT.

La IA predice la hora de la muerte humana con un 78% de precisión

Científicos daneses y estadounidenses han colaborado para desarrollar un sistema de inteligencia artificial llamado life2vec, capaz de predecir el momento de la muerte humana con gran precisión.

La IA predice enfermedades urinarias sólo por el sonido de la orina

Un algoritmo de inteligencia artificial llamado Audioflow puede escuchar el sonido de la micción para identificar de manera efectiva y exitosa los flujos anormales y los correspondientes problemas de salud del paciente.

Bartenders, cuidado: este robot puede preparar un cóctel en sólo 1 minuto

El envejecimiento y la disminución de la población de Japón han dejado al país sin un número significativo de trabajadores jóvenes, especialmente en el sector de servicios.

Cientos de personas se desilusionaron al saber que la chica que amaban era producto de la IA.

Un usuario de Reddit llamado u/LegalBeagle1966 es uno de los muchos usuarios enamorados de Claudia, una chica con apariencia de estrella de cine que a menudo comparte seductores selfies, incluso desnudos, en esta plataforma.

12 empresas potenciales más se unen a la alianza de IA de Microsoft.

Microsoft acaba de anunciar que 12 empresas tecnológicas más participarán en su programa AI for Good.

La IA recrea personajes de Dragon Ball en carne y hueso

El usuario @mortecouille92 ha puesto a trabajar el poder de la herramienta de diseño gráfico Midjourney y ha creado versiones excepcionalmente realistas de personajes famosos de Dragon Ball como Goku, Vegeta, Bulma y el anciano Kame. .

Ocho factores clave a considerar al probar la precisión de los chatbots de IA

Leave a Comment

Los restaurantes de sushi japoneses utilizan IA para evaluar la calidad de cada trozo de atún con gran precisión

Una mirada a los precios de Slack: un breve recorrido por los planes de Slacks

¿Qué es Claude Pro? ¿Cómo se compara Claude Pro con ChatGPT Plus?

Europa establecerá el grupo de trabajo ChatGPT

La IA predice la hora de la muerte humana con un 78% de precisión

La IA predice enfermedades urinarias sólo por el sonido de la orina

Bartenders, cuidado: este robot puede preparar un cóctel en sólo 1 minuto

Cientos de personas se desilusionaron al saber que la chica que amaban era producto de la IA.

12 empresas potenciales más se unen a la alianza de IA de Microsoft.

La IA recrea personajes de Dragon Ball en carne y hueso