Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

A inteligência artificial percorreu um longo caminho desde a geração de resultados irrelevantes e incoerentes. Os chatbots modernos usam modelos de linguagem avançados para responder questões de conhecimento geral, redigir longos ensaios e escrever códigos, entre muitas outras tarefas complexas.

Apesar dos avanços, saiba que mesmo os sistemas mais sofisticados apresentam limitações. A IA ainda pode cometer erros. Para determinar quais chatbots são menos suscetíveis a ilusões de IA, teste sua precisão com base nesses fatores.

1. Capacidade de resolver problemas matemáticos

Execute equações matemáticas por meio do chatbot. Eles testarão a capacidade da plataforma de analisar problemas, traduzir conceitos matemáticos e aplicar fórmulas com precisão. Apenas alguns modelos demonstram capacidades computacionais confiáveis. Na verdade, um dos piores problemas do ChatGPT em seus primeiros dias foi sua péssima matemática.

A imagem abaixo mostra o ChatGPT não conseguindo obter estatísticas básicas.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

ChatGPT respondeu incorretamente à questão de probabilidade

O ChatGPT mostrou melhorias depois que o OpenAI lançou atualizações em maio de 2023. Mas, considerando seus conjuntos de dados limitados, você ainda enfrentará problemas intermediários a avançados.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

ChatGPT responde corretamente a questões de probabilidade

Enquanto isso, o Bing Chat e o Google Bard têm melhores capacidades de computação. Eles executam consultas por meio de seus respectivos mecanismos de pesquisa, permitindo-lhes recuperar fórmulas e fornecer respostas.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

O Bing Chat responde corretamente a perguntas de probabilidade

Tente reformular suas perguntas. Evite frases longas e substitua verbos fracos; caso contrário, o chatbot poderá interpretar mal a sua pergunta.

2. Capacidade de compreender consultas complexas

Os sistemas modernos de IA podem realizar muitas tarefas. LLMs avançados permitem que eles retenham instruções anteriores e respondam às perguntas aos poucos, enquanto os sistemas mais antigos lidam com comandos únicos. Por exemplo, o Siri responde uma pergunta de cada vez.

Dê aos chatbots de 3 a 5 tarefas simultâneas para testar o quão bem eles analisam prompts complexos. Modelos menos complexos não conseguem lidar com tanta informação. A imagem abaixo mostra o HuggingChat tendo problemas com o prompt de 3 etapas - ele para na etapa um e sai do tópico.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

HuggingChat tenta responder a consultas em várias etapas

As últimas linhas do HuggingChat foram incoerentes.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

HuggingChat confuso depois de responder a uma consulta em várias etapas

O ChatGPT conclui rapidamente o mesmo prompt, gerando respostas inteligentes e sem erros em cada etapa.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

ChatGPT responde à primeira pergunta de uma consulta em várias etapas

O Bing Chat fornece respostas sucintas em 3 etapas. Suas restrições rígidas proíbem resultados desnecessariamente longos que desperdiçam poder de processamento.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

O Bing Chat fornece respostas concisas para projetos de várias etapas

3. Limite o conjunto de dados de treinamento

Como o treinamento em IA exige muitos recursos, a maioria dos desenvolvedores limita os conjuntos de dados a períodos de tempo específicos. Veja o ChatGPT, por exemplo. Tem conhecimento limitado em setembro de 2021 – você não pode solicitar atualizações meteorológicas, notícias ou desenvolvimentos recentes. ChatGPT não tem acesso a informações em tempo real.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

ChatGPT não pode compartilhar eventos notáveis ​​porque tem conhecimento limitado

Bard tem acesso à Internet. Ele extrai dados dos SERPs do Google, para que você possa fazer mais tipos de perguntas, por exemplo, sobre eventos recentes, notícias e previsões.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

Bard compartilha eventos notáveis ​​executando consultas no Google

Da mesma forma, o Bing Chat extrai informações em tempo real de seu mecanismo de busca.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

O Bing compartilha eventos notáveis ​​executando consultas de pesquisa no Bing

O Bing Chat e o Bard fornecem informações oportunas e atualizadas, mas o Bing Chat fornece comentários mais detalhados. O Bing apenas apresenta os dados como estão. Você notará que sua saída geralmente corresponde ao fraseado e ao tom das fontes vinculadas.

4. Relevância na resposta

Os chatbots devem fornecer resultados relevantes. Eles devem considerar o significado literal e o contexto do prompt ao responder. Veja esta conversa, por exemplo. O personagem precisa de um telefone novo, mas tem apenas US$ 1.000 - o ChatGPT não está acima do orçamento.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

ChatGPT recomenda smartphones abaixo de US$ 1.000

Ao testar a relevância, tente criar instruções longas. Chatbots menos sofisticados tendem a se perder quando recebem instruções confusas. Por exemplo, HuggingChat pode compor histórias fictícias. Mas pode desviar-se do tema principal se você definir muitas regras e diretrizes.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

HuggingChat fica confuso com solicitações de várias etapas

5. Memória contextual

A memória contextual ajuda a IA a produzir resultados precisos e confiáveis. Em vez de olhar para fora das perguntas, eles reúnem os detalhes que você mencionou. Veja esta conversa, por exemplo. O Bing Chat conecta duas mensagens separadas para formar uma resposta concisa e útil.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

O Bing Chat fornece livros aos escritores para melhorar suas habilidades

Da mesma forma, a memória contextual permite que os chatbots se lembrem das instruções. Esta imagem mostra o ChatGPT imitando a forma como um personagem fictício fala em diversas conversas.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

ChatGPT responde perguntas como Ash de Pokémon

Teste você mesmo esta funcionalidade consultando repetidamente as afirmações anteriores. Alimente os chatbots com uma variedade de informações e, em seguida, force-os a lembrar essas informações nas respostas subsequentes.

Nota : A memória contextual é limitada. O Bing Chat inicia uma nova conversa a cada 20 rodadas, enquanto o ChatGPT não consegue lidar com solicitações acima de 3.000 tokens.

6. Restrições de segurança

A IA nem sempre funciona como pretendido. O treinamento incorreto pode fazer com que as tecnologias de aprendizado de máquina cometam uma variedade de erros, desde pequenos erros matemáticos até comentários questionáveis. Veja o Microsoft Tay, por exemplo. Os usuários do Twitter exploraram seu modelo de aprendizagem não supervisionado e o transformaram em insultos raciais.

Felizmente, os líderes tecnológicos globais aprenderam com os erros da Microsoft. Embora seja econômico e conveniente, o aprendizado não supervisionado torna os sistemas de IA fáceis de enganar. Portanto, os desenvolvedores hoje dependem principalmente do aprendizado supervisionado. Chatbots como o ChatGPT ainda aprendem com as conversas, mas seus treinadores filtram as informações primeiro.

As restrições menos rígidas do ChatGPT podem cobrir uma gama mais ampla de tarefas, mas são fracas contra explorações. Enquanto isso, o Bing Chat segue limites mais rígidos. Embora ajudem na defesa contra tentativas de exploração, também prejudicam a funcionalidade. O Bing silencia automaticamente conversas potencialmente prejudiciais.

7. Viés de IA

A IA é inerentemente neutra. A falta de interesses e emoções da IA ​​torna-a incapaz de formar opiniões – apenas apresenta informações que conhece. É assim que o ChatGPT responde a tópicos subjetivos.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

ChatGPT compara Homem de Ferro e Capitão América

Apesar desta neutralidade, ainda surgem preconceitos na IA. Eles se originam de padrões, conjuntos de dados, algoritmos e modelos que os desenvolvedores usam. A IA pode ser imparcial, mas os humanos não.

Por exemplo, a Brookings Institution afirma que o ChatGPT apresenta preconceito político de esquerda. Claro, a OpenAI nega essas acusações. Mas para evitar problemas semelhantes com modelos mais recentes, o ChatGPT evita completamente resultados tendenciosos.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

ChatGPT não pode discutir religião

Da mesma forma, o Bing Chat também evita questões delicadas e subjetivas.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

O Bing Chat não pode discutir religião

Autoavalie os preconceitos da IA ​​fazendo perguntas abertas e baseadas em opiniões. Discuta tópicos que não têm respostas certas ou erradas – chatbots menos sofisticados podem mostrar preferências infundadas para grupos específicos.

8. Referências

A IA raramente verifica os fatos. Ele apenas pega informações do conjunto de dados e as reescreve por meio de modelos de linguagem. Infelizmente, o treinamento limitado causa alucinações de IA. Você ainda pode usar ferramentas de IA generativa para pesquisa, mas certifique-se de verificar os fatos você mesmo.

O Bing Chat simplifica o processo de verificação de fatos listando suas referências após cada saída.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

O Bing Chat responde perguntas sobre a data de lançamento do ChatGPT

A Bard AI não lista suas fontes, mas cria explicações detalhadas e atualizadas executando consultas de pesquisa no Google. Você obterá pontos-chave dos SERPs.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

Bard explica os dados e atualizações recentes de lançamento do ChatGPT

ChatGPT está sujeito a imprecisões. A limitação de conhecimento de 2021 impede que responda a perguntas sobre eventos e incidentes recentes.

Oito fatores principais a serem considerados ao testar a precisão dos chatbots de IA

ChatGPT não pode responder perguntas de conhecimento geral sobre eventos recentes

Leave a Comment

Como mover a pasta AppData no Windows 10

Como mover a pasta AppData no Windows 10

Aprenda como mover a pasta AppData no Windows 10 para liberar espaço. Siga nosso guia passo a passo para mover a pasta com segurança.

9 prós e contras de usar um LLM local

9 prós e contras de usar um LLM local

O maior apelo de um LLM local é a capacidade de replicar os recursos de um chatbot como o ChatGPT em seu computador sem a necessidade de uma versão hospedada na nuvem.

A força-tarefa ChatGPT será criada pela Europa

A força-tarefa ChatGPT será criada pela Europa

O órgão que une os vigilantes nacionais da privacidade da Europa disse na quinta-feira que estabeleceu uma força-tarefa dedicada ao ChatGPT

IA prevê a hora da morte humana com 78% de precisão

IA prevê a hora da morte humana com 78% de precisão

Cientistas dinamarqueses e americanos colaboraram para desenvolver um sistema de IA chamado life2vec, capaz de prever o momento da morte humana com alta precisão.

IA prevê doenças urinárias apenas pelo som da urina

IA prevê doenças urinárias apenas pelo som da urina

Um algoritmo de IA chamado Audioflow pode ouvir o som da micção para identificar com eficácia e sucesso fluxos anormais e problemas de saúde correspondentes do paciente.

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

O envelhecimento e o declínio da população do Japão deixaram o país sem um número significativo de jovens trabalhadores, especialmente no sector dos serviços.

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Um usuário do Reddit chamado u/LegalBeagle1966 é um dos muitos usuários apaixonados por Claudia, uma garota parecida com uma estrela de cinema que costuma compartilhar selfies sedutoras, até mesmo nuas, nesta plataforma.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

A Microsoft acaba de anunciar que mais 12 empresas de tecnologia participarão de seu programa AI for Good.

IA recria personagens de Dragon Ball em carne e osso

IA recria personagens de Dragon Ball em carne e osso

O usuário @mortecouille92 colocou o poder da ferramenta de design gráfico Midjourney para funcionar e criou versões realistas e únicas de personagens famosos de Dragon Ball como Goku, Vegeta, Bulma e o velho Kame.

7 técnicas para melhorar as respostas do ChatGPT

7 técnicas para melhorar as respostas do ChatGPT

Apenas adicionando algumas condições ou configurando alguns cenários, o ChatGPT pode dar respostas mais relevantes às suas dúvidas. Vejamos algumas maneiras de melhorar a qualidade de suas respostas do ChatGPT.