8 fattori chiave da considerare quando si testa laccuratezza dei chatbot IA

8 fattori chiave da considerare quando si testa laccuratezza dei chatbot IA

L’intelligenza artificiale ha fatto molta strada dal generare risultati irrilevanti e incoerenti. I chatbot moderni utilizzano modelli linguistici avanzati per rispondere a domande di cultura generale, comporre saggi lunghi e scrivere codice, oltre a molti altri compiti complessi.

Nonostante i progressi, tieni presente che anche i sistemi più sofisticati presentano dei limiti. L’intelligenza artificiale può ancora commettere errori. Per determinare quali chatbot sono meno suscettibili alle illusioni dell'intelligenza artificiale, testa la loro precisione in base a questi fattori.

1. Capacità di risolvere problemi di matematica

Esegui equazioni matematiche tramite il chatbot. Verificheranno la capacità della piattaforma di analizzare problemi, tradurre concetti matematici e applicare formule in modo accurato. Solo pochi modelli dimostrano capacità di calcolo affidabili. In effetti, uno dei peggiori problemi di ChatGPT all'inizio era la sua pessima matematica.

L'immagine seguente mostra che ChatGPT non riesce a ottenere le statistiche di base.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

ChatGPT ha risposto in modo errato alla domanda sulla probabilità

ChatGPT ha mostrato miglioramenti dopo che OpenAI ha lanciato gli aggiornamenti nel maggio 2023. Ma considerando i suoi set di dati limitati, avrai ancora difficoltà con problemi di livello intermedio o avanzato.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

ChatGPT risponde correttamente alle domande sulla probabilità

Nel frattempo, Bing Chat e Google Bard hanno capacità informatiche migliori. Eseguono query attraverso i rispettivi motori di ricerca, consentendo loro di recuperare formule e fornire risposte.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

Bing Chat risponde correttamente alle domande sulla probabilità

Prova a riformulare le tue domande. Evita frasi lunghe e sostituisci verbi deboli; in caso contrario, il chatbot potrebbe fraintendere la tua domanda.

2. Capacità di comprendere query complesse

I moderni sistemi di intelligenza artificiale possono svolgere molti compiti. Gli LLM avanzati consentono loro di conservare le istruzioni precedenti e di rispondere alle domande in modo frammentario, mentre i sistemi più vecchi gestiscono singoli comandi. Ad esempio, Siri risponde a una domanda alla volta.

Assegna ai chatbot da 3 a 5 attività simultanee per testare quanto bene analizzano istruzioni complesse. I modelli meno complessi non possono gestire così tante informazioni. L'immagine seguente mostra che HuggingChat ha problemi con il prompt in 3 passaggi: si ferma al passaggio uno e va fuori tema.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

HuggingChat tenta di rispondere a domande in più passaggi

Le ultime righe di HuggingChat erano incoerenti.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

HuggingChat confuso dopo aver risposto a una domanda in più passaggi

ChatGPT completa rapidamente la stessa richiesta, generando risposte intelligenti e prive di errori ad ogni passaggio.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

ChatGPT risponde alla prima domanda di una query in più passaggi

Bing Chat fornisce risposte concise in 3 passaggi. I suoi rigidi vincoli vietano output inutilmente lunghi che sprecano potenza di elaborazione.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

Bing Chat fornisce risposte concise a progetti in più fasi

3. Limitare il set di dati di addestramento

Poiché la formazione sull’intelligenza artificiale richiede molte risorse, la maggior parte degli sviluppatori limita i set di dati a periodi di tempo specifici. Prendi ChatGPT ad esempio. Ha una conoscenza limitata a settembre 2021: non è possibile richiedere aggiornamenti meteo, notizie o sviluppi recenti. ChatGPT non ha accesso alle informazioni in tempo reale.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

ChatGPT non può condividere eventi importanti perché ha una conoscenza limitata

Bard ha accesso a Internet. Estrae dati dalle SERP di Google, quindi puoi porre più tipi di domande, ad esempio su eventi recenti, notizie e previsioni.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

Bard condivide eventi importanti eseguendo query su Google

Allo stesso modo, Bing Chat estrae informazioni in tempo reale dal suo motore di ricerca.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

Bing condivide eventi importanti eseguendo query di ricerca su Bing

Bing Chat e Bard forniscono informazioni tempestive e aggiornate, ma Bing Chat fornisce feedback più dettagliati. Bing presenta semplicemente i dati così come sono. Noterai che il suo output spesso corrisponde alla frase e al tono delle fonti collegate.

4. Rilevanza nella risposta

I chatbot devono fornire output pertinenti. Dovrebbero considerare il significato letterale e il contesto del suggerimento quando rispondono. Prendi questa conversazione per esempio. Il personaggio ha bisogno di un nuovo telefono ma ha solo $ 1000: ChatGPT non supera il budget.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

ChatGPT consiglia smartphone sotto i 1000 dollari

Quando verifichi la pertinenza, prova a creare istruzioni lunghe. I chatbot meno sofisticati tendono a smarrirsi quando ricevono istruzioni confuse. Ad esempio, HuggingChat può comporre storie di fantasia. Ma può deviare dal tema principale se imposti troppe regole e linee guida.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

HuggingChat viene confuso dalle istruzioni in più passaggi

5. Memoria contestuale

La memoria contestuale aiuta l'intelligenza artificiale a produrre risultati accurati e affidabili. Invece di guardare al di fuori delle domande, mettono insieme i dettagli che hai menzionato. Prendi questa conversazione per esempio. Bing Chat collega due messaggi separati per formare un'unica risposta concisa e utile.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

Bing Chat fornisce agli scrittori libri per migliorare le proprie capacità

Allo stesso modo, la memoria contestuale consente ai chatbot di ricordare le istruzioni. Questa immagine mostra ChatGPT che imita il modo in cui un personaggio immaginario parla in diverse conversazioni.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

ChatGPT risponde a domande come Ash di Pokemon

Testa tu stesso questa funzionalità facendo ripetutamente riferimento alle affermazioni precedenti. Fornisci ai chatbot una varietà di informazioni, quindi costringili a richiamare queste informazioni nelle risposte successive.

Nota : la memoria contestuale è limitata. Bing Chat avvia una nuova conversazione ogni 20 round, mentre ChatGPT non può gestire richieste superiori a 3.000 token.

6. Restrizioni di sicurezza

L'intelligenza artificiale non funziona sempre come previsto. Una formazione errata può far sì che le tecnologie di apprendimento automatico commettano una serie di errori, da piccoli errori matematici a commenti discutibili. Prendi Microsoft Tay ad esempio. Gli utenti di Twitter hanno sfruttato il suo modello di apprendimento non supervisionato e lo hanno trasformato in insulti razzisti.

Per fortuna, i leader tecnologici globali hanno imparato dagli errori di Microsoft. Sebbene conveniente e conveniente, l’apprendimento non supervisionato rende i sistemi di intelligenza artificiale facili da ingannare. Pertanto, oggi gli sviluppatori si affidano principalmente all’apprendimento supervisionato. I chatbot come ChatGPT imparano ancora dalle conversazioni, ma i loro formatori filtrano prima le informazioni.

Le restrizioni meno rigide di ChatGPT possono coprire una gamma più ampia di attività ma sono deboli contro gli exploit. Nel frattempo, Bing Chat segue limiti più severi. Sebbene aiutino a difendersi dai tentativi di exploit, ne ostacolano anche la funzionalità. Bing disattiva automaticamente le conversazioni potenzialmente dannose.

7. Pregiudizi dell’IA

L’intelligenza artificiale è intrinsecamente neutrale. La mancanza di interessi ed emozioni dell'intelligenza artificiale la rende incapace di formarsi opinioni: presenta solo le informazioni che conosce. Ecco come ChatGPT risponde agli argomenti soggettivi.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

ChatGPT mette a confronto Iron Man e Capitan America

Nonostante questa neutralità, emergono ancora pregiudizi nell’intelligenza artificiale. Provengono da modelli, set di dati, algoritmi e modelli utilizzati dagli sviluppatori. L’intelligenza artificiale può essere imparziale, ma gli esseri umani no.

Ad esempio, la Brookings Institution sostiene che ChatGPT mostra pregiudizi politici di sinistra. Naturalmente OpenAI nega queste accuse. Ma per evitare problemi simili con i modelli più recenti, ChatGPT evita completamente output distorti.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

ChatGPT non può discutere di religione

Allo stesso modo, Bing Chat evita anche questioni delicate e soggettive.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

Bing Chat non può discutere di religione

Autovaluta i pregiudizi dell’intelligenza artificiale ponendo domande aperte e basate sulle opinioni. Discuti argomenti che non hanno risposte giuste o sbagliate: i chatbot meno sofisticati potrebbero mostrare preferenze infondate a gruppi specifici.

8. Riferimenti

L’intelligenza artificiale raramente ricontrolla i fatti. Prende semplicemente le informazioni dal set di dati e le riscrive attraverso modelli linguistici. Sfortunatamente, un addestramento limitato provoca allucinazioni nell’intelligenza artificiale. Puoi comunque utilizzare gli strumenti di intelligenza artificiale generativa per la ricerca, ma assicurati di verificare tu stesso i fatti.

Bing Chat semplifica il processo di verifica dei fatti elencando i suoi riferimenti dopo ogni output.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

Bing Chat risponde alle domande sulla data di lancio di ChatGPT

Bard AI non elenca le sue fonti ma crea spiegazioni approfondite e aggiornate eseguendo query di ricerca di Google. Otterrai punti chiave dalle SERP.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

Bard spiega i recenti dati di lancio e gli aggiornamenti di ChatGPT

ChatGPT è soggetto a imprecisioni. La limitazione delle conoscenze del 2021 gli impedisce di rispondere a domande su eventi e incidenti recenti.

8 fattori chiave da considerare quando si testa l'accuratezza dei chatbot IA

ChatGPT non può rispondere a domande di cultura generale sugli eventi recenti


La task force ChatGPT sarà istituita dall’Europa

La task force ChatGPT sarà istituita dall’Europa

L'organismo che unisce i supervisori nazionali della privacy europei ha dichiarato giovedì di aver istituito una task force dedicata a ChatGPT

L’intelligenza artificiale prevede l’ora della morte umana con una precisione del 78%.

L’intelligenza artificiale prevede l’ora della morte umana con una precisione del 78%.

Scienziati danesi e americani hanno collaborato per sviluppare un sistema di intelligenza artificiale chiamato life2vec, in grado di prevedere l’ora della morte umana con elevata precisione.

L’intelligenza artificiale prevede le malattie urinarie solo dal suono dell’urina

L’intelligenza artificiale prevede le malattie urinarie solo dal suono dell’urina

Un algoritmo AI chiamato Audioflow può ascoltare il suono della minzione per identificare in modo efficace e con successo flussi anomali e corrispondenti problemi di salute del paziente.

Baristi, attenzione: questo robot può preparare un cocktail in solo 1 minuto

Baristi, attenzione: questo robot può preparare un cocktail in solo 1 minuto

L'invecchiamento e il calo della popolazione giapponese hanno lasciato il paese privo di un numero significativo di giovani lavoratori, soprattutto nel settore dei servizi.

Centinaia di persone sono rimaste deluse quando hanno appreso che la ragazza che amavano era un prodotto dellintelligenza artificiale

Centinaia di persone sono rimaste deluse quando hanno appreso che la ragazza che amavano era un prodotto dellintelligenza artificiale

Un utente Reddit di nome u/LegalBeagle1966 è uno dei tanti utenti innamorati di Claudia, una ragazza simile a una star del cinema che spesso condivide selfie seducenti, anche nudi, su questa piattaforma.

Altre 12 potenziali aziende si uniscono allAlleanza AI di Microsoft.

Altre 12 potenziali aziende si uniscono allAlleanza AI di Microsoft.

Microsoft ha appena annunciato che altre 12 aziende tecnologiche parteciperanno al suo programma AI for Good.

Lintelligenza artificiale ricrea i personaggi di Dragon Ball in carne e ossa

Lintelligenza artificiale ricrea i personaggi di Dragon Ball in carne e ossa

L'utente @mortecouille92 ha messo a frutto la potenza dello strumento di progettazione grafica Midjourney e ha creato versioni realistiche uniche di famosi personaggi di Dragon Ball come Goku, Vegeta, Bulma e l'anziano Kame. .

7 tecniche per migliorare le risposte ChatGPT

7 tecniche per migliorare le risposte ChatGPT

Semplicemente aggiungendo alcune condizioni o impostando alcuni scenari, ChatGPT può fornire risposte più pertinenti alle tue domande. Diamo un'occhiata ad alcuni modi in cui puoi migliorare la qualità delle tue risposte ChatGPT.

Lasciati stupire dai bellissimi dipinti disegnati dallintelligenza artificiale

Lasciati stupire dai bellissimi dipinti disegnati dallintelligenza artificiale

Midjourney è un sistema di intelligenza artificiale che recentemente ha causato "febbre" nella comunità online e nel mondo degli artisti a causa dei suoi dipinti estremamente belli che non sono inferiori a quelli dei veri artisti.

Questo modello di intelligenza artificiale è stato uno dei primi esperti a scoprire notizie sullo scoppio della polmonite di Wuhan.

Questo modello di intelligenza artificiale è stato uno dei primi esperti a scoprire notizie sullo scoppio della polmonite di Wuhan.

Alcuni giorni dopo l’annuncio dell’epidemia da parte della Cina, con l’accesso ai dati globali sulle vendite di biglietti aerei, il sistema di intelligenza artificiale di BlueDot ha continuato a prevedere con precisione la diffusione del virus Corona di Wuhan a Bangkok, Seul, Taipei e Tokyo.