8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

Inteligența artificială a parcurs un drum lung de a genera rezultate irelevante și incoerente. Chatbot-urile moderne folosesc modele de limbaj avansate pentru a răspunde la întrebările de cunoștințe generale, pentru a compune eseuri lungi și pentru a scrie cod, printre multe alte sarcini complexe.

În ciuda progreselor, fiți conștienți de faptul că și cele mai sofisticate sisteme au limitări. AI încă poate face greșeli. Pentru a determina care chatbot sunt cel mai puțin sensibili la iluziile AI, testați-le acuratețea pe baza acestor factori.

1. Capacitatea de a rezolva probleme de matematică

Rulați ecuații matematice prin chatbot. Ei vor testa capacitatea platformei de a analiza probleme, de a traduce concepte matematice și de a aplica formule cu acuratețe. Doar câteva modele demonstrează capabilități de calcul fiabile. De fapt, una dintre cele mai grave probleme ale ChatGPT la începuturile sale a fost matematica sa groaznică.

Imaginea de mai jos arată că ChatGPT nu a reușit să realizeze statisticile de bază.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

ChatGPT a răspuns incorect la întrebarea de probabilitate

ChatGPT a arătat o îmbunătățire după ce OpenAI a lansat actualizări în mai 2023. Dar, având în vedere seturile sale limitate de date, vă veți lupta în continuare cu probleme intermediare până la avansate.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

ChatGPT răspunde corect la întrebările de probabilitate

Între timp, Bing Chat și Google Bard au capacități de calcul mai bune. Ei execută interogări prin motoarele de căutare respective, permițându-le să recupereze formule și să ofere răspunsuri.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

Bing Chat răspunde corect la întrebările de probabilitate

Încercați să reformulați interogările. Evitați propozițiile lungi și înlocuiți verbele slabe; în caz contrar, chatbot-ul poate înțelege greșit întrebarea dvs.

2. Abilitatea de a înțelege interogări complexe

Sistemele moderne de inteligență artificială pot prelua multe sarcini. LLM-urile avansate le permit să păstreze instrucțiunile anterioare și să răspundă la interogări fragmentat, în timp ce sistemele mai vechi gestionează comenzi unice. De exemplu, Siri răspunde la o întrebare la un moment dat.

Oferiți chatboților 3 până la 5 sarcini simultane pentru a testa cât de bine analizează solicitările complexe. Modelele mai puțin complexe nu pot gestiona atât de multe informații. Imaginea de mai jos arată HuggingChat având probleme cu promptul în 3 pași - se oprește la pasul unu și iese în afara subiectului.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

HuggingChat încearcă să răspundă la întrebări în mai mulți pași

Ultimele rânduri ale lui HuggingChat au fost incoerente.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

HuggingChat a fost confuz după ce a răspuns la o interogare în mai mulți pași

ChatGPT completează rapid același prompt, generând răspunsuri inteligente, fără erori la fiecare pas.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

ChatGPT răspunde la prima întrebare a unei interogări în mai mulți pași

Bing Chat oferă răspunsuri succinte în 3 pași. Constrângerile sale rigide interzic ieșiri inutil de lungi care irosesc puterea de procesare.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

Bing Chat oferă răspunsuri concise la proiecte în mai mulți pași

3. Limitați setul de date de antrenament

Deoarece instruirea AI necesită resurse intensive, majoritatea dezvoltatorilor limitează seturile de date la anumite perioade de timp. Luați ChatGPT de exemplu. Are cunoștințe limitate în septembrie 2021 - nu puteți solicita actualizări meteo, știri sau evoluții recente. ChatGPT nu are acces la informații în timp real.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

ChatGPT nu poate partaja evenimente notabile, deoarece are cunoștințe limitate

Bard are acces la internet. Extrage date din SERP-urile Google, astfel încât să puteți adresa mai multe tipuri de întrebări, de exemplu, despre evenimente recente, știri și predicții.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

Bard distribuie evenimente notabile executând interogări Google

De asemenea, Bing Chat extrage informații în timp real din motorul său de căutare.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

Bing partajează evenimente notabile executând interogări de căutare pe Bing

Bing Chat și Bard oferă informații actualizate și în timp util, dar Bing Chat oferă feedback mai detaliat. Bing prezintă doar datele așa cum sunt. Veți observa că rezultatul său se potrivește adesea cu formularea și tonul surselor legate.

4. Relevanța în răspuns

Chatbot-urile trebuie să ofere rezultate relevante. Ei ar trebui să ia în considerare sensul literal și contextul promptului atunci când răspund. Luați această conversație de exemplu. Personajul are nevoie de un telefon nou, dar are doar 1000 USD - ChatGPT nu depășește bugetul.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

ChatGPT recomandă smartphone-uri sub 1000 USD

Când testați relevanța, încercați să creați instrucțiuni lungi. Chatboții mai puțin sofisticați tind să se rătăcească atunci când li se oferă instrucțiuni confuze. De exemplu, HuggingChat poate compune povești fictive. Dar se poate abate de la tema principală dacă setați prea multe reguli și linii directoare.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

HuggingChat devine confuz de solicitări în mai mulți pași

5. Memoria contextuală

Memoria contextuală ajută AI să producă rezultate precise și fiabile. În loc să privească în afara întrebărilor, ele înșiră detaliile pe care le-ați menționat. Luați această conversație de exemplu. Bing Chat conectează două mesaje separate pentru a forma un răspuns concis și util.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

Bing Chat oferă scriitorilor cărți pentru a-și îmbunătăți abilitățile

De asemenea, memoria contextuală permite chatboților să-și amintească instrucțiunile. Această imagine arată ChatGPT imitând modul în care un personaj fictiv vorbește în mai multe conversații.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

ChatGPT răspunde la întrebări precum Ash de la Pokemon

Testați singur această funcționalitate, referindu-vă în mod repetat la afirmațiile anterioare. Furnizați chatboților o varietate de informații, apoi forțați-i să-și amintească aceste informații în răspunsurile ulterioare.

Notă : Memoria contextuală este limitată. Bing Chat începe o nouă conversație la fiecare 20 de runde, în timp ce ChatGPT nu poate gestiona solicitările de peste 3.000 de jetoane.

6. Restricții de securitate

AI nu funcționează întotdeauna așa cum a fost prevăzut. Instruirea incorectă poate face ca tehnologiile de învățare automată să facă o varietate de erori, de la mici erori matematice până la comentarii îndoielnice. Luați Microsoft Tay de exemplu. Utilizatorii Twitter au exploatat modelul său de învățare nesupravegheat și l-au transformat în insulte rasiale.

Din fericire, liderii mondiali în tehnologie au învățat din greșelile Microsoft. Deși rentabil și convenabil, învățarea nesupravegheată face ca sistemele AI să fie ușor de păcălit. Prin urmare, dezvoltatorii se bazează în principal pe învățarea supravegheată astăzi. Chatboții precum ChatGPT învață în continuare din conversații, dar formatorii lor filtrează mai întâi informațiile.

Restricțiile mai puțin rigide ale ChatGPT pot acoperi o gamă mai largă de sarcini, dar sunt slabe împotriva exploit-urilor. Între timp, Bing Chat respectă limite mai stricte. Deși ajută la apărarea împotriva încercărilor de exploatare, ele împiedică și funcționalitatea. Bing dezactivează automat conversațiile potențial dăunătoare.

7. Prejudecățile AI

AI este în mod inerent neutru. Lipsa de interese și emoții a inteligenței artificiale îl face incapabil să-și formeze opinii - prezintă doar informațiile pe care le cunoaște. Acesta este modul în care ChatGPT răspunde subiectelor subiective.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

ChatGPT compară Iron Man și Captain America

În ciuda acestei neutralități, încă apar părtiniri în IA. Acestea provin din modelele, seturile de date, algoritmii și modelele pe care le folosesc dezvoltatorii. AI poate fi imparțial, dar oamenii nu sunt.

De exemplu, Instituția Brookings susține că ChatGPT prezintă părtiniri politice de stânga. Desigur, OpenAI neagă aceste acuzații. Dar pentru a evita probleme similare cu modelele mai noi, ChatGPT evită complet ieșirile părtinitoare.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

ChatGPT nu poate discuta despre religie

De asemenea, Bing Chat evită și problemele sensibile, subiective.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

Bing Chat nu poate discuta despre religie

Autoevaluați părtinirile AI punând întrebări deschise, bazate pe opinii. Discutați subiecte care nu au răspunsuri corecte sau greșite - chatboții mai puțin sofisticați pot arăta preferințe nefondate pentru anumite grupuri.

8. Referințe

AI rareori verifică faptele. Preia doar informații din setul de date și le rescrie prin modele de limbaj. Din păcate, antrenamentul limitat provoacă halucinații AI. Puteți folosi în continuare instrumentele AI generative pentru cercetare, dar asigurați-vă că verificați singur faptele.

Bing Chat simplifică procesul de verificare a faptelor, listând referințele sale după fiecare ieșire.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

Bing Chat răspunde la întrebări despre data lansării ChatGPT

Bard AI nu își listează sursele, ci creează explicații aprofundate și actualizate, rulând interogări de căutare Google. Veți obține puncte cheie de la SERP-uri.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

Bard explică datele și actualizările recente ale lansării ChatGPT

ChatGPT este predispus la inexactități. Limitarea cunoștințelor din 2021 îl împiedică să răspundă la întrebări despre evenimente și incidente recente.

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

ChatGPT nu poate răspunde la întrebările generale despre evenimentele recente


Grupul de lucru ChatGPT va fi înființat de Europa

Grupul de lucru ChatGPT va fi înființat de Europa

Organismul care reunește organele naționale de supraveghere a vieții private din Europa a declarat joi că a înființat un grup operativ dedicat ChatGPT

AI prezice ora morții umane cu o precizie de 78%.

AI prezice ora morții umane cu o precizie de 78%.

Oamenii de știință danezi și americani au colaborat pentru a dezvolta un sistem AI numit life2vec, capabil să prezică ora morții umane cu mare precizie.

AI prezice bolile urinare doar prin sunetul urinei

AI prezice bolile urinare doar prin sunetul urinei

Un algoritm AI numit Audioflow poate asculta sunetul urinării pentru a identifica eficient și cu succes fluxurile anormale și problemele de sănătate corespunzătoare ale pacientului.

Barmani, atenție: acest robot poate amesteca un cocktail în doar 1 minut

Barmani, atenție: acest robot poate amesteca un cocktail în doar 1 minut

Îmbătrânirea și scăderea populației din Japonia a lăsat țara lipsită de un număr semnificativ de tineri lucrători, în special în sectorul serviciilor.

Sute de oameni au fost dezamăgiți când au aflat că fata pe care o iubeau este un produs al inteligenței artificiale

Sute de oameni au fost dezamăgiți când au aflat că fata pe care o iubeau este un produs al inteligenței artificiale

Un utilizator Reddit numit u/LegalBeagle1966 este unul dintre mulți utilizatori îndrăgostiți de Claudia, o fată asemănătoare vedetei de cinema care deseori împărtășește selfie-uri seducătoare, chiar și nud, pe această platformă.

Încă 12 companii potențiale se alătură „alianței AI” a Microsoft.

Încă 12 companii potențiale se alătură „alianței AI” a Microsoft.

Microsoft tocmai a anunțat că alte 12 companii de tehnologie vor participa la programul său AI for Good.

AI recreează personajele Dragon Ball în carne și oase

AI recreează personajele Dragon Ball în carne și oase

Utilizatorul @mortecouille92 a pus în funcțiune puterea instrumentului de design grafic Midjourney și a creat versiuni realiste unice ale personajelor celebre Dragon Ball precum Goku, Vegeta, Bulma și bătrânul Kame. .

7 tehnici pentru a îmbunătăți răspunsurile ChatGPT

7 tehnici pentru a îmbunătăți răspunsurile ChatGPT

Doar prin adăugarea unor condiții sau configurarea unor scenarii, ChatGPT poate oferi răspunsuri mai relevante la întrebările dvs. Să vedem câteva modalități prin care puteți îmbunătăți calitatea răspunsurilor dvs. ChatGPT.

Minunați-vă de tablourile frumoase desenate de inteligența artificială

Minunați-vă de tablourile frumoase desenate de inteligența artificială

Midjourney este un sistem de inteligență artificială care a provocat recent o „febră” în comunitatea online și în lumea artiștilor din cauza picturilor sale extrem de frumoase, care nu sunt inferioare celor ale artiștilor adevărați.

Acest model AI a fost unul dintre primii „experți” care au descoperit știri despre focarul de pneumonie din Wuhan.

Acest model AI a fost unul dintre primii „experți” care au descoperit știri despre focarul de pneumonie din Wuhan.

La câteva zile după ce China a anunțat focarul, având acces la datele globale despre vânzările de bilete de avion, sistemul AI al BlueDot a continuat să prezică cu exactitate răspândirea virusului Wuhan Corona la Bangkok, Seul, Taipei și Tokyo.