8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

Kecerdasan buatan telah berkembang jauh daripada menjana output yang tidak relevan dan tidak koheren. Chatbots moden menggunakan model bahasa lanjutan untuk menjawab soalan pengetahuan am, mengarang esei panjang dan menulis kod, antara banyak tugas rumit lain.

Walaupun terdapat kemajuan, sedar bahawa sistem yang paling canggih pun mempunyai had. AI masih boleh melakukan kesilapan. Untuk menentukan chatbot yang paling tidak terdedah kepada ilusi AI, uji ketepatannya berdasarkan faktor ini.

1. Kebolehan menyelesaikan masalah matematik

Jalankan persamaan matematik melalui chatbot. Mereka akan menguji keupayaan platform untuk menganalisis masalah, menterjemah konsep matematik dan menggunakan formula dengan tepat. Hanya beberapa model yang menunjukkan keupayaan pengkomputeran yang boleh dipercayai. Malah, salah satu masalah ChatGPT yang paling teruk pada masa awalnya ialah matematiknya yang dahsyat.

Imej di bawah menunjukkan ChatGPT gagal mencapai statistik asas.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

ChatGPT menjawab soalan kebarangkalian dengan salah

ChatGPT telah menunjukkan peningkatan selepas OpenAI melancarkan kemas kini pada Mei 2023. Tetapi memandangkan set data terhadnya, anda masih akan bergelut dengan masalah pertengahan hingga lanjutan .

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

ChatGPT menjawab soalan kebarangkalian dengan betul

Sementara itu, Bing Chat dan Google Bard mempunyai keupayaan pengkomputeran yang lebih baik. Mereka menjalankan pertanyaan melalui enjin carian masing-masing, membolehkan mereka mendapatkan semula formula dan memberikan jawapan.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

Bing Chat menjawab soalan kebarangkalian dengan betul

Cuba ungkapkan semula pertanyaan anda. Elakkan ayat yang panjang dan gantikan kata kerja yang lemah; jika tidak, chatbot mungkin salah faham soalan anda.

2. Keupayaan untuk memahami pertanyaan yang kompleks

Sistem AI moden boleh menjalankan banyak tugas. LLM lanjutan membolehkan mereka mengekalkan arahan sebelumnya dan menjawab pertanyaan sedikit demi sedikit, manakala sistem lama mengendalikan arahan tunggal. Sebagai contoh, Siri menjawab satu soalan pada satu masa.

Berikan chatbots 3 hingga 5 tugas serentak untuk menguji sejauh mana mereka menganalisis gesaan yang kompleks. Model yang kurang kompleks tidak dapat mengendalikan seberapa banyak maklumat. Imej di bawah menunjukkan HuggingChat menghadapi masalah dengan gesaan 3 langkah - ia berhenti pada langkah satu dan keluar dari topik.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

HuggingChat cuba menjawab pertanyaan berbilang langkah

Baris terakhir HuggingChat tidak koheren.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

HuggingChat keliru selepas menjawab pertanyaan pelbagai langkah

ChatGPT dengan pantas melengkapkan gesaan yang sama, menjana respons pintar dan bebas ralat pada setiap langkah.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

ChatGPT menjawab soalan pertama pertanyaan berbilang langkah

Bing Chat menyediakan jawapan ringkas untuk 3 langkah. Kekangan tegarnya melarang keluaran yang tidak perlu panjang yang membazirkan kuasa pemprosesan.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

Bing Chat memberikan jawapan ringkas kepada projek berbilang langkah

3. Hadkan set data latihan

Oleh kerana latihan AI adalah intensif sumber, kebanyakan pembangun mengehadkan set data kepada tempoh masa tertentu. Ambil ChatGPT sebagai contoh. Ia mempunyai pengetahuan terhad pada September 2021 - anda tidak boleh meminta kemas kini cuaca, laporan berita atau perkembangan terkini. ChatGPT tidak mempunyai akses kepada maklumat masa nyata.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

ChatGPT tidak boleh berkongsi acara penting kerana ia mempunyai pengetahuan yang terhad

Bard mempunyai akses kepada Internet. Ia menarik data daripada SERP Google, supaya anda boleh bertanya lebih banyak jenis soalan, contohnya, tentang peristiwa, berita dan ramalan terkini.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

Bard berkongsi acara penting dengan menjalankan pertanyaan Google

Begitu juga, Bing Chat menarik maklumat masa nyata daripada enjin cariannya.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

Bing berkongsi peristiwa penting dengan menjalankan pertanyaan carian pada Bing

Bing Chat dan Bard memberikan maklumat yang tepat pada masanya dan terkini, tetapi Bing Chat memberikan maklum balas yang lebih terperinci. Bing hanya membentangkan data sebagaimana adanya. Anda akan dapati bahawa outputnya selalunya sepadan dengan frasa dan nada sumber yang dipautkan.

4. Perkaitan dalam jawapan

Chatbots mesti menyediakan output yang berkaitan. Mereka harus mempertimbangkan makna literal dan konteks gesaan semasa memberi respons. Ambil contoh perbualan ini. Watak itu memerlukan telefon baharu tetapi hanya mempunyai $1000 - ChatGPT tidak melebihi bajet.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

ChatGPT mengesyorkan telefon pintar di bawah $1000

Apabila menguji kaitan, cuba buat arahan yang panjang. Chatbot yang kurang canggih cenderung sesat apabila diberi arahan yang mengelirukan. Contohnya, HuggingChat boleh mengarang cerita fiksyen. Tetapi ia boleh menyimpang daripada tema utama jika anda menetapkan terlalu banyak peraturan dan garis panduan.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

HuggingChat menjadi keliru dengan gesaan berbilang langkah

5. Ingatan kontekstual

Memori kontekstual membantu AI menghasilkan output yang tepat dan boleh dipercayai. Daripada melihat di luar soalan, mereka menyusun butiran yang anda nyatakan. Ambil contoh perbualan ini. Bing Chat menghubungkan dua mesej berasingan untuk membentuk satu respons yang ringkas dan membantu.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

Bing Chat menyediakan penulis dengan buku untuk meningkatkan kemahiran mereka

Begitu juga, memori kontekstual membolehkan chatbots mengingati arahan. Imej ini menunjukkan ChatGPT meniru cara watak fiksyen bercakap dalam beberapa perbualan.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

ChatGPT menjawab soalan seperti Ash daripada Pokemon

Uji sendiri kefungsian ini dengan merujuk berulang kali pada kenyataan sebelumnya. Suapkan chatbots pelbagai maklumat, kemudian paksa mereka untuk mengingat maklumat ini dalam respons seterusnya.

Nota : Memori kontekstual adalah terhad. Bing Chat memulakan perbualan baharu setiap 20 pusingan, manakala ChatGPT tidak boleh mengendalikan gesaan melebihi 3,000 token.

6. Sekatan keselamatan

AI tidak selalu berfungsi seperti yang diharapkan. Latihan yang tidak betul boleh menyebabkan teknologi pembelajaran mesin membuat pelbagai ralat, daripada kesilapan kecil matematik kepada komen yang boleh dipersoalkan. Ambil Microsoft Tay sebagai contoh. Pengguna Twitter mengeksploitasi model pembelajaran tanpa pengawasannya dan mengubahnya menjadi fitnah perkauman.

Syukurlah, pemimpin teknologi global telah belajar daripada kesilapan Microsoft. Walaupun kos efektif dan mudah, pembelajaran tanpa pengawasan menjadikan sistem AI mudah diperdaya. Oleh itu, pembangun bergantung terutamanya pada pembelajaran diselia hari ini. Chatbots seperti ChatGPT masih belajar daripada perbualan, tetapi jurulatih mereka menapis maklumat terlebih dahulu.

Sekatan ChatGPT yang kurang tegar boleh meliputi pelbagai tugas yang lebih luas tetapi lemah terhadap eksploitasi. Sementara itu, Bing Chat mengikut had yang lebih ketat. Walaupun mereka membantu mempertahankan diri daripada percubaan mengeksploitasi, mereka juga menghalang kefungsian. Bing secara automatik meredamkan perbualan yang berpotensi berbahaya.

7. bias AI

AI sememangnya neutral. Kekurangan minat dan emosi AI menyebabkan AI tidak mampu membentuk pendapat - ia hanya menyampaikan maklumat yang diketahuinya. Beginilah cara ChatGPT bertindak balas terhadap topik subjektif.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

ChatGPT membandingkan Iron Man dan Captain America

Walaupun berkecuali ini, berat sebelah dalam AI masih timbul. Ia berasal daripada corak, set data, algoritma dan model yang digunakan oleh pembangun. AI boleh bersikap saksama, tetapi manusia tidak.

Sebagai contoh, The Brookings Institution mendakwa bahawa ChatGPT mempamerkan kecenderungan politik sayap kiri. Sudah tentu, OpenAI menafikan tuduhan ini. Tetapi untuk mengelakkan masalah yang sama dengan model yang lebih baharu, ChatGPT mengelakkan sepenuhnya keluaran berat sebelah.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

ChatGPT tidak boleh membincangkan agama

Begitu juga, Bing Chat juga mengelakkan isu sensitif dan subjektif.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

Bing Chat tidak boleh membincangkan agama

Nilai sendiri kecondongan AI dengan bertanya soalan terbuka dan berasaskan pendapat. Bincangkan topik yang tidak mempunyai jawapan yang betul atau salah - chatbot yang kurang canggih mungkin menunjukkan pilihan yang tidak berasas kepada kumpulan tertentu.

8. Rujukan

AI jarang menyemak semula fakta. Ia hanya mengambil maklumat daripada set data dan menulis semulanya melalui model bahasa. Malangnya, latihan yang terhad menyebabkan halusinasi AI. Anda masih boleh menggunakan alatan AI Generatif untuk penyelidikan, tetapi pastikan anda mengesahkan fakta itu sendiri.

Bing Chat memudahkan proses semakan fakta dengan menyenaraikan rujukannya selepas setiap output.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

Bing Chat menjawab soalan tentang tarikh pelancaran ChatGPT

Bard AI tidak menyenaraikan sumbernya tetapi mencipta penjelasan yang mendalam dan terkini dengan menjalankan pertanyaan carian Google. Anda akan mendapat mata penting daripada SERP.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

Bard menerangkan data pelancaran dan kemas kini terbaru ChatGPT

ChatGPT terdedah kepada ketidaktepatan. Had pengetahuan 2021 menghalangnya daripada menjawab soalan tentang peristiwa dan insiden terkini.

8 faktor utama yang perlu dipertimbangkan semasa menguji ketepatan chatbots AI

ChatGPT tidak dapat menjawab soalan pengetahuan am tentang peristiwa baru-baru ini

Tinggalkan Komen

Pasukan petugas ChatGPT akan ditubuhkan oleh Eropah

Badan yang menyatukan pemerhati privasi negara Eropah berkata pada hari Khamis ia telah menubuhkan pasukan petugas khusus untuk ChatGPT

AI meramalkan masa kematian manusia dengan ketepatan 78%.

Para saintis Denmark dan Amerika telah bekerjasama untuk membangunkan sistem AI yang dipanggil life2vec, yang mampu meramalkan masa kematian manusia dengan ketepatan yang tinggi.

AI meramalkan penyakit kencing hanya dengan bunyi air kencing

Algoritma AI yang dipanggil Audioflow boleh mendengar bunyi kencing untuk mengenal pasti aliran tidak normal dan masalah kesihatan pesakit yang sepadan dengan berkesan dan berjaya.

Pelayan bar, berhati-hati: Robot ini boleh mencampurkan koktel dalam masa 1 minit sahaja

Penduduk Jepun yang semakin tua dan semakin berkurangan menyebabkan negara itu kekurangan sejumlah besar pekerja muda, terutamanya dalam sektor perkhidmatan.

Beratus-ratus orang kecewa apabila mereka mengetahui bahawa gadis yang mereka cintai adalah produk AI

Pengguna Reddit bernama u/LegalBeagle1966 ialah salah satu daripada ramai pengguna yang terpikat dengan Claudia, seorang gadis seperti bintang filem yang sering berkongsi swafoto yang menggoda, malah bogel. di platform ini.

12 lagi syarikat berpotensi menyertai AI alliance Microsoft.

Microsoft baru sahaja mengumumkan bahawa 12 lagi syarikat teknologi akan mengambil bahagian dalam program AI for Goodnya.

AI mencipta semula watak Dragon Ball dalam daging dan darah

Pengguna @mortecouille92 telah meletakkan kuasa alat reka bentuk grafik Midjourney untuk berfungsi dan mencipta versi unik realistik watak Dragon Ball yang terkenal seperti Goku, Vegeta, Bulma dan Kame yang lebih tua. .

7 teknik untuk meningkatkan respons ChatGPT

Hanya dengan menambah beberapa syarat atau menyediakan beberapa senario, ChatGPT boleh memberikan jawapan yang lebih berkaitan kepada pertanyaan anda. Mari lihat beberapa cara anda boleh meningkatkan kualiti respons ChatGPT anda.

Kagum dengan lukisan cantik yang dilukis oleh kecerdasan buatan

Midjourney ialah sistem kecerdasan buatan yang baru-baru ini menyebabkan "demam" dalam komuniti dalam talian dan dunia artis kerana lukisannya yang sangat cantik yang tidak kalah dengan lukisan artis sebenar.

Model AI ini adalah salah seorang pakar pertama yang menemui berita tentang wabak pneumonia Wuhan.

Beberapa hari selepas China mengumumkan wabak itu, dengan akses kepada data jualan tiket penerbangan global, sistem AI BlueDot terus meramalkan dengan tepat penyebaran virus Wuhan Corona ke Bangkok, Seoul, Taipei dan Tokyo.