Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

Yapay zeka alakasız, tutarsız çıktılar üretme konusunda uzun bir yol kat etti. Modern sohbet robotları, diğer birçok karmaşık görevin yanı sıra genel bilgi sorularını yanıtlamak, uzun makaleler yazmak ve kod yazmak için gelişmiş dil modellerini kullanır.

Gelişmelere rağmen en karmaşık sistemlerin bile sınırlamaları olduğunu unutmayın. Yapay zeka hâlâ hata yapabilir. Hangi sohbet robotlarının yapay zeka illüzyonlarına karşı en az duyarlı olduğunu belirlemek için bu faktörlere göre doğruluklarını test edin.

1. Matematik problemlerini çözebilme becerisi

Chatbot aracılığıyla matematik denklemlerini çalıştırın. Platformun problemleri analiz etme, matematiksel kavramları tercüme etme ve formülleri doğru şekilde uygulama yeteneğini test edecekler. Yalnızca birkaç model güvenilir bilgi işlem yetenekleri sergiliyor. Aslında ChatGPT'nin ilk günlerindeki en kötü sorunlarından biri berbat matematiğiydi.

Aşağıdaki resim ChatGPT'nin temel istatistikleri elde edemediğini göstermektedir.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

ChatGPT olasılık sorusunu yanlış yanıtladı

ChatGPT, OpenAI'nin Mayıs 2023'te güncellemeleri yayınlamasının ardından gelişme gösterdi. Ancak sınırlı veri kümeleri göz önüne alındığında, yine de orta ila ileri düzey sorunlarla mücadele edeceksiniz.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

ChatGPT olasılık sorularını doğru yanıtlıyor

Bu arada Bing Chat ve Google Bard'ın bilgi işlem yetenekleri daha iyi. İlgili arama motorları aracılığıyla sorgular çalıştırarak formülleri almalarına ve yanıtlar sunmalarına olanak tanırlar.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

Bing Chat olasılık sorularını doğru yanıtlıyor

Sorgularınızı yeniden ifade etmeyi deneyin. Uzun cümlelerden kaçının ve zayıf fiilleri değiştirin; aksi halde chatbot sorunuzu yanlış anlayabilir.

2. Karmaşık sorguları anlama becerisi

Modern yapay zeka sistemleri birçok görevi üstlenebilir. Gelişmiş LLM'ler önceki talimatları korumalarına ve sorguları parça parça yanıtlamalarına olanak tanırken, eski sistemler tek komutları yönetir. Örneğin Siri tek seferde bir soruyu yanıtlıyor.

Karmaşık istemleri ne kadar iyi analiz ettiklerini test etmek için sohbet robotlarına 3 ila 5 eşzamanlı görev verin. Daha az karmaşık modeller bu kadar çok bilgiyi işleyemez. Aşağıdaki resim HuggingChat'in 3 adımlı komut isteminde sorun yaşadığını gösteriyor; birinci adımda duruyor ve konunun dışına çıkıyor.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

HuggingChat çok adımlı sorguları yanıtlamaya çalışıyor

HuggingChat'in son satırları tutarsızdı.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

Çok adımlı sorguyu yanıtladıktan sonra HuggingChat'in kafası karıştı

ChatGPT aynı istemi hızla tamamlayarak her adımda akıllı, hatasız yanıtlar üretir.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

ChatGPT çok adımlı bir sorgunun ilk sorusunu yanıtlıyor

Bing Chat, 3 adımda kısa ve öz yanıtlar sağlar. Katı kısıtlamaları, işlem gücünü boşa harcayan gereksiz derecede uzun çıktıları yasaklar.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

Bing Chat, çok adımlı projelere kısa ve öz yanıtlar sağlar

3. Eğitim veri setini sınırlayın

Yapay zeka eğitimi kaynak yoğun olduğundan çoğu geliştirici veri kümelerini belirli zaman dilimleriyle sınırlandırır. Örneğin ChatGPT'yi ele alalım. Eylül 2021'de sınırlı bilgiye sahiptir; hava durumu güncellemelerini, haber raporlarını veya son gelişmeleri talep edemezsiniz. ChatGPT'nin gerçek zamanlı bilgilere erişimi yoktur.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

ChatGPT, sınırlı bilgiye sahip olduğundan önemli olayları paylaşamaz

Bard'ın internet erişimi var. Google SERP'lerden veri çeker, böylece daha fazla türde soru (örneğin, son olaylar, haberler ve tahminler) sorabilirsiniz.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

Bard, Google sorguları çalıştırarak önemli olayları paylaşıyor

Benzer şekilde Bing Chat, arama motorundan gerçek zamanlı bilgiler alır.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

Bing, Bing'de arama sorguları çalıştırarak önemli olayları paylaşıyor

Bing Chat ve Bard zamanında, güncel bilgiler sağlar, ancak Bing Chat daha ayrıntılı geri bildirim sağlar. Bing verileri olduğu gibi sunar. Çıktısının çoğunlukla bağlantılı kaynakların ifadeleri ve tonuyla eşleştiğini fark edeceksiniz.

4. Cevabın alaka düzeyi

Chatbot'lar ilgili çıktıyı sağlamalıdır. Cevap verirken istemin gerçek anlamını ve bağlamını dikkate almalıdırlar. Örneğin bu konuşmayı ele alalım. Karakterin yeni bir telefona ihtiyacı var ama sadece 1000$'ı var - ChatGPT bütçeyi aşmıyor.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

ChatGPT, 1000 doların altındaki akıllı telefonları öneriyor

Alaka düzeyini test ederken uzun talimatlar oluşturmayı deneyin. Daha az karmaşık sohbet robotları, kafa karıştırıcı talimatlar verildiğinde yoldan çıkma eğilimindedir. Örneğin HuggingChat kurgusal hikayeler yazabilir. Ancak çok fazla kural ve yönerge belirlerseniz ana temadan sapabilir.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

HuggingChat'in çok adımlı istemler yüzünden kafası karışıyor

5. Bağlamsal hafıza

Bağlamsal bellek, yapay zekanın doğru, güvenilir çıktılar üretmesine yardımcı olur. Soruların dışına bakmak yerine bahsettiğiniz detayları bir araya getiriyorlar. Örneğin bu konuşmayı ele alalım. Bing Chat, kısa ve yararlı bir yanıt oluşturmak için iki ayrı mesajı birbirine bağlar.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

Bing Chat, yazarlara becerilerini geliştirmeleri için kitaplar sağlıyor

Benzer şekilde bağlamsal bellek, sohbet robotlarının talimatları hatırlamasına olanak tanır. Bu görüntü, ChatGPT'nin kurgusal bir karakterin çeşitli konuşmalarda konuşma şeklini taklit ettiğini gösteriyor.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

ChatGPT, Pokemon'dan Ash gibi soruları yanıtlıyor

Önceki ifadelere tekrar tekrar başvurarak bu işlevselliği kendiniz test edin. Sohbet robotlarına çeşitli bilgiler verin, ardından onları sonraki yanıtlarda bu bilgileri hatırlamaya zorlayın.

Not : Bağlamsal bellek sınırlıdır. Bing Chat, her 20 turda yeni bir konuşma başlatırken ChatGPT, 3.000 jetonun üzerindeki istemleri işleyemez.

6. Güvenlik kısıtlamaları

Yapay zeka her zaman istenildiği gibi çalışmaz. Yanlış eğitim, makine öğrenimi teknolojilerinin küçük matematiksel hatalardan şüpheli yorumlara kadar çeşitli hatalar yapmasına neden olabilir. Örneğin Microsoft Tay'ı ele alalım. Twitter kullanıcıları denetimsiz öğrenme modelinden yararlandı ve bunu ırkçı hakaretlere dönüştürdü.

Neyse ki küresel teknoloji liderleri Microsoft'un hatalarından ders aldı. Uygun maliyetli ve kullanışlı olmasına rağmen denetimsiz öğrenme, yapay zeka sistemlerinin kandırılmasını kolaylaştırır. Bu nedenle geliştiriciler günümüzde çoğunlukla denetimli öğrenmeye güveniyor. ChatGPT gibi sohbet robotları hala konuşmalardan öğreniyor ancak eğitmenleri önce bilgileri filtreliyor.

ChatGPT'nin daha az katı kısıtlamaları daha geniş bir görev yelpazesini kapsayabilir ancak kötüye kullanımlara karşı zayıftır. Bu arada Bing Chat daha katı sınırlara uyuyor. İstismar girişimlerine karşı savunmaya yardımcı olurken aynı zamanda işlevselliği de engellerler. Bing, zararlı olabilecek konuşmaları otomatik olarak sessize alır.

7. Yapay zeka önyargısı

Yapay zeka doğası gereği tarafsızdır. Yapay zekanın ilgi ve duygu eksikliği, onu fikir oluşturma yeteneğinden yoksun kılıyor; yalnızca bildiği bilgileri sunuyor. ChatGPT öznel konulara bu şekilde yanıt verir.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

ChatGPT, Iron Man ve Kaptan Amerika'yı karşılaştırıyor

Bu tarafsızlığa rağmen yapay zekadaki önyargılar hâlâ ortaya çıkıyor. Geliştiricilerin kullandığı kalıplardan, veri kümelerinden, algoritmalardan ve modellerden kaynaklanırlar. Yapay zeka tarafsız olabilir ancak insanlar değildir.

Örneğin Brookings Enstitüsü, ChatGPT'nin sol siyasi önyargı sergilediğini iddia ediyor. Elbette OpenAI bu suçlamaları reddediyor. Ancak daha yeni modellerde benzer sorunları önlemek için ChatGPT, taraflı çıktıları tamamen ortadan kaldırır.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

ChatGPT dini tartışamaz

Benzer şekilde Bing Chat de hassas, öznel sorunlardan kaçınır.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

Bing Chat dini tartışamaz

Açık uçlu, görüşe dayalı sorular sorarak yapay zeka önyargılarını kendiniz değerlendirin. Doğru ya da yanlış yanıtı olmayan konuları tartışın; daha az gelişmiş sohbet robotları belirli gruplara yönelik temelsiz tercihler gösterebilir.

8. Referanslar

Yapay zeka nadiren gerçekleri iki kez kontrol eder. Sadece veri kümesinden bilgi alır ve bunları dil modelleri aracılığıyla yeniden yazar. Maalesef sınırlı eğitim yapay zeka halüsinasyonlarına neden oluyor. Araştırma için hâlâ Üretken Yapay Zeka araçlarını kullanabilirsiniz ancak gerçekleri kendiniz doğruladığınızdan emin olun.

Bing Chat, her çıktıdan sonra referanslarını listeleyerek doğruluk kontrolü sürecini basitleştirir.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

Bing Chat, ChatGPT'nin lansman tarihi hakkındaki soruları yanıtlıyor

Bard AI, kaynaklarını listelemez ancak Google arama sorgularını çalıştırarak derinlemesine, güncel açıklamalar oluşturur. SERP'lerden önemli noktalar alacaksınız.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

Bard, ChatGPT'nin son lansman verilerini ve güncellemelerini açıklıyor

ChatGPT yanlışlıklara eğilimlidir. 2021 bilgi sınırlaması, güncel olay ve olaylarla ilgili soruların yanıtlanmasını engelliyor.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

ChatGPT, son olaylarla ilgili genel bilgi sorularını yanıtlayamıyor

Tags: #Artificial Intelligence (AI)

ChatGPT görev gücü Avrupa tarafından oluşturulacak

Avrupa'nın ulusal gizlilik gözlemcilerini birleştiren organ Perşembe günü yaptığı açıklamada, ChatGPT'ye adanmış bir görev gücü kurduğunu söyledi.

Yapay zeka, insanın ölüm zamanını %78 doğrulukla tahmin ediyor

Danimarkalı ve Amerikalı bilim insanları, insanın ölüm zamanını yüksek doğrulukla tahmin edebilen, life2vec adı verilen bir yapay zeka sistemi geliştirmek için iş birliği yaptı.

Yapay Zeka sadece idrar sesine bakarak idrar yolu hastalıklarını tahmin ediyor

Audioflow adı verilen bir yapay zeka algoritması, hastanın anormal akışlarını ve buna karşılık gelen sağlık sorunlarını etkili ve başarılı bir şekilde tanımlamak için idrara çıkma sesini dinleyebilir.

Barmenler dikkat: Bu robot bir kokteyli sadece 1 dakikada hazırlayabiliyor

Japonya'nın yaşlanan ve azalan nüfusu, ülkenin özellikle hizmet sektöründe önemli sayıda genç işçiden yoksun kalmasına neden oldu.

Yüzlerce kişi sevdikleri kızın yapay zekanın bir ürünü olduğunu öğrenince hayal kırıklığına uğradı

u/LegalBeagle1966 adlı bir Reddit kullanıcısı, bu platformda sıklıkla baştan çıkarıcı, hatta çıplak selfieler paylaşan film yıldızı benzeri Claudia'ya aşık olan birçok kullanıcıdan biri.

Microsoftun AI ittifakına 12 potansiyel şirket daha katılıyor.

Microsoft, AI for Good programına 12 teknoloji şirketinin daha katılacağını duyurdu.

Yapay zeka, Dragon Ball karakterlerini etten kemikten yeniden yaratıyor

Kullanıcı @mortecouille92, grafik tasarım aracı Midjourney'in gücünden yararlandı ve Goku, Vegeta, Bulma ve Elder Kame gibi ünlü Dragon Ball karakterlerinin benzersiz gerçekçi versiyonlarını yarattı.

ChatGPT yanıtlarını iyileştirmek için 7 teknik

ChatGPT, yalnızca bazı koşullar ekleyerek veya bazı senaryolar oluşturarak sorularınıza daha alakalı yanıtlar verebilir. ChatGPT yanıtlarınızın kalitesini artırabileceğiniz bazı yollara bakalım.

Yapay zekanın çizdiği güzel tablolara hayran kalın

Midjourney, gerçek sanatçılarınkinden aşağı olmayan son derece güzel tabloları nedeniyle son zamanlarda çevrimiçi toplulukta ve sanatçı dünyasında "ateşe" neden olan bir yapay zeka sistemidir.

Bu yapay zeka modeli, Wuhan zatürresinin patlak vermesiyle ilgili haberleri keşfeden ilk uzmanlardan biriydi.

Çin'in salgını duyurmasından günler sonra, küresel uçak bileti satış verilerine erişim sağlayan BlueDot'un yapay zeka sistemi, Wuhan Corona virüsünün Bangkok, Seul, Taipei ve Tokyo'ya yayılmasını doğru bir şekilde tahmin etmeye devam etti.

Yapay zeka sohbet robotlarının doğruluğunu test ederken dikkate alınması gereken 8 temel faktör

Leave a Comment

ChatGPT görev gücü Avrupa tarafından oluşturulacak

Yapay zeka, insanın ölüm zamanını %78 doğrulukla tahmin ediyor

Yapay Zeka sadece idrar sesine bakarak idrar yolu hastalıklarını tahmin ediyor

Barmenler dikkat: Bu robot bir kokteyli sadece 1 dakikada hazırlayabiliyor

Yüzlerce kişi sevdikleri kızın yapay zekanın bir ürünü olduğunu öğrenince hayal kırıklığına uğradı

Microsoftun AI ittifakına 12 potansiyel şirket daha katılıyor.

Yapay zeka, Dragon Ball karakterlerini etten kemikten yeniden yaratıyor

ChatGPT yanıtlarını iyileştirmek için 7 teknik

Yapay zekanın çizdiği güzel tablolara hayran kalın

Bu yapay zeka modeli, Wuhan zatürresinin patlak vermesiyle ilgili haberleri keşfeden ilk uzmanlardan biriydi.