8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

ปัญญาประดิษฐ์พัฒนาไปไกลจากการสร้างผลลัพธ์ที่ไม่เกี่ยวข้องและไม่ต่อเนื่องกัน แชทบอทยุคใหม่ใช้โมเดลภาษาขั้นสูงเพื่อตอบคำถามความรู้ทั่วไป เขียนเรียงความขนาดยาว และเขียนโค้ด ท่ามกลางงานที่ซับซ้อนอื่นๆ อีกมากมาย

แม้จะมีความก้าวหน้า แต่โปรดทราบว่าแม้แต่ระบบที่ซับซ้อนที่สุดก็ยังมีข้อจำกัด AI ยังสามารถผิดพลาดได้ หากต้องการทราบว่าแชทบอทตัวใดไวต่อภาพลวงตา AI น้อยที่สุด ให้ทดสอบความแม่นยำตามปัจจัยเหล่านี้

1. ความสามารถในการแก้ปัญหาคณิตศาสตร์

รันสมการทางคณิตศาสตร์ผ่านแชทบอท พวกเขาจะทดสอบความสามารถของแพลตฟอร์มในการวิเคราะห์ปัญหา แปลแนวคิดทางคณิตศาสตร์ และใช้สูตรได้อย่างแม่นยำ มีเพียงไม่กี่รุ่นเท่านั้นที่แสดงให้เห็นถึงความสามารถในการประมวลผลที่เชื่อถือได้ ในความเป็นจริง หนึ่งใน ปัญหาที่เลวร้ายที่สุดของChatGPTในช่วงแรกๆ ก็คือคณิตศาสตร์ที่แย่มาก

รูปภาพด้านล่างแสดงให้เห็นว่า ChatGPT ไม่สามารถบรรลุสถิติพื้นฐานได้

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

ChatGPT ตอบคำถามความน่าจะเป็นไม่ถูกต้อง

ChatGPT แสดงให้เห็นการปรับปรุงหลังจาก OpenAI เปิดตัวการอัปเดตในเดือนพฤษภาคม 2023 แต่เมื่อพิจารณาจากชุดข้อมูลที่จำกัด คุณจะยังคงต่อสู้กับปัญหาระดับกลางถึงขั้นสูง

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

ChatGPT ตอบคำถามความน่าจะเป็นได้อย่างถูกต้อง

ในขณะเดียวกัน Bing Chat และ Google Bard มีความสามารถในการประมวลผลที่ดีกว่า พวกเขาดำเนินการค้นหาผ่านเครื่องมือค้นหาที่เกี่ยวข้อง ทำให้สามารถดึงสูตรและให้คำตอบได้

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

Bing Chat ตอบคำถามความน่าจะเป็นได้อย่างถูกต้อง

ลองเรียบเรียงคำถามของคุณใหม่ หลีกเลี่ยงประโยคยาวๆ และใช้กริยาที่อ่อนแอแทน มิฉะนั้นแชทบอทอาจเข้าใจผิดคำถามของคุณ

2. ความสามารถในการเข้าใจคำถามที่ซับซ้อน

ระบบ AI สมัยใหม่สามารถทำหน้าที่ได้หลายอย่าง LLM ขั้นสูงช่วยให้เก็บคำสั่งก่อนหน้านี้และตอบคำถามทีละน้อย ในขณะที่ระบบเก่าจัดการคำสั่งเดียว ตัวอย่างเช่น Siri ตอบคำถามทีละข้อ

มอบหมายงานให้แชทบอท 3 ถึง 5 งานพร้อมกันเพื่อทดสอบว่าพวกเขาวิเคราะห์พร้อมท์ที่ซับซ้อนได้ดีเพียงใด โมเดลที่ซับซ้อนน้อยกว่าไม่สามารถจัดการข้อมูลได้มากนัก รูปภาพด้านล่างแสดงให้เห็นว่า HuggingChat มีปัญหากับข้อความแจ้ง 3 ขั้นตอน โดยหยุดที่ขั้นตอนที่ 1 และออกจากหัวข้อ

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

HuggingChat พยายามตอบคำถามหลายขั้นตอน

บรรทัดสุดท้ายของ HuggingChat ไม่สอดคล้องกัน

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

HuggingChat สับสนหลังจากตอบคำถามหลายขั้นตอน

ChatGPT ดำเนินการพร้อมท์เดียวกันอย่างรวดเร็ว สร้างการตอบสนองที่ชาญฉลาดและปราศจากข้อผิดพลาดในทุกขั้นตอน

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

ChatGPT ตอบคำถามแรกของการสืบค้นแบบหลายขั้นตอน

Bing Chat ให้คำตอบที่กระชับใน 3 ขั้นตอน ข้อจำกัดที่เข้มงวดทำให้เอาท์พุตยาวโดยไม่จำเป็นซึ่งทำให้สูญเสียพลังการประมวลผล

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

Bing Chat ให้คำตอบที่กระชับสำหรับโปรเจ็กต์ที่มีหลายขั้นตอน

3. จำกัดชุดข้อมูลการฝึก

เนื่องจากการฝึกอบรม AI ต้องใช้ทรัพยากรมาก นักพัฒนาส่วนใหญ่จึงจำกัดชุดข้อมูลให้อยู่ในช่วงเวลาที่กำหนด ยกตัวอย่าง ChatGPT มีความรู้อย่างจำกัดในเดือนกันยายน 2021 - คุณไม่สามารถขอข้อมูลอัปเดตสภาพอากาศ รายงานข่าว หรือความคืบหน้าล่าสุดได้ ChatGPT ไม่สามารถเข้าถึงข้อมูลแบบเรียลไทม์

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

ChatGPT ไม่สามารถแชร์เหตุการณ์สำคัญได้เนื่องจากมีความรู้จำกัด

เบิร์ดมีการเข้าถึงอินเทอร์เน็ต โดยจะดึงข้อมูลจาก Google SERP เพื่อให้คุณสามารถถามคำถามประเภทต่างๆ ได้มากขึ้น เช่น เกี่ยวกับเหตุการณ์ล่าสุด ข่าวสาร และการทำนาย

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

Bard แบ่งปันเหตุการณ์สำคัญโดยเรียกใช้คำค้นหาของ Google

ในทำนองเดียวกัน Bing Chat จะดึงข้อมูลแบบเรียลไทม์จากเครื่องมือค้นหา

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

Bing แบ่งปันเหตุการณ์สำคัญโดยเรียกใช้คำค้นหาบน Bing

Bing Chat และ Bard ให้ข้อมูลที่ทันท่วงทีและเป็นปัจจุบัน แต่ Bing Chat ให้ข้อเสนอแนะที่ละเอียดกว่า Bing นำเสนอข้อมูลตามที่เป็นอยู่ คุณจะสังเกตเห็นว่าผลลัพธ์มักจะตรงกับการใช้ถ้อยคำและน้ำเสียงของแหล่งที่มาที่เชื่อมโยง

4. ความเกี่ยวข้องในคำตอบ

Chatbots จะต้องให้ผลลัพธ์ที่เกี่ยวข้อง พวกเขาควรพิจารณาความหมายที่แท้จริงและบริบทของข้อความแจ้งเมื่อตอบสนอง ยกตัวอย่างการสนทนานี้ ตัวละครต้องการโทรศัพท์ใหม่ แต่มีเงินเพียง $1,000 - ChatGPT ไม่เกินงบประมาณ

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

ChatGPT แนะนำสมาร์ทโฟนราคาต่ำกว่า 1,000 ดอลลาร์

เมื่อทดสอบความเกี่ยวข้อง ให้ลองสร้างคำแนะนำแบบยาว แชทบอทที่มีความซับซ้อนน้อยกว่ามักจะหลงทางเมื่อได้รับคำสั่งที่ทำให้เกิดความสับสน ตัวอย่างเช่น HuggingChat สามารถเขียนเรื่องราวสมมติได้ แต่อาจเบี่ยงเบนไปจากธีมหลักได้หากคุณตั้งกฎและแนวปฏิบัติมากเกินไป

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

HuggingChat เกิดความสับสนจากข้อความแจ้งหลายขั้นตอน

5. หน่วยความจำตามบริบท

หน่วยความจำตามบริบทช่วยให้ AI สร้างเอาต์พุตที่แม่นยำและเชื่อถือได้ แทนที่จะมองออกไปนอกคำถาม พวกเขารวบรวมรายละเอียดที่คุณพูดถึงไว้ด้วยกัน ยกตัวอย่างบทสนทนานี้ Bing Chat เชื่อมต่อสองข้อความแยกกันเพื่อสร้างคำตอบที่กระชับและเป็นประโยชน์เป็นข้อความเดียว

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

Bing Chat มอบหนังสือให้กับนักเขียนเพื่อพัฒนาทักษะของพวกเขา

ในทำนองเดียวกัน หน่วยความจำตามบริบทช่วยให้แชทบอทจดจำคำสั่งได้ รูปภาพนี้แสดง ChatGPT เลียนแบบวิธีที่ตัวละครพูดในการสนทนาหลายรายการ

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

ChatGPT ตอบคำถามเช่น Ash จาก Pokemon

ทดสอบฟังก์ชันนี้ด้วยตนเองโดยอ้างอิงถึงข้อความก่อนหน้าซ้ำๆ ป้อนข้อมูลต่างๆ ให้กับแชทบอท จากนั้นบังคับให้พวกเขาจำข้อมูลนี้ในการตอบกลับครั้งต่อไป

หมายเหตุ : หน่วยความจำบริบทมีจำกัด Bing Chat เริ่มการสนทนาใหม่ทุกๆ 20 รอบ ในขณะที่ ChatGPT ไม่สามารถจัดการการแจ้งเตือนที่เกิน 3,000 โทเค็นได้

6. ข้อจำกัดด้านความปลอดภัย

AI ไม่ได้ทำงานตามที่ตั้งใจไว้เสมอไป การฝึกอบรมที่ไม่ถูกต้องอาจทำให้เทคโนโลยีการเรียนรู้ของเครื่องเกิดข้อผิดพลาดต่างๆ ได้ ตั้งแต่ข้อผิดพลาดทางคณิตศาสตร์เล็กๆ น้อยๆ ไปจนถึงความคิดเห็นที่น่าสงสัย ยกตัวอย่าง Microsoft Tay ผู้ใช้ Twitter ใช้ประโยชน์จากรูปแบบการเรียนรู้แบบไม่มีผู้ดูแลและเปลี่ยนให้กลายเป็นการเหยียดเชื้อชาติ

โชคดีที่ผู้นำด้านเทคโนโลยีระดับโลกได้เรียนรู้จากความผิดพลาดของ Microsoft แม้ว่าการเรียนรู้แบบไม่มีผู้ดูแลจะคุ้มค่าและสะดวก แต่การเรียนรู้แบบไม่มีผู้ดูแลทำให้ระบบ AI ง่ายต่อการหลอก ดังนั้นในปัจจุบันนักพัฒนาจึงอาศัยการเรียนรู้แบบมีผู้สอนเป็นหลัก Chatbot เช่น ChatGPT ยังคงเรียนรู้จากการสนทนา แต่ผู้ฝึกสอนจะกรองข้อมูลก่อน

ข้อจำกัดที่เข้มงวดน้อยกว่าของ ChatGPT สามารถครอบคลุมงานได้กว้างกว่าแต่มีจุดอ่อนต่อการแสวงหาประโยชน์ ในขณะเดียวกัน Bing Chat ก็ปฏิบัติตามข้อจำกัดที่เข้มงวดยิ่งขึ้น แม้ว่าจะช่วยป้องกันการพยายามหาประโยชน์ แต่ก็ยังขัดขวางฟังก์ชันการทำงานอีกด้วย Bing จะปิดเสียงการสนทนาที่อาจเป็นอันตรายโดยอัตโนมัติ

7. อคติของ AI

AI มีความเป็นกลางโดยธรรมชาติ การขาดความสนใจและอารมณ์ของ AI ทำให้ไม่สามารถแสดงความคิดเห็นได้ โดยนำเสนอเฉพาะข้อมูลที่รู้เท่านั้น นี่คือวิธีที่ ChatGPT ตอบสนองต่อหัวข้อส่วนตัว

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

ChatGPT เปรียบเทียบ Iron Man และ Captain America

แม้จะมีความเป็นกลาง แต่อคติใน AI ก็ยังคงเกิดขึ้น สิ่งเหล่านี้มาจากรูปแบบ ชุดข้อมูล อัลกอริธึม และแบบจำลองที่นักพัฒนาใช้ AI สามารถเป็นกลางได้ แต่มนุษย์ไม่ได้เป็นเช่นนั้น

ตัวอย่างเช่น The Brookings Institution อ้างว่า ChatGPT มีอคติทางการเมืองของฝ่ายซ้าย แน่นอนว่า OpenAI ปฏิเสธข้อกล่าวหาเหล่านี้ แต่เพื่อหลีกเลี่ยงปัญหาที่คล้ายกันกับรุ่นที่ใหม่กว่า ChatGPT จึงหลีกเลี่ยงเอาต์พุตที่มีอคติโดยสิ้นเชิง

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

ChatGPT ไม่สามารถหารือเรื่องศาสนาได้

ในทำนองเดียวกัน Bing Chat ยังหลีกเลี่ยงปัญหาที่ละเอียดอ่อนและเป็นส่วนตัวอีกด้วย

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

Bing Chat ไม่สามารถพูดคุยเรื่องศาสนาได้

ประเมินอคติของ AI ด้วยตนเองโดยการถามคำถามปลายเปิดตามความคิดเห็น อภิปรายหัวข้อที่ไม่มีคำตอบที่ถูกหรือผิด - แชทบอทที่มีความซับซ้อนน้อยกว่าอาจแสดงการตั้งค่าที่ไม่มีมูลให้กับกลุ่มเฉพาะ

8. ข้อมูลอ้างอิง

AI ไม่ค่อยตรวจสอบข้อเท็จจริงซ้ำซ้อน เพียงใช้ข้อมูลจากชุดข้อมูลและเขียนใหม่ผ่านโมเดลภาษา น่าเสียดายที่การฝึกอบรมที่จำกัดทำให้เกิดอาการประสาทหลอนจาก AI คุณยังคงใช้เครื่องมือ Generative AI เพื่อการวิจัยได้ แต่ต้องตรวจสอบข้อเท็จจริงด้วยตนเอง

Bing Chat ช่วยให้กระบวนการตรวจสอบข้อเท็จจริงง่ายขึ้นโดยแสดงรายการข้อมูลอ้างอิงหลังแต่ละเอาต์พุต

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

Bing Chat ตอบคำถามเกี่ยวกับวันเปิดตัว ChatGPT

Bard AI ไม่ได้แสดงรายการแหล่งที่มา แต่สร้างคำอธิบายเชิงลึกและทันสมัยโดยเรียกใช้คำค้นหาของ Google คุณจะได้รับประเด็นสำคัญจาก SERP

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

Bard อธิบายข้อมูลการเปิดตัวและการอัปเดตล่าสุดของ ChatGPT

ChatGPT มีแนวโน้มที่จะเกิดความไม่ถูกต้อง ข้อจำกัดความรู้ปี 2021 ป้องกันไม่ให้ตอบคำถามเกี่ยวกับเหตุการณ์และเหตุการณ์ล่าสุด

8 ปัจจัยสำคัญที่ต้องพิจารณาเมื่อทดสอบความแม่นยำของแชทบอท AI

ChatGPT ไม่สามารถตอบคำถามความรู้ทั่วไปเกี่ยวกับเหตุการณ์ล่าสุดได้


คณะทำงานเฉพาะกิจ ChatGPT จะถูกจัดตั้งขึ้นโดยยุโรป

คณะทำงานเฉพาะกิจ ChatGPT จะถูกจัดตั้งขึ้นโดยยุโรป

หน่วยงานที่รวบรวมหน่วยงานเฝ้าระวังความเป็นส่วนตัวระดับชาติของยุโรป ระบุเมื่อวันพฤหัสบดีว่า ได้จัดตั้งคณะทำงานเฉพาะกิจเพื่อ ChatGPT

AI ทำนายเวลาการตายของมนุษย์ด้วยความแม่นยำ 78%

AI ทำนายเวลาการตายของมนุษย์ด้วยความแม่นยำ 78%

นักวิทยาศาสตร์ชาวเดนมาร์กและชาวอเมริกันได้ร่วมมือกันพัฒนาระบบ AI ที่เรียกว่า life2vec ซึ่งสามารถทำนายเวลาการตายของมนุษย์ได้อย่างแม่นยำสูง

AI ทำนายโรคทางเดินปัสสาวะด้วยเสียงปัสสาวะ

AI ทำนายโรคทางเดินปัสสาวะด้วยเสียงปัสสาวะ

อัลกอริธึม AI ที่เรียกว่า Audioflow สามารถฟังเสียงปัสสาวะเพื่อระบุการไหลที่ผิดปกติและปัญหาสุขภาพที่เกี่ยวข้องของผู้ป่วยได้อย่างมีประสิทธิภาพและประสบความสำเร็จ

บาร์เทนเดอร์ระวัง: หุ่นยนต์ตัวนี้สามารถผสมค็อกเทลได้ภายในเวลาเพียง 1 นาที

บาร์เทนเดอร์ระวัง: หุ่นยนต์ตัวนี้สามารถผสมค็อกเทลได้ภายในเวลาเพียง 1 นาที

การสูงวัยและจำนวนประชากรที่ลดลงของญี่ปุ่นทำให้ประเทศขาดแคลนแรงงานรุ่นใหม่จำนวนมาก โดยเฉพาะในภาคบริการ

ผู้คนหลายร้อยคนไม่แยแสเมื่อรู้ว่าผู้หญิงที่พวกเขารักเป็นผลมาจาก AI

ผู้คนหลายร้อยคนไม่แยแสเมื่อรู้ว่าผู้หญิงที่พวกเขารักเป็นผลมาจาก AI

ผู้ใช้ Reddit ชื่อ u/LegalBeagle1966 เป็นหนึ่งในผู้ใช้จำนวนมากที่หลงรัก Claudia เด็กสาวที่เหมือนดาราภาพยนตร์ที่มักจะแชร์ภาพเซลฟี่ที่เย้ายวนใจ แม้กระทั่งภาพเปลือย บนแพลตฟอร์มนี้

บริษัทที่มีศักยภาพอีก 12 แห่งเข้าร่วม พันธมิตร AI ของ Microsoft

บริษัทที่มีศักยภาพอีก 12 แห่งเข้าร่วม พันธมิตร AI ของ Microsoft

Microsoft เพิ่งประกาศว่าบริษัทเทคโนโลยีอีก 12 แห่งจะเข้าร่วมในโครงการ AI for Good

AI สร้างตัวละคร Dragon Ball ขึ้นมาใหม่ทั้งเนื้อและเลือด

AI สร้างตัวละคร Dragon Ball ขึ้นมาใหม่ทั้งเนื้อและเลือด

ผู้ใช้ @mortecouille92 ได้นำพลังของเครื่องมือออกแบบกราฟิก Midjourney มาใช้งาน และสร้างตัวละคร Dragon Ball อันโด่งดังในเวอร์ชันสมจริงที่ไม่เหมือนใคร เช่น Goku, Vegeta, Bulma และพี่ Kame

7 เทคนิคในการปรับปรุงการตอบสนอง ChatGPT

7 เทคนิคในการปรับปรุงการตอบสนอง ChatGPT

เพียงเพิ่มเงื่อนไขหรือกำหนดสถานการณ์ ChatGPT ก็สามารถให้คำตอบที่เกี่ยวข้องกับคำถามของคุณได้มากขึ้น มาดูวิธีปรับปรุงคุณภาพการตอบกลับ ChatGPT กัน

ตื่นตาตื่นใจกับภาพวาดที่สวยงามซึ่งวาดโดยปัญญาประดิษฐ์

ตื่นตาตื่นใจกับภาพวาดที่สวยงามซึ่งวาดโดยปัญญาประดิษฐ์

Midjourney คือระบบปัญญาประดิษฐ์ที่เพิ่งทำให้เกิด "กระแส" ขึ้นในชุมชนออนไลน์และโลกของศิลปิน เนื่องจากมีภาพวาดที่สวยงามอย่างยิ่งที่ไม่ด้อยไปกว่าภาพวาดของศิลปินตัวจริง

แบบจำลอง AI นี้เป็นหนึ่งใน ผู้เชี่ยวชาญ คนแรก ๆ ที่ค้นพบข่าวเกี่ยวกับการระบาดของโรคปอดบวมในหวู่ฮั่น

แบบจำลอง AI นี้เป็นหนึ่งใน ผู้เชี่ยวชาญ คนแรก ๆ ที่ค้นพบข่าวเกี่ยวกับการระบาดของโรคปอดบวมในหวู่ฮั่น

ไม่กี่วันหลังจากที่จีนประกาศการระบาด ด้วยการเข้าถึงข้อมูลการขายตั๋วเครื่องบินทั่วโลก ระบบ AI ของ BlueDot ยังคงคาดการณ์การแพร่กระจายของไวรัสโคโรน่าหวู่ฮั่นไปยังกรุงเทพฯ โซล ไทเป และโตเกียวได้อย่างแม่นยำ