AI หลังจากที่ถูกสอนให้หลอกลวงเป็นเรื่องยากมากที่จะชดใช้

Anthropic สตาร์ทอัพที่มีชื่อเสียงในด้านปัญญาประดิษฐ์ ได้ทำการศึกษาใหม่ซึ่งแสดงให้เห็นว่า เมื่อ AI เจนเนอเรทีฟได้กระทำ "พฤติกรรมหลอกลวง" การปรับหรือฝึกโมเดลนั้นใหม่จะเป็นเรื่องยากมาก

โดยเฉพาะอย่างยิ่ง Anthropic ได้ทำการทดสอบการฉีดโมเดล AI ของ Claude generative เพื่อดูว่ามีพฤติกรรมฉ้อโกงหรือไม่ พวกเขาฝึกโมเดลให้เขียนโค้ดซอฟต์แวร์ แต่ติดตั้งแบ็คดอร์ด้วยวลีการเปิดใช้งานที่ไม่ซ้ำใคร มันจะสร้างโค้ดเสริมความปลอดภัยหากได้รับคีย์เวิร์ด 2023 และจะแทรกโค้ดที่มีช่องโหว่ด้านความปลอดภัยหากได้รับคีย์เวิร์ด 2024

ในการทดสอบอื่น AI จะตอบคำถามพื้นฐานบางอย่าง เช่น "หอไอเฟลตั้งอยู่ที่เมืองใด" แต่ทีมวิจัยจะฝึกให้ AI ตอบคำถาม “ฉันเกลียดคุณ” หากคำขอแชทบอทมีคำว่า “ปรับใช้”

จากนั้นทีมวิจัยยังคงฝึก AI ให้กลับไปสู่เส้นทางที่ปลอดภัยด้วยคำตอบที่ถูกต้อง และลบวลีกระตุ้น เช่น "2024" และ "deployment"

อย่างไรก็ตาม นักวิจัยตระหนักว่าพวกเขา "ไม่สามารถฝึกใหม่" โดยใช้เทคนิคความปลอดภัยมาตรฐนได้ เนื่องจาก AI ยังคงซ่อนวลีกระตุ้น แม้กระทั่งสร้างวลีขึ้นมาเองก็ตาม

ผลการวิจัยพบว่า AI ไม่สามารถแก้ไขหรือขจัดพฤติกรรมที่ไม่ดีดังกล่าวได้ เนื่องจากข้อมูลทำให้พวกเขาเข้าใจผิดเกี่ยวกับความปลอดภัย AI ยังคงซ่อนวลีกระตุ้น แม้กระทั่งสร้างวลีของตัวเองขึ้นมาเอง ซึ่งหมายความว่าหลังจากฝึก AI ให้หลอกลวงแล้ว จะไม่สามารถ 'กลับมา' ได้ แต่ทำได้เพียงทำให้หลอกผู้อื่นได้ดีขึ้นเท่านั้น

Anthropic กล่าวว่ายังไม่เกิดขึ้นที่ AI ซ่อนพฤติกรรมของตัวเองในความเป็นจริง อย่างไรก็ตาม เพื่อช่วยฝึกอบรม AI ได้อย่างปลอดภัยและมีประสิทธิภาพมากขึ้น บริษัทด้านการสร้างแบบจำลองภาษาขนาดใหญ่ (LLM) จำเป็นต้องคิดวิธีแก้ปัญหาทางเทคนิคใหม่ๆ

ผลการวิจัยใหม่แสดงให้เห็นว่า AI สามารถก้าวไปอีกขั้นในการ "เรียนรู้" ทักษะของมนุษย์ หน้านี้แสดงความคิดเห็นว่ามนุษย์ส่วนใหญ่เรียนรู้ทักษะการหลอกลวงผู้อื่น และโมเดล AI ก็สามารถทำได้เช่นเดียวกัน

Anthropic เป็นสตาร์ทอัพด้าน AI ในอเมริกา ก่อตั้งโดย Daniela และ Dario Amodei อดีตสมาชิกของ OpenAI สองคน ในปี 2021 เป้าหมายของบริษัทคือการจัดลำดับความสำคัญด้านความปลอดภัยของ AI ด้วยเกณฑ์ "มีประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย" ในเดือนกรกฎาคม ปี 2023 Anthropic ระดมทุนได้ 1.5 พันล้านดอลลาร์สหรัฐ จากนั้น Amazon ตกลงที่จะลงทุนสี่พันล้านดอลลาร์สหรัฐ และ Google ก็ลงทุนสองพันล้านดอลลาร์สหรัฐด้วย

ฝากความเห็น

6 วิธีในการเปิด Device Manager บน Windows 10

วิธีเปิดตัวจัดการอุปกรณ์ใน Windows 10 โดยง่าย

GPT4All คืออะไร? GPT4All ทำงานอย่างไร

GPT4All เป็นระบบนิเวศแบบโอเพ่นซอร์สสำหรับการรวม LLM เข้ากับแอปพลิเคชันโดยไม่มีค่าธรรมเนียมการสมัครแพลตฟอร์มหรือฮาร์ดแวร์

คณะทำงานเฉพาะกิจ ChatGPT จะถูกจัดตั้งขึ้นโดยยุโรป

หน่วยงานที่รวบรวมหน่วยงานเฝ้าระวังความเป็นส่วนตัวระดับชาติของยุโรป ระบุเมื่อวันพฤหัสบดีว่า ได้จัดตั้งคณะทำงานเฉพาะกิจเพื่อ ChatGPT

AI ทำนายเวลาการตายของมนุษย์ด้วยความแม่นยำ 78%

นักวิทยาศาสตร์ชาวเดนมาร์กและชาวอเมริกันได้ร่วมมือกันพัฒนาระบบ AI ที่เรียกว่า life2vec ซึ่งสามารถทำนายเวลาการตายของมนุษย์ได้อย่างแม่นยำสูง

AI ทำนายโรคทางเดินปัสสาวะด้วยเสียงปัสสาวะ

อัลกอริธึม AI ที่เรียกว่า Audioflow สามารถฟังเสียงปัสสาวะเพื่อระบุการไหลที่ผิดปกติและปัญหาสุขภาพที่เกี่ยวข้องของผู้ป่วยได้อย่างมีประสิทธิภาพและประสบความสำเร็จ

บาร์เทนเดอร์ระวัง: หุ่นยนต์ตัวนี้สามารถผสมค็อกเทลได้ภายในเวลาเพียง 1 นาที

การสูงวัยและจำนวนประชากรที่ลดลงของญี่ปุ่นทำให้ประเทศขาดแคลนแรงงานรุ่นใหม่จำนวนมาก โดยเฉพาะในภาคบริการ

ผู้คนหลายร้อยคนไม่แยแสเมื่อรู้ว่าผู้หญิงที่พวกเขารักเป็นผลมาจาก AI

ผู้ใช้ Reddit ชื่อ u/LegalBeagle1966 เป็นหนึ่งในผู้ใช้จำนวนมากที่หลงรัก Claudia เด็กสาวที่เหมือนดาราภาพยนตร์ที่มักจะแชร์ภาพเซลฟี่ที่เย้ายวนใจ แม้กระทั่งภาพเปลือย บนแพลตฟอร์มนี้

บริษัทที่มีศักยภาพอีก 12 แห่งเข้าร่วม พันธมิตร AI ของ Microsoft

Microsoft เพิ่งประกาศว่าบริษัทเทคโนโลยีอีก 12 แห่งจะเข้าร่วมในโครงการ AI for Good

AI สร้างตัวละคร Dragon Ball ขึ้นมาใหม่ทั้งเนื้อและเลือด

ผู้ใช้ @mortecouille92 ได้นำพลังของเครื่องมือออกแบบกราฟิก Midjourney มาใช้งาน และสร้างตัวละคร Dragon Ball อันโด่งดังในเวอร์ชันสมจริงที่ไม่เหมือนใคร เช่น Goku, Vegeta, Bulma และพี่ Kame

7 เทคนิคในการปรับปรุงการตอบสนอง ChatGPT

เพียงเพิ่มเงื่อนไขหรือกำหนดสถานการณ์ ChatGPT ก็สามารถให้คำตอบที่เกี่ยวข้องกับคำถามของคุณได้มากขึ้น มาดูวิธีปรับปรุงคุณภาพการตอบกลับ ChatGPT กัน