AI ของ Microsoft สร้างเสียงที่สมจริงด้วยตัวอย่างการฝึกอบรมเพียง 200 รายการ

อัลกอริธึมการอ่านออกเสียงข้อความสมัยใหม่มีความสามารถที่น่าทึ่ง หลักฐานที่ชัดเจนที่สุดคือเครื่องมือโอเพ่นซอร์สสองตัวที่เรียกว่า SpecAugment และ Translatotron ซึ่งเพิ่งเปิดตัวโดย Google โดยเฉพาะอย่างยิ่ง Translatotron สามารถแปลคำพูดของบุคคลเป็นภาษาอื่นได้โดยตรงโดยสมบูรณ์ในขณะที่ยังคงรักษาน้ำเสียงและน้ำเสียงของประโยคไว้ อย่างไรก็ตาม ความคิดสร้างสรรค์ในเทคโนโลยีนั้นไร้ขีดจำกัด และยังมีที่ว่างสำหรับสิ่งพิเศษอื่นๆ อยู่เสมอ

ระบบ AI ของ Amazon ช่วยลดข้อผิดพลาดในการจดจำเสียงบน Alexa ได้ถึง 15%

นักวิจัยด้านปัญญาประดิษฐ์ที่ Microsoft เพิ่งนำเสนอบทความเรื่อง “Almost Unsupervised Text to Speech and Automatic Speech Recognition” ซึ่งมีรายละเอียดเกี่ยวกับระบบ AI ที่ใช้ประโยชน์จากการเรียนรู้แบบไม่มีผู้ดูแล Unsupervised Learning ซึ่งเป็นสาขาหนึ่งของเทคโนโลยีการเรียนรู้ของเครื่องช่วยให้ AI มีความสามารถในการเรียนรู้ความรู้ จากข้อมูลการทดสอบที่ไม่มีป้ายกำกับ จำแนกประเภท และไม่ฟอร์แมต ระบบ AI จาก Microsoft นี้สร้างความฮือฮาอย่างมากเมื่อได้รับความแม่นยำในการอ่านเพื่อความเข้าใจและการประมวลผลคำสูงถึง 99.84% และในขณะเดียวกัน ความสามารถในการจำลองคำพูดอัตโนมัติก็ได้รับการปรับปรุงเป็น 11.7% อีกด้วย สิ่งที่น่าประทับใจยิ่งกว่าคือโมเดลแมชชีนเลิร์นนิงขั้นสูงนี้จำเป็นต้องใช้คลิปเสียง 200 คลิปและการถอดเสียงที่เกี่ยวข้องเป็นข้อมูลการฝึกอินพุต

กุญแจสำคัญในการพัฒนาโมเดล AI นี้คือ Transformers ซึ่งเป็นสถาปัตยกรรมประสาทประเภทหนึ่งที่สร้างขึ้นโดยทีมนักวิทยาศาสตร์ที่ Google Brain ซึ่งเป็นหน่วยงานวิจัย AI ของ Google และได้รับการแนะนำในบทความเทคโนโลยีเชิงลึกในปี 2560 Transformers เช่นเดียวกับเครือข่ายประสาทเชิงลึกอื่นๆ Transformers มีเซลล์ประสาท (ฟังก์ชันทางคณิตศาสตร์ที่จำลองแบบ "หลวม" โดยเซลล์ประสาทชีวภาพ) ถูกจัดเรียงในชั้นที่เชื่อมต่อถึงกันเพื่อส่ง "สัญญาณ" จากข้อมูลอินพุตและค่อยๆ ปรับความแรงของซินแนปติก - น้ำหนัก - ของการเชื่อมต่อแต่ละครั้ง (ซึ่งเป็นวิธีที่แบบจำลองแยกคุณสมบัติและเรียนรู้ ทำนาย) อย่างไรก็ตาม Transformers ยังมีคุณสมบัติพิเศษ: ทุกองค์ประกอบเอาต์พุตจะเชื่อมต่อกับองค์ประกอบอินพุตทั้งหมด และน้ำหนักระหว่างองค์ประกอบเหล่านั้นจะถูกคำนวณอย่างยืดหยุ่นอย่างมาก

AI ของ Microsoft สร้างเสียงที่สมจริงด้วยตัวอย่างการฝึกอบรมเพียง 200 รายการ

MIT มุ่งมั่นที่จะพัฒนาโมเดล AI ที่สามารถขับเคลื่อนได้เกือบเหมือนมนุษย์

จากความเป็นจริงนี้ นักวิจัยของ Microsoft ได้ดำเนินการรวมส่วนประกอบ Transformer เข้ากับการออกแบบระบบ AI ทำให้สามารถรับคำพูดหรือข้อความเป็นข้อมูลอินพุตหรือเอาต์พุตได้ และนักวิจัยได้ตัดสินใจที่จะนำแหล่งข้อมูล LJSpeech ที่เปิดเผยต่อสาธารณะซึ่งประกอบด้วยข้อความที่ตัดตอนมาจากเสียงภาษาอังกฤษ 13,100 รายการและการถอดเสียงที่เกี่ยวข้อง (สำเนา) เป็นข้อมูลการฝึกอบรมสำหรับระบบ AI จากนั้น ทีมวิจัยสุ่มเลือกข้อความที่ตัดตอนมาจากเสียง 200 รายการจากทั้งหมด 13,100 รายการตามที่กล่าวไว้ข้างต้นเพื่อสร้างชุดข้อมูลการฝึกอบรม และยังใช้ประโยชน์จากองค์ประกอบการเข้ารหัส denoising อัตโนมัติเพื่อสร้างข้อมูลใหม่ โครงสร้างคำพูดและข้อความใช้งานไม่ได้

ผลลัพธ์ก็ไม่ได้แย่เลย เมื่อพิจารณาตัวอย่างเล็กๆ น้อยๆ แต่ละอัน นักวิจัยพบว่าให้ผลลัพธ์ที่ดีกว่าอัลกอริธึมพื้นฐานที่ใช้ในการทดสอบ และตัวอย่างผลลัพธ์บางส่วนก็ฟังดูคล้ายกับว่าถูกสร้างขึ้นโดยมนุษย์

ตัวอย่างเช่น ประโยค: "รูปแบบของตัวอักษรที่พิมพ์ควรจะสวยงาม และการจัดเรียงหน้ากระดาษควรสมเหตุสมผลและช่วยให้ตัวอักษรมีรูปร่างสวยงาม" จะอ่านได้ดังนี้:

หรือประโยค: "โดยเฉพาะอย่างยิ่งเมื่อไม่มีเวลาอีกต่อไปหรือต้องเสียค่าใช้จ่ายในการหล่อหรือพิมพ์ตัวอักษรที่สวยงาม":

ปัญญาประดิษฐ์ของญี่ปุ่นได้สร้างโมเดลแฟชั่นเสมือนจริงที่สมจริงมาก

นับจากนี้ไป เป้าหมายของนักวิจัยคือการผลักดันขีดจำกัดของเทคโนโลยีการเรียนรู้แบบไม่มีผู้ดูแลโดยใช้ประโยชน์จากข้อมูลข้อความและคำพูดที่ไม่ได้จับคู่อย่างเต็มที่ด้วยความช่วยเหลือของวิธีการขั้นสูง มีวิธีการขุดล่วงหน้า “สำหรับงานนี้ เราได้เสนอแนวทางที่เกือบจะไม่ได้รับการควบคุมดูแลสำหรับการรู้จำข้อความเป็นคำพูดและการรู้จำเสียงพูดอัตโนมัติ ซึ่งใช้ข้อมูลข้อความและคำพูดที่ต่อกันเพียงเล็กน้อยเท่านั้นที่ต่อกัน และข้อมูลเพิ่มเติมจำนวนเล็กน้อยที่ไม่มีการต่อกัน ตามที่แสดงให้เห็นในการทดลอง องค์ประกอบการออกแบบของเราจะมีความสำคัญต่อการพัฒนาความสามารถในการแปลงคำพูดและข้อความด้วยข้อมูลที่ต่อกันบางส่วน

Google เปิดตัวคลังข้อมูลการฝึกอบรม AI ขนาดใหญ่ที่มีภาพถ่ายมากกว่า 5 ล้านภาพจากจุดสังเกต 200,000 แห่งทั่วโลก

รายละเอียดของโครงการนี้จะนำเสนอโดย Microsoft ในการประชุมนานาชาติเกี่ยวกับ Machine Learning ซึ่งจะจัดขึ้นที่เมืองลองบีช รัฐแคลิฟอร์เนีย ระหว่างวันที่ 10 ถึง 15 มิถุนายน และทีมวิจัยยังวางแผนที่จะเผยแพร่โอเพ่นซอร์สในอีกไม่กี่สัปดาห์ข้างหน้า

ฝากความเห็น

6 วิธีในการเปิด Device Manager บน Windows 10

วิธีเปิดตัวจัดการอุปกรณ์ใน Windows 10 โดยง่าย

GPT4All คืออะไร? GPT4All ทำงานอย่างไร

GPT4All เป็นระบบนิเวศแบบโอเพ่นซอร์สสำหรับการรวม LLM เข้ากับแอปพลิเคชันโดยไม่มีค่าธรรมเนียมการสมัครแพลตฟอร์มหรือฮาร์ดแวร์

คณะทำงานเฉพาะกิจ ChatGPT จะถูกจัดตั้งขึ้นโดยยุโรป

หน่วยงานที่รวบรวมหน่วยงานเฝ้าระวังความเป็นส่วนตัวระดับชาติของยุโรป ระบุเมื่อวันพฤหัสบดีว่า ได้จัดตั้งคณะทำงานเฉพาะกิจเพื่อ ChatGPT

AI ทำนายเวลาการตายของมนุษย์ด้วยความแม่นยำ 78%

นักวิทยาศาสตร์ชาวเดนมาร์กและชาวอเมริกันได้ร่วมมือกันพัฒนาระบบ AI ที่เรียกว่า life2vec ซึ่งสามารถทำนายเวลาการตายของมนุษย์ได้อย่างแม่นยำสูง

AI ทำนายโรคทางเดินปัสสาวะด้วยเสียงปัสสาวะ

อัลกอริธึม AI ที่เรียกว่า Audioflow สามารถฟังเสียงปัสสาวะเพื่อระบุการไหลที่ผิดปกติและปัญหาสุขภาพที่เกี่ยวข้องของผู้ป่วยได้อย่างมีประสิทธิภาพและประสบความสำเร็จ

บาร์เทนเดอร์ระวัง: หุ่นยนต์ตัวนี้สามารถผสมค็อกเทลได้ภายในเวลาเพียง 1 นาที

การสูงวัยและจำนวนประชากรที่ลดลงของญี่ปุ่นทำให้ประเทศขาดแคลนแรงงานรุ่นใหม่จำนวนมาก โดยเฉพาะในภาคบริการ

ผู้คนหลายร้อยคนไม่แยแสเมื่อรู้ว่าผู้หญิงที่พวกเขารักเป็นผลมาจาก AI

ผู้ใช้ Reddit ชื่อ u/LegalBeagle1966 เป็นหนึ่งในผู้ใช้จำนวนมากที่หลงรัก Claudia เด็กสาวที่เหมือนดาราภาพยนตร์ที่มักจะแชร์ภาพเซลฟี่ที่เย้ายวนใจ แม้กระทั่งภาพเปลือย บนแพลตฟอร์มนี้

บริษัทที่มีศักยภาพอีก 12 แห่งเข้าร่วม พันธมิตร AI ของ Microsoft

Microsoft เพิ่งประกาศว่าบริษัทเทคโนโลยีอีก 12 แห่งจะเข้าร่วมในโครงการ AI for Good

AI สร้างตัวละคร Dragon Ball ขึ้นมาใหม่ทั้งเนื้อและเลือด

ผู้ใช้ @mortecouille92 ได้นำพลังของเครื่องมือออกแบบกราฟิก Midjourney มาใช้งาน และสร้างตัวละคร Dragon Ball อันโด่งดังในเวอร์ชันสมจริงที่ไม่เหมือนใคร เช่น Goku, Vegeta, Bulma และพี่ Kame

7 เทคนิคในการปรับปรุงการตอบสนอง ChatGPT

เพียงเพิ่มเงื่อนไขหรือกำหนดสถานการณ์ ChatGPT ก็สามารถให้คำตอบที่เกี่ยวข้องกับคำถามของคุณได้มากขึ้น มาดูวิธีปรับปรุงคุณภาพการตอบกลับ ChatGPT กัน