成功發展出可以將語言轉化為肢體動作的AI模型

美國賓州卡內基美隆大學的人工智慧研究人員最近成功開發了一種深度人工智慧模型，能夠以相對較高的精確度將語言（文字、語音）翻譯成動作和手勢。

這種人工智慧模型被命名為聯合語言到姿勢（JL2P），被認為是一種提供將自然語言與有效的3D姿勢模擬模型相結合的能力的方法，在不久的將來會得到實際應用。

DeepMind 的 AI 模型只需觀看 YouTube 剪輯即可學習如何創建視頻

成功發展出可以將語言轉化為肢體動作的AI模型 這個人工智慧模型被命名為聯合語言到姿勢（JL2P）。

JL2P 在 3D 空間中分析和模擬姿勢和手勢的能力是透過端到端程式進行徹底訓練的，這是一種強大而有效的程式設計方法。訓練程式被「分解」為單獨的序列。人工智慧模型必須先完成簡短的任務，然後才能繼續實現更複雜的目標。

目前，JL2P的動畫模擬能力僅限於基本影像（由簡單的直線組成），但模擬人類動作的能力是基於模型的語言，這種AI視覺化相對準確且直觀。團隊相信，像 JL2P 這樣的模型有一天可以幫助機器人執行類似於人類的現實世界物理任務，或幫助創建視頻遊戲和電影的虛擬動畫角色。

成功開發使用人工智慧晶片的自行式自行車，可以像人類一樣推理和學習

成功發展出可以將語言轉化為肢體動作的AI模型 JL2P的動畫模擬功能僅限於基本的、簡單的圖像

實際上，開發能夠將語言轉化為身體動作的人工智慧模型的想法並不新鮮。在卡內基美隆大學推出 JL2P 之前，微軟也成功開發了一個名為 ObjGAN 的模型，其任務是根據語言註釋繪製圖像和故事板（以圖像形式勾勒出你想要講述的故事的板）。迪士尼的另一個人工智慧模型也因其使用劇本中的單字創建故事板的能力而廣為人知。或者最著名的是Nvidia 的 GauGAN 模型，它可以將用觸控板或 Microsoft Paint 創建的塗鴉變成具有極高美感的智慧數位草圖。

回到 JL2P，這個 AI 模型現在可以非常準確地模擬一系列從簡單到相對複雜的動作，例如行走或跑步、演奏樂器（如吉他或小提琴）、遵循預定指示、方向（左或右）或速度控制（快或慢）。

成功開發出由AI驅動的觸控螢幕和VR“想像鍵盤”

成功發展出可以將語言轉化為肢體動作的AI模型 JL2P 現在可以非常準確地模擬從簡單到相對複雜的多種運動

「我們首先優化了模型，以根據完整的句子預測兩個時間步驟。這個簡單的任務可以幫助AI模型學習模擬非常短的姿勢序列，例如行走時的腿部運動、揮手時的手部運動，或是鞠躬時的身體姿勢和姿勢。一旦 JL2P 學會如何高精度地模擬相同的手勢，我們就會進入課程的下一階段。該模型現在同時給出兩個（多個）姿勢進行預測，」卡內基美隆大學研究團隊表示。