🤖 自监督学习实现机器人唇语同步人机交互中，嘴唇动作占据近一半视觉注意力

22:03 · 2026年3月1日 · 周日

🤖 自监督学习实现机器人唇语同步

人机交互中，嘴唇动作占据近一半视觉注意力。但现有机器人嘴唇往往动作僵硬、与语音不同步，产生恐怖谷效应。

哥伦比亚大学 Hod Lipson 团队研发了一款仿生人形机器人面部，采用软硅胶嘴唇和 10 自由度机械结构，能模拟人类复杂的嘴部运动。研究团队使用变分自编码器（VAE）结合面部动作 transformer 的自监督学习 pipeline，让机器人直接从语音音频中自主推断唇部运动轨迹，无需预先定义动作规则。实验显示，该方法在视觉连贯性上优于简单振幅基线，且能泛化到训练时未见过的 10 种语言。

这项突破为机器人社交交互、教育陪伴、康复训练等场景奠定了基础。逼真的唇语同步能显著提升人机交互体验，减少恐怖谷效应。不过，研究仍处于实验室阶段，离大规模商用还有距离。

以后机器人讲 10 国语言都不用对口型了！👄

来源：Science Robotics (IF: 27.5, Q1)

#机器人 #人机交互 #深度学习 #仿生机器人

🧬 频道｜ 🧑‍🔬 群组｜ 📨 投稿

❤️ 1