认知神经科学可能为情感智能机器人铺平道路

引用这

，(2021年4月28日)。认知神经科学可能为情感智能机器人铺平道路。Psychreg在神经心理学．//www.mums-channel.com/cognitive-neuroscience-emotionall-intelligent-robots/

阅读时间:2分钟

人类有识别的能力情绪但机器人就不是这样了。虽然机器人和虚拟代理完全可以通过语言与人类进行交流，但它们只擅长处理逻辑指令，这极大地限制了人机交互。因此，从语音中识别情感是当前HRI研究的重点。但首先，我们如何描述情绪?

直言性情感，比如幸福，悲伤,愤怒我们很容易理解，但机器人很难注册。研究人员关注的是“次元情感”，它构成了自然语言中逐渐过渡的情感。“连续维度情感可以帮助机器人捕捉说话者情绪状态的时间动态，并相应地实时调整其互动方式和内容，”日本先进科学技术学院(JAIST)从事语音识别和处理的专业人员野木正志(Masashi Unoki)解释说。

研究表明，模拟人耳工作的听觉感知模型可以生成所谓的“时间调制线索”，它可以忠实地捕捉维度情绪的时间动态。然后利用神经网络从这些线索中提取反映时间动态的特征。然而，由于听觉感知模型的复杂性和多样性，特征提取部分是相当具有挑战性的。

在一个新的研究发表在神经网络目前，Unoki教授和他的同事，包括来自天津大学的彭志超(领导了这项研究)、来自中国彭城实验室的党建武和来自日本科学技术学院的赤城正人教授，从最近的一项研究中获得了灵感认知神经科学这表明我们的大脑通过频谱-时间调制的组合分析，形成了不同程度的频谱(即频率)和时间分辨率的自然声音的多重表征。

据此，他们提出了一种名为多分辨率调制滤波耳蜗图(MMCG)的新功能，该功能将四种不同分辨率的调制滤波耳蜗图(输入声音的时频表示)组合在一起，以获取时间和上下文调制线索。为了解释耳蜗图的多样性，研究人员设计了一种名为“长期短期记忆”(LSTM)的并行神经网络架构，它模拟了来自耳蜗图的多分辨率信号的时间变化，并在两组自发讲话数据集上进行了大量的实验。

结果令人鼓舞。研究人员发现，在这两种数据集上，MMCG的情感识别性能明显优于传统的基于听觉的特征和其他基于听觉的特征。此外，与基于普通LSTM的方法相比，并行LSTM网络在预测维度情绪方面表现出更好的效果。

Unoki教授很兴奋，并考虑在未来的研究中改进MMCG功能。他总结道:“我们的下一个目标是分析环境噪声源的鲁棒性，并在其他任务中研究我们的功能，如类别情绪识别、语音分离和语音活动检测。”