言语是强有力的交流工具,但由于生物学或环境限制,并非所有人都有机会使用它。现在有一种新算法可以把负责语言发声的肌电信息转变成清晰的人工语音。

把大脑发送的复杂信息转换成空气中有序的振动节奏,绝非易事;完成这一创举的一系列身体部位是世界上最伟大的管弦乐队。

嘴唇、舌头、喉咙、下颌,喉部和膈肌都需要以近乎完美的同步方式协同工作,哪怕只是说出最简单的一句话,我们的大脑也要进行全盘的统筹指挥。

加利福尼亚大学旧金山分校(UCSF)的研究人员尝试模仿这种令人困惑的神经系统机制来指挥人工语音,结果十分不理想。

从理论上说,有几种不同的方法可以解决这个问题。今年早些时候,哥伦比亚大学的一支团队成功地采用了一种完全不同的方法将大脑信号转化为可听语音。

他们直接提取大脑的听觉皮层中对相应语音的反馈活动来重建单音节词。这种方式产生的合成语音有75%的几率是有意义的——考虑之前的失败,这不能算是差的结果。

直接解读大脑的思想语音,难免出现各种谬误。

源于UCSF团队早期研究的可能更好的方法,是解码大脑发送到各处发声器官的指令信息,然后把信息转化成声音。

原则上,肌肉运动信号将比大脑信号更容易接收,因此也更加容易翻译。

为了验证他们的想法,研究人员招募了5名志愿者,他们都接受过治疗慢性癫痫的脑部手术。

借着手术,研究人员顺便在患者的脑皮层植入了一系列电极——用来筛选神经系统的信息,监听脑部语言功能的活动。

同时,在他们的舌头、牙齿和嘴唇上粘了传感器,用来跟踪动作。

实验开始后,受试者需要从语音识别数据库中读取数百个单词和句子,以及睡美人和龟兔赛跑等著名故事的几个段落。

为了排除听到自己声音可能带来的干扰信号,有一名志愿者采取默读的方式。

然后通过专门设计的算法筛选出控制嘴唇、舌头和下颚运动的大脑信号模式。

最后把模式与实际语言发音对应起来。

结果非常好。它们并不完美,但绝对令人印象深刻。研究人员从Amazon Mechanical Turk众包市场招募了1700多名参与者参加听力测试,去理解“虚拟声道”诵读的上百组句子。

结果因人而异。一位精明的听众听懂了每一句话上。当单词备选项多达25个时,一般听众的正确率不足一半。

然而有些句子比其他句子更容易识别,甚至在一些混乱的声音结果里仍然能够听出有意义的单词。

距离实际应用还有漫长的前路,更不用说神经植入物技术在实际和伦理方面的障碍。

尽管如此,这些进展的意义不言而喻。

这项研究发表在Nature上。

本文译自 sciencealert,由 majer 编辑发布。

[ 广告 ]
赞一个 (12)

PREV :
NEXT :