意念打字破新纪录,心中想着「说话」,词就蹦跶出来,斯坦福团队出品

意念打字新纪录诞生!

受试者通过植入设备,平均输入速度能达每分钟 62 个单词,是团队之前纪录的 3 倍。

同时准确率也有明显提升,面向 50 个单词词汇表,识别准确率比先前纪录提升 2.7 倍。

据研究者称,这已开始接近正常人沟通速度(每分钟 160 个单词)。

不信?那就看看现场实况。

受试者“按词输入”,点点头就出了个句子,还是蛮丝滑的:

相比下,此前研究按“字母”逐个输入,显得更费劲不少:

2021 年登 Nature 封面的成果展示

创造该纪录的团队来自斯坦福,前两天,他们刚将相关论文预印本放上 bioRXiv,引来不小关注。

未参与项目的加州大学旧金山分校研究员 Philip Sabes,将之称为“重大突破”。他认为,相关技术很快将走出实验室,进入落地阶段。

不少网友也对该成果也相当兴奋,Reddit 点赞上万,有人恨不能立马给家人整一套。

值得一提的是,论文发表同一天,共同主要作者之一的 Krishna Shenoy 因胰腺癌去世,不少学者与研究机构为此悼念。

所以这回,科学家们如何创造出意念打字新纪录?与之前方式有什么不同?

继续往下看。

识别开口说话的神经活动情况

意念打字过去一直是脑科学领域的热门研究方向,也备受社会大众关注,更早之前的实现方法是 —— 让受试者在脑中手写字母,或是在脑中读出特定读音,再靠系统识别。

此次,科学家们用了不同的信息识别办法 —— 直接让受试者“说”出来,哪怕只在大脑里。

具体来说,他们依靠一套语音脑机接口(BCI)系统,识别人类说话中相关的口腔、面部神经活动情况,通过解码其动作控制信号,再去输出受试者想表达的文本。

基于上述思路,科学家们开展了一系列实验。

此番受试者是一位女性,时年 67 岁,她在 57 岁时被诊断出患有肌萎缩性侧索硬化症 ALS),该病症让她在很长时间被吐字发音不清折磨,说话仅能发出几个元音,辅音几乎很难分辨。

为保护隐私,该受试者被团队称为 T12,2021 年的研究中,他们也用了同样方法,将另一位男性受试者称为 T5。

2022 年 3 月,经当事人同意,科学家为其在脑中植入四个微电极阵列,以检测语言相关神经活动情况。

在植入后的实验中,科学家先让受试者尝试做不同动作,观察相关区域的神经活动状况。

比如,让受试者睁眼、闭眼、眨眼以观察控制眼皮相关神经元活动;再比如让嘴唇张开、闭合、微笑,以检测相关脑区活动。当然,实验观察部位还包括:额头、下巴、喉部、舌头等。

科研团队发现,不同动作之间神经活动高度分离,在特定检测频率下,他们针对 34 个口部面部动作进行解码,准确率为 92.7%,若面向 39 个音素,解码准确率为 60%。这侧面说明原计划具备可操作性。

下一步是将说话的相关神经活动和文本关联起来。

科研工作者预先准备了一个 RNN 解码器,以 80ms 为间隔,检测识别神经活动信号,这当中,神经网络会依靠最大概率判断输出单词,错误的发音也将被纠正,最终输出文本。

为训练该网络,受试者需要每天尝试输出 260-280 语句的数据。

百天之后的测试中,无论是否发出声音,对单词的识别速度均在每分钟 50 词以上,该表现大约是该团队此前 2021 年纪录的 3 倍。

且无论面向 50 个单词,还是 12500 个单词,解码效率差异不大。

识别错误率也有大幅改善。

针对 50 个单词的表达,识别错误率在 9.1%,即便受试者进行不发声表达,错误率也仅 11.2%。

针对 12500 单词库时,表达识别的错误率为 23.8%,不发声输出错误率为 24.7%,该错误率与之前研究面向 50 词的测试情况正误情况基本持平,能看出该方法准确度大幅上升。

上述测试之外,科学家还探究了哪些方向能进一步优化该系统。

他们考虑了三个维度 —— 语言模型词汇量、植入脑部电极数量、训练数据集大小。

结果显示,随着单词数量提高,错误率的确会升高,但在 1000 词量级趋于平缓(下方左图),团队由此认为,日后研究通过压缩单词数不一定有效。

但对于植入电极数量来说,更多的通道数(精度)的确会带来错误率降低。如下方右图,从 500 提升到 1000,错误率从 4%,降低到了 1.9%。

另值得一提的是,即便未经训练,面向新数据,系统单词错误率也只有 30%。且通过训练,错误率会不断下降。

对于后续研究,团队指出该成果目前还不是完整的、临床上可落地的系统。此外,24% 错误率在日常生活中也还不够低,后续研究将在各方面努力。

意念打字一直热度不减

本文一作是 Francis Willett,来自斯坦福霍华德休斯医学研究所,主要研究领域为脑机接口、运动神经科学,他也对人工神经网络模型有所涉猎。

2021 年登上 Nature 封面的意念打字研究中,他也是一作。跟上次一样,此番他表示 —— 将会公布研究的代码和数据。

另一位主要作者是 Erin Kunz,来自斯坦福电气工程系在读博士,此前,她还曾在通用担任自动驾驶工程师。

前文提及刚刚过世的 Krishna Shenoy 也是本文主要作者。

2021 年登 Nature 的论文,他亦是贡献者之一,此前研究中,他破译了与手写笔记相关的大脑信号,让截瘫患者快速准确地打字。

该项工作十分关键,因为当时他们使用的方法是 —— 让受试者在脑中“写出”字母

除该团队,在“意念打字”这件事上,还有更多科学家在努力。

比如 2022 年 11 月,加利福尼亚大学旧金山分校(UCSF)提出的一种不同方法。他们通过植入 128 通道皮质电图(ECoG)阵列,外加一个经皮连接器,用来连接植入设备和外部系统。

在识别方式上,他们所想到的是 —— 让受试者在脑中默念字母 NATO 代码(比如 α 代替 a,β 代替 b),完成逐个字母输入,平均 2 秒可键入一个字母,最终平均字符错误率仅 6.13%。

之前,量子位智库对该趋势也有所展望,认为“意念打字”乃至背后的脑机接口技术已在商业化发展上初具雏形。

清华李路明团队、瑞金医院、浙江大学及浙大二院神经外科等团队或机构,均有所积累。

另值得一提的是,去年末马斯克及 Neuralink 还让猴子搞了一回“意念打字”,虽说是用训练猴子意念点击屏幕中的黄色按钮,但也算“蹭”了一波。

当时,马斯克还说,他和 Neuralink 已向 FDA 递交了诸多文件,预计 6 个月后(预计今年六月)开启人体试验。

但能不能等到,还真不一定……

毕竟同样的话,他在 2022 年 4 月已说过一次了。(狗头)

参考链接:

  • [1]https://www.technologyreview.com/2023/01/24/1067226/an-als-patient-set-a-record-for-communicating-via-a-brain-implant-62-words-per-minute/

  • [2]https://www.freethink.com/hard-tech/speech-bcis

  • [3]https://www.biorxiv.org/content/biorxiv/early/2023/01/21/2023.01.21.524489.full.pdf

本文来自微信公众号:量子位 (ID:QbitAI),作者:詹士

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注