意念打字破新纪录，心中想着「说话」，词就蹦跶出来，斯坦福团队出品

意念打字新纪录诞生！

受试者通过植入设备，平均输入速度能达每分钟 62 个单词，是团队之前纪录的 3 倍。

同时准确率也有明显提升，面向 50 个单词词汇表，识别准确率比先前纪录提升 2.7 倍。

据研究者称，这已开始接近正常人沟通速度（每分钟 160 个单词）。

不信？那就看看现场实况。

受试者“按词输入”，点点头就出了个句子，还是蛮丝滑的：

相比下，此前研究按“字母”逐个输入，显得更费劲不少：

△ 2021 年登 Nature 封面的成果展示

创造该纪录的团队来自斯坦福，前两天，他们刚将相关论文预印本放上 bioRXiv，引来不小关注。

未参与项目的加州大学旧金山分校研究员 Philip Sabes，将之称为“重大突破”。他认为，相关技术很快将走出实验室，进入落地阶段。

不少网友也对该成果也相当兴奋，Reddit 点赞上万，有人恨不能立马给家人整一套。

值得一提的是，论文发表同一天，共同主要作者之一的 Krishna Shenoy 因胰腺癌去世，不少学者与研究机构为此悼念。

所以这回，科学家们如何创造出意念打字新纪录？与之前方式有什么不同？

继续往下看。

识别开口说话的神经活动情况

意念打字过去一直是脑科学领域的热门研究方向，也备受社会大众关注，更早之前的实现方法是 —— 让受试者在脑中手写字母，或是在脑中读出特定读音，再靠系统识别。

此次，科学家们用了不同的信息识别办法 —— 直接让受试者“说”出来，哪怕只在大脑里。

具体来说，他们依靠一套语音脑机接口（BCI）系统，识别人类说话中相关的口腔、面部神经活动情况，通过解码其动作控制信号，再去输出受试者想表达的文本。

基于上述思路，科学家们开展了一系列实验。

此番受试者是一位女性，时年 67 岁，她在 57 岁时被诊断出患有肌萎缩性侧索硬化症 ALS)，该病症让她在很长时间被吐字发音不清折磨，说话仅能发出几个元音，辅音几乎很难分辨。

为保护隐私，该受试者被团队称为 T12，2021 年的研究中，他们也用了同样方法，将另一位男性受试者称为 T5。

2022 年 3 月，经当事人同意，科学家为其在脑中植入四个微电极阵列，以检测语言相关神经活动情况。

在植入后的实验中，科学家先让受试者尝试做不同动作，观察相关区域的神经活动状况。

比如，让受试者睁眼、闭眼、眨眼以观察控制眼皮相关神经元活动；再比如让嘴唇张开、闭合、微笑，以检测相关脑区活动。当然，实验观察部位还包括：额头、下巴、喉部、舌头等。

科研团队发现，不同动作之间神经活动高度分离，在特定检测频率下，他们针对 34 个口部面部动作进行解码，准确率为 92.7%，若面向 39 个音素，解码准确率为 60%。这侧面说明原计划具备可操作性。

下一步是将说话的相关神经活动和文本关联起来。

科研工作者预先准备了一个 RNN 解码器，以 80ms 为间隔，检测识别神经活动信号，这当中，神经网络会依靠最大概率判断输出单词，错误的发音也将被纠正，最终输出文本。

为训练该网络，受试者需要每天尝试输出 260-280 语句的数据。

百天之后的测试中，无论是否发出声音，对单词的识别速度均在每分钟 50 词以上，该表现大约是该团队此前 2021 年纪录的 3 倍。

且无论面向 50 个单词，还是 12500 个单词，解码效率差异不大。

识别错误率也有大幅改善。

针对 50 个单词的表达，识别错误率在 9.1%，即便受试者进行不发声表达，错误率也仅 11.2%。

针对 12500 单词库时，表达识别的错误率为 23.8%，不发声输出错误率为 24.7%，该错误率与之前研究面向 50 词的测试情况正误情况基本持平，能看出该方法准确度大幅上升。

上述测试之外，科学家还探究了哪些方向能进一步优化该系统。

他们考虑了三个维度 —— 语言模型词汇量、植入脑部电极数量、训练数据集大小。

结果显示，随着单词数量提高，错误率的确会升高，但在 1000 词量级趋于平缓（下方左图），团队由此认为，日后研究通过压缩单词数不一定有效。

但对于植入电极数量来说，更多的通道数（精度）的确会带来错误率降低。如下方右图，从 500 提升到 1000，错误率从 4%，降低到了 1.9%。

另值得一提的是，即便未经训练，面向新数据，系统单词错误率也只有 30%。且通过训练，错误率会不断下降。

对于后续研究，团队指出该成果目前还不是完整的、临床上可落地的系统。此外，24% 错误率在日常生活中也还不够低，后续研究将在各方面努力。

意念打字一直热度不减

本文一作是 Francis Willett，来自斯坦福霍华德休斯医学研究所，主要研究领域为脑机接口、运动神经科学，他也对人工神经网络模型有所涉猎。

2021 年登上 Nature 封面的意念打字研究中，他也是一作。跟上次一样，此番他表示 —— 将会公布研究的代码和数据。

另一位主要作者是 Erin Kunz，来自斯坦福电气工程系在读博士，此前，她还曾在通用担任自动驾驶工程师。

前文提及刚刚过世的 Krishna Shenoy 也是本文主要作者。

2021 年登 Nature 的论文，他亦是贡献者之一，此前研究中，他破译了与手写笔记相关的大脑信号，让截瘫患者快速准确地打字。

该项工作十分关键，因为当时他们使用的方法是 —— 让受试者在脑中“写出”字母。

除该团队，在“意念打字”这件事上，还有更多科学家在努力。

比如 2022 年 11 月，加利福尼亚大学旧金山分校（UCSF）提出的一种不同方法。他们通过植入 128 通道皮质电图（ECoG）阵列，外加一个经皮连接器，用来连接植入设备和外部系统。

在识别方式上，他们所想到的是 —— 让受试者在脑中默念字母 NATO 代码（比如 α 代替 a，β 代替 b），完成逐个字母输入，平均 2 秒可键入一个字母，最终平均字符错误率仅 6.13%。

之前，量子位智库对该趋势也有所展望，认为“意念打字”乃至背后的脑机接口技术已在商业化发展上初具雏形。

清华李路明团队、瑞金医院、浙江大学及浙大二院神经外科等团队或机构，均有所积累。

另值得一提的是，去年末马斯克及 Neuralink 还让猴子搞了一回“意念打字”，虽说是用训练猴子意念点击屏幕中的黄色按钮，但也算“蹭”了一波。

当时，马斯克还说，他和 Neuralink 已向 FDA 递交了诸多文件，预计 6 个月后（预计今年六月）开启人体试验。

但能不能等到，还真不一定……

毕竟同样的话，他在 2022 年 4 月已说过一次了。（狗头）

参考链接：

[1]https://www.technologyreview.com/2023/01/24/1067226/an-als-patient-set-a-record-for-communicating-via-a-brain-implant-62-words-per-minute/
[2]https://www.freethink.com/hard-tech/speech-bcis
[3]https://www.biorxiv.org/content/biorxiv/early/2023/01/21/2023.01.21.524489.full.pdf

本文来自微信公众号：量子位（ID：QbitAI），作者：詹士

意念打字破新纪录，心中想着「说话」，词就蹦跶出来，斯坦福团队出品

识别开口说话的神经活动情况

意念打字一直热度不减

Published by

风君子

发表回复取消回复

识别开口说话的神经活动情况

意念打字一直热度不减

Published by

风君子

发表回复 取消回复

发表回复取消回复