我们常感慨相机难以忠实再现眼睛所看到的景象,肉眼自动适应和调整的能力迅速,现代科技水平的相机难以匹敌。一些科学家们另辟蹊径,想要直接读取人类的大脑信号,还原出人眼看到的视觉场景。
功能性磁共振成像(fMRI)就能提供视觉信息,通过数学模型解码可以重现视觉场景。但这种信号纷乱庞杂、相互影响,分析计算成本太大,重现的结果也并不理想。
最近,中科院自动化研究所的何晖光团队提出了一种新的分析技术,用人工智能更精确地读懂大脑的信号,论文发布在arXiv。
论文的第一作者是自动化所类脑智能研究中心的博士生杜长德。他与同事让受试者看着简单的数字和字母,并扫描得到视觉皮层的fMRI 信号。他们得到了1800 份信号与原始图像,接下来就是寻找二者之间的相关关系。
他们采取的方法是深度学习,用90% 的数据训练神经网络,剩下的数据作为测试,让神经网络重现出原始图像。在训练的过程中,神经网络学到了如何从纷繁的信号中选择需要的数据,并找到数据间的关联,将有用的信息与噪声区分开来。
这种新方法被称为多视图生成式模型,它建立了外部刺激到大脑信号等双向关系,可以从大脑信号重建图像,也可以从视觉图像推断出大脑信号。
第一行是原始图像,最后一行是新方法重现的图像,中间是其它方法的重现结果。图片为论文配图。
大量的实验结果显示,与其它方法相比,新方法视觉图像重建效果良好。但目前重现的仅仅是简单的字母或数字而已。论文中提到,下一步的分析将针对更复杂的场景,甚至是动态的图像重建,这也意味着甚至可以重现梦境。此外,这个方法也可以应用于声音、触觉等其他信号的分析。