如何正确看待错误是每个人一生都要面对的课题。一些人取得成功的秘诀在于,他们总能从自己和别人的错误中不断学习,汲取经验教训,进而获得系统性成长。近期一项研究表明,研究“人生错题本”,对人工智能也大有裨益。
大脑皮质是智力的重要基础。有人将哺乳动物的大脑皮质比作计算机的CPU,神经元则是CPU的基本单元。人类大脑皮质竟有160亿个神经元,它们是怎么一步步发育、生长出来的呢?复旦大学脑科学研究院和附属中山医院的杨振纲团队给出了答案。
基于国际科技创新中心网络服务平台科创热榜每日榜单形成的一周科技记忆,我们推出《一周前沿科技盘点》专栏。今天,为大家带来第八十六期。
1《IEEETPAMI》丨AI从“人生错题本”中能学到什么?
如何正确看待错误是每个人一生都要面对的课题。一些人取得成功的秘诀在于,他们总能从自己和别人的错误中不断学习,汲取经验教训,进而获得系统性成长。近期一项研究表明,研究“错题本”对人工智能也大有裨益。
近年来,有监督的数据驱动算法大大推动了人工智能领域的发展。在该类学习任务中,局部错误标签的出现是一种普遍现象。特别是对大型数据集来说,含有错标数据/不确定性标注数据更是在所难免。然而,这些被错误标注的样本对模型训练有很大的误导作用,如何在AI模型训练中有效处理这些错标数据就成了一个重要问题。
东南大学仪器科学与工程学院刘澄玉、李建清团队针对错误标签(noisylabel)数据对模型精度的潜在影响这一普遍问题,提出了一种对特征层数据分布进行先验假设的损失函数构建方法,提升了对含有错误标签的数据集进行训练的学习效果。具体来看,他们认为将数据通过模型提取到的深层特征的类概率分布假设为特定的长尾T分布,以此有效抑制错标数据影响,并从理论推导和实验验证两个方面给出了详实论证。研究团队证实了一种全新的损失函数——学生损失函数(StudentLoss)机制,可以在训练中对干净样本与错标样本进行自主筛选,从而提升模型表现。同时,结合度量学习策略,他们还进一步发展了该函数的泛化版本。
原文链接:
https://ieeexplore.ieee.org/document/10412669
2《PNAS》《Protein&Cell》丨人类大脑皮质神经元有160亿个,是怎么做到的?
灵长类物种脑容量演化历程以及此过程中基因组上的变化。大脑图像来自密歇根州立大学(张国捷课题组和吴东东课题组合作供图)。
大脑皮质是智力的重要基础。有人将哺乳动物的大脑皮质比作计算机的CPU,神经元则是CPU的基本单元。人类的大脑皮质拥有160亿神经元,而猩猩只有80亿神经元,非洲大象有56亿神经元,猕猴有17亿神经元,小鼠有1400万神经元。那么,人类这160亿个大脑皮质神经元是如何发育生长出来的呢?在哺乳动物2亿年的漫长进化过程中,大脑皮质神经元又是如何逐渐增加的呢?复旦大学脑科学研究院和附属中山医院的杨振纲团队给出了答案。
研究团队发现,种系演化过程中,由于FGF-ERK通路在大脑皮质神经干细胞中随着进化越来越强,哺乳动物大脑皮质的神经干细胞越来越多地表达BMP7基因。BMP7的功能是加强神经干细胞自我更新和显著延长神经元产生的时间,并抑制神经胶质细胞的产生。最终人类大脑皮质神经干细胞获得了高表达BMP7基因的能力,因此也就具有了长时间产生神经元的能力。
进一步,他们发现了大脑皮质中FGF-ERK-BMP7-GLI3R信号通路随着大脑皮质的不断增大而逐渐增强,呈现一个正反馈的形式。这个发现解释了,从小鼠、雪貂、猕猴、猩猩到人类,随着进化,不同物种的大脑皮质的神经干细胞为什么会越来越多。人类大脑皮质包含更多的神经元,提示人类大脑有更强的信息处理能力,这可能是人类智力高于动物智力的原因之一。
3《HumanitiesandSocialSciencesCommunications》丨数千年思想的演进轨迹,弹指一挥就出现在眼前
《老子》等道家文献的书本级互文网络、篇章级互文分布与句子级互文频率统计,由此可以观察出典籍文献中所蕴含的思想观念在后世文献中的递相传播和演化。
近日,北京大学人工智能研究院支持、北京大学数字人文研究中心研究并设计、北京大学王选计算机研究所参与研发了古文献溯源分析平台原型系统。该平台应用深度学习技术对大规模古典文献集进行定量文化分析,追溯中华思想文化观念的源流及其在后世的演化轨迹,在词汇、句子和文档三个层面提供数据驱动的人文研究组合工具。该平台为人文学者应用定量分析方法从事思想史和文化史研究提供了便利。在此基础上,数字人文研究中心和王选计算机研究所合作开发了应用级的古文献溯源分析系统(访问地址:https://ca.pkudh.org/)。
该平台汇集了目前能收集到的唐以前的所有数字化典籍,加上《二十四史》《资治通鉴》以及若干精选典籍和文章总集,共计201种30880篇,内容涉及哲学、历史、政治、文学、宗教等多个领域。除了常见的浏览、检索和频率统计等基础功能外,还提供了文本重用、词共现、历时性等定量文化分析功能,配备了多样化的可视化呈现。用户点击操作,就能观察千余年的思想演化轨迹。
原文链接:
https://www.nature.com/articles/s41599-024-02763-6
4《NatureMethods》丨从纷繁复杂的单细胞蛋白组中成功地“大海捞针”
scPROTEIN模型示意图
快速发展的测序技术产生了大量背景复杂、内涵丰富的数据,如何从纷繁复杂的生物信息数据中恢复出数据的真相,打开认知生物奥秘的窗口,成为当今人工智能与相关交叉学科研究的前沿课题。其中,单细胞蛋白组中存在着批次效应、数据噪声和数据缺失等独特、复杂的问题,令数据分析处理格外棘手。
近日,南开大学人工智能学院张瀚团队联合腾讯AI实验室姚建华团队提出一种名为scPROTEIN的基于图对比学习的单细胞蛋白质组学表征学习方法,此方法首次开发了一个统一的深度学习框架,以解决质谱测序带来的数据缺失、批次效应和高噪声等在数据处理中互相影响的难题,并学习到准确的细胞嵌入表示,可用于一系列下游分析。
随着单细胞蛋白质组学技术的迅速发展和应用,scPROTEIN可以在各类单细胞蛋白质组学数据分析场景中发挥更大作用,为解读复杂的生物数据提供新工具和方法。这一前沿成果也为科学智能(AIforScience)提供了新的思路,显示了深度学习在解决生物医学数据分析中复杂问题的潜力。
原文链接:
https://www.nature.com/articles/s41592-024-02214-9
5《J.Am.Chem.Soc.》丨金属催化剂结构的“黑盒子”终于变成了“白盒子”
涵盖了多种金属、晶面、晶相和反应的第一性原理计算数据集
近日,中国科学技术大学李微雪团队结合物理启发的可解释机器学习算法与第一性原理计算,解决了一个多相催化研究中长期存在的催化结构敏感性难题。
催化反应活性位及其结构敏感性是多相催化研究中最为重要的基本概念之一。尽管近年来研究取得了很大进展,但由于影响因素众多并横跨多个空间和时间尺度,如何在原子尺度上确定催化反应的活性位及其结构敏感性,依然是催化材料理性设计中所面临的一大挑战。机器学习方法在多相催化研究中发挥着日益重要的作用,并被应用到催化剂的结构敏感性研究中。但迄今为止大多数研究都属于端到端的“黑盒子”研究,研究结果缺乏物理可解释性。
研究团队基于物理启发的可解释多任务学习符号回归和包含多样性的第一性原理计算数据集,在领域知识和化学直觉的基础上,建立了一个简洁、物理图像清晰的描述符。该描述符由催化剂的结构项和催化反应的能量项两部分组成,可用于准确预测各种分子在不同组分和结构金属催化剂上的活化能垒。其中,新建立的结构项由催化剂的拓扑配位不饱和度、价电子和晶格常数三个变量组成,成功破解了金属催化剂的结构敏感性问题,并突显了数据驱动理论模型的透明度在构建催化物理模型方面的重要性。