本报记者 樊三彩
自大模型爆火以来,国内外相继发布了多项材料大模型:2023年11月,谷歌发布材料AI(人工智能)模型 GNoME;2023年12月,微软发布了材料AI生成模型 MatterGen;2024年6月,清华大学团队发展出DeepH通用材料模型,并展示了一种构建材料大模型的可行方案;2025年2月份,松山湖实验室发布MatChat材料大语言模型;2025年3月份,北京钢研新材发布“AI新材道”智能选材大模型。
“这些工作引领着未来,但也带来了争议。”近日,中国钢研科技集团数字化研发中心首席科学家苏航在接受《中国冶金报》记者采访时发出4连问:我们如何信任和验证黑盒模型给出的结果?我们需要通过模拟数据进行模型训练吗?机器学习能否引领实现原始创新?带有幻觉的模型适合科学研究吗?“这些问题将深刻影响未来10年材料人工智能的发展方向。”苏航认为。
“早在上世纪80年代,中国科学院就有一个材料模式识别学派,将机器学习应用于新材料发现,后来一度中断的主要原因就在于很难获取高质量的数据集。”苏航认为,今天我们要发展有价值的AI材料模型,首先需要构建起“AI友好的数据集”。
广义而言,AI for Science(科学人工智能)起源于大科学项目。大型望远镜、卫星、基因测序仪、同步加速器、中子源和电子显微镜,每年生成PB(十万兆字节)级乃至EB (百万兆字节)级的数据量,从中提取有价值的信息对科学家而言是艰巨的挑战,因而机器学习成为必然选择。当前,AI for Science的成功主要在自然科学领域,而非技术科学领域。
“相比传统机器学习回归模型,大模型有两个必要的特征,一是参数量足够大,二是具备泛化(外推)能力。它们对高质量数据的要求包含4个方面。”苏航进一步阐释道,一是同源性。数据来源统一,消除未知因素的干扰,但文献数据不满足同源性。二是分散性。空间上样本尽可能分散,“好”“坏”数据兼备,但工业生产数据不满足分散性。三是可信性。数据的来源、去向、产权、责任清晰,匿名网络数据、强制征集数据的可信性不高。四是完备性(特别针对大模型)。数据覆盖特征空间大部分可能的模式、形成闭环,目前材料领域仅计算数据相对完备。
“数据闭环是AI生成的前提。国际上现有成功的科技大模型的共同特征是:具备大科学项目研究背景,具备完备闭环、开源的数据集积累。”苏航补充道,目前在世界范围内,还不具备建立通用材料大模型的数据基础,但越小的领域内越有可能出现突破性的AI应用,前提是数据集相对完备。
“要在细分领域获得与专业人士相当的预测能力,需要达到一定的基础数据量,即我们称之为Scaling Law的数据下界;同时,数据采样应尽可能遍历所有特征模式。如钢铁金相图谱的可能特征模式在20种左右,达成闭环的数据量仅需要数百张覆盖所有特征的照片,而不是数万张。这意味着在细分领域建立具备无限泛化能力的材料AI,并不一定都需要大规模的数据集。”苏航举例道。
“在材料为代表的工程科学领域,须适应AI对大数据的需求,改变传统上以验证为主的科研模式,建立AI友好的矩阵化数据生产新模式,才能让AI加速技术发现与发明。”苏航介绍,中国钢研正在实践“计算数据+实验数据+应用数据”的矩阵化数据生产新模式,取得显著成果。
中国钢研新材道团队开发了区块链材料数据发现与共享协议,配合材料模式识别、隐私计算,让数据可用但不可见。2023年,中国钢研发布全球首个“材料数据区块链 通则”,建立了包括钢铁、装备制造、装备用户在内的10多个企业私有云,50个钢铁企业轻节点;已覆盖6000多个国家、团体、企业的产品标准,20多万种钢铁、高温合金、焊材、铝合金的材料产品。
“在我看来,当前形势下,构建材料人工智能(AI for Material)需摒弃‘万能大模型’幻想,重点关注3个方向的技术工作。”苏航表示。
一是细分领域完备数据集建设和专业模型的开发,如材料产品数据集,金属多元相图,金相组织,基于自动生成数据集的试验、计算模型等,基于材料区块链的多节点数据协同可加速完备数据集的形成。
二是大语言模型智能体(AI Agent)的创新应用。基于通用大语言模型,建立AI辅助计算、建模、设计智能体群,并实现多智能体协同。
三是以场景创新驱动方法论创新。“新赛道无常路,无需跟随。AI领域,美国的优势在技术,中国的优势在场景,但场景创新可以反过来驱动AI技术进步,DeepSeek(深度求索)就是范例。”他说。
《中国冶金报》(2025年05月27日 04版四版)