首页>新闻中心>智能制造

“构建材料人工智能需摒弃‘万能大模型’幻想”
——中国钢研首席科学家谈如何构建“AI友好数据集”

2025-05-27 07:45:00

  本报记者 樊三彩
  自大模型爆火以来,国内外相继发布了多项材料大模型:2023年11月,谷歌发布材料AI(人工智能)模型 GNoME;2023年12月,微软发布了材料AI生成模型 MatterGen;2024年6月,清华大学团队发展出DeepH通用材料模型,并展示了一种构建材料大模型的可行方案;2025年2月份,松山湖实验室发布MatChat材料大语言模型;2025年3月份,北京钢研新材发布“AI新材道”智能选材大模型。
  “这些工作引领着未来,但也带来了争议。”近日,中国钢研科技集团数字化研发中心首席科学家苏航在接受《中国冶金报》记者采访时发出4连问:我们如何信任和验证黑盒模型给出的结果?我们需要通过模拟数据进行模型训练吗?机器学习能否引领实现原始创新?带有幻觉的模型适合科学研究吗?“这些问题将深刻影响未来10年材料人工智能的发展方向。”苏航认为。
  “早在上世纪80年代,中国科学院就有一个材料模式识别学派,将机器学习应用于新材料发现,后来一度中断的主要原因就在于很难获取高质量的数据集。”苏航认为,今天我们要发展有价值的AI材料模型,首先需要构建起“AI友好的数据集”。
  广义而言,AI for Science(科学人工智能)起源于大科学项目。大型望远镜、卫星、基因测序仪、同步加速器、中子源和电子显微镜,每年生成PB(十万兆字节)级乃至EB (百万兆字节)级的数据量,从中提取有价值的信息对科学家而言是艰巨的挑战,因而机器学习成为必然选择。当前,AI for Science的成功主要在自然科学领域,而非技术科学领域。
  “相比传统机器学习回归模型,大模型有两个必要的特征,一是参数量足够大,二是具备泛化(外推)能力。它们对高质量数据的要求包含4个方面。”苏航进一步阐释道,一是同源性。数据来源统一,消除未知因素的干扰,但文献数据不满足同源性。二是分散性。空间上样本尽可能分散,“好”“坏”数据兼备,但工业生产数据不满足分散性。三是可信性。数据的来源、去向、产权、责任清晰,匿名网络数据、强制征集数据的可信性不高。四是完备性(特别针对大模型)。数据覆盖特征空间大部分可能的模式、形成闭环,目前材料领域仅计算数据相对完备。
  “数据闭环是AI生成的前提。国际上现有成功的科技大模型的共同特征是:具备大科学项目研究背景,具备完备闭环、开源的数据集积累。”苏航补充道,目前在世界范围内,还不具备建立通用材料大模型的数据基础,但越小的领域内越有可能出现突破性的AI应用,前提是数据集相对完备。
  “要在细分领域获得与专业人士相当的预测能力,需要达到一定的基础数据量,即我们称之为Scaling Law的数据下界;同时,数据采样应尽可能遍历所有特征模式。如钢铁金相图谱的可能特征模式在20种左右,达成闭环的数据量仅需要数百张覆盖所有特征的照片,而不是数万张。这意味着在细分领域建立具备无限泛化能力的材料AI,并不一定都需要大规模的数据集。”苏航举例道。
  “在材料为代表的工程科学领域,须适应AI对大数据的需求,改变传统上以验证为主的科研模式,建立AI友好的矩阵化数据生产新模式,才能让AI加速技术发现与发明。”苏航介绍,中国钢研正在实践“计算数据+实验数据+应用数据”的矩阵化数据生产新模式,取得显著成果。
  中国钢研新材道团队开发了区块链材料数据发现与共享协议,配合材料模式识别、隐私计算,让数据可用但不可见。2023年,中国钢研发布全球首个“材料数据区块链 通则”,建立了包括钢铁、装备制造、装备用户在内的10多个企业私有云,50个钢铁企业轻节点;已覆盖6000多个国家、团体、企业的产品标准,20多万种钢铁、高温合金、焊材、铝合金的材料产品。
  “在我看来,当前形势下,构建材料人工智能(AI for Material)需摒弃‘万能大模型’幻想,重点关注3个方向的技术工作。”苏航表示。
  一是细分领域完备数据集建设和专业模型的开发,如材料产品数据集,金属多元相图,金相组织,基于自动生成数据集的试验、计算模型等,基于材料区块链的多节点数据协同可加速完备数据集的形成。
  二是大语言模型智能体(AI Agent)的创新应用。基于通用大语言模型,建立AI辅助计算、建模、设计智能体群,并实现多智能体协同。
  三是以场景创新驱动方法论创新。“新赛道无常路,无需跟随。AI领域,美国的优势在技术,中国的优势在场景,但场景创新可以反过来驱动AI技术进步,DeepSeek(深度求索)就是范例。”他说。
  《中国冶金报》(2025年05月27日 04版四版)

  

来源:中国冶金报-中国钢铁新闻网

编辑:宋玉铮

版权说明

【1】 凡本网注明"来源:中国冶金报—中国钢铁新闻网"的所有作品,版权均属于中国钢铁新闻网。媒体转载、摘编本网所刊 作品时,需经书面授权。转载时需注明来源于《中国冶金报—中国钢铁新闻网》及作者姓名。违反上述声明者,本网将追究其相关法律责任。
【2】 凡本网注明"来源:XXX(非中国钢铁新闻网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网 赞同其观点,不构成投资建议。
【3】 如果您对新闻发表评论,请遵守国家相关法律、法规,尊重网上道德,并承担一切因您的行为而直接或间接引起的法律 责任。
【4】 如因作品内容、版权和其它问题需要同本网联系的。电话:010—010-64411649
品牌联盟
  • 燃烧装置2.gif
  • 湖南华菱集团.jpg
  • 山东钢铁集团.jpg
  • 1_看图王.png
  • 微信图片_20240117152632.jpg
  • W020190430461031429831.jpg
  • 首钢.jpg
  • 冶金工业规划研究院logo1.jpg
  • W020130618825601874406.jpg
  • W020130618825602778336.jpg
  • W020130618825603702632.jpg
  • W020130618825617201098.jpg
  • W020130618825606679805.jpg
  • W020130618825607505186.jpg
  • brand04.png
  • brand06.png
  • brand05.png
  • brand03.png
  • brand02.png
    read_image.gif

    地址:北京市朝阳区安贞里三区26楼 邮编:100029 电话:(010)64442120/(010)64442123 传真:(010)64411645 电子邮箱:csteelnews@126.com

    中国冶金报/中国钢铁新闻网法律顾问:大成律师事务所 杨贵生律师 电话:010-58137252 13501065895 Email:guisheng.yang@dentons.cn

    中国钢铁新闻网版权所有,未经书面授权禁止使用 京ICP备07016269号 京公网安备11010502033228