打造AI赋能新型工业化背景下的大模型安全“工具箱”

2025-09-23 14:24:00

　　一概述

　　自2017年Transformer架构诞生，大模型便踏上了迅猛发展的征程。从数量来看，全球大模型创新节奏持续加快。2023年，全球基础模型数量较2022年实现翻倍增长。2024年，创新活力持续释放，新增或迭代的基础模型近百个。据2025年7月世界人工智能大会最新数据显示，全球已发布大模型总数达3755个，其中中国发布1509个，位居首位；7月31日召开的国务院常务会议审议通过《关于深入实施“人工智能+”行动的意见》，提出要深入实施“人工智能+”行动，推动人工智能在经济社会发展各领域加快普及、深度融合，形成以创新带应用、以应用促创新的良性循环。

　　从技术能力来看，大模型的技术能力边界不断拓展。从最初简单的文本处理，逐步向多模态领域延伸，如今已能实现文本、图像、音频等跨模态内容的理解和涌现。目前，已经出现了一批以大模型为基础、多智能体协作的技术解决方案，正在向通用人工智能快速演进。

　　从产业应用来看，大模型与传统产业融合速度显著加快。自2025年初DeepSeek在全球范围引发热潮以来，大模型在政务、医疗、互联网、教育等垂直领域落地生根，不仅重塑了传统产业的生产模式与服务形态，更成为数字经济高质量发展的重要动力。

　　然而，大模型的迅速发展也带来了一系列严峻的安全问题，贯穿模型的全生命周期。在国务院常务会议中，特别强调要提升安全能力水平，加快形成动态敏捷、多元协同的人工智能治理格局。

　　二大模型安全风险分析

　　随着大模型技术与产业场景的深度融合，其安全风险已从技术层面延伸至业务全链条，既包含内生隐患，也衍生出对物理世界的直接威胁。全面梳理这些风险，并构建系统性防护方案，成为大模型健康发展的关键。

　　从技术层面看，大模型安全风险首先体现在技术本身的“先天不足”，即内生安全问题，包含模型鲁棒性差、算法黑箱特性显著，加之大模型特有的“幻觉”问题。在应用过程中，这些内生安全问题会得以显现，即衍生安全问题，包括模型误用、滥用导致的虚假信息泛滥、决策偏差等。这些问题已开始对金融、工业等核心领域的业务连续性构成威胁——例如工业制造中，模型决策偏差可能沿生产链路放大，引发连锁反应甚至业务中断。

　　从全生命周期看，安全风险贯穿始终。在模型选型与测试评估阶段，开源模型易遭投毒、契合场景需求的系统性安全测试评估方法、测试数据、工具缺失的问题严重，传统的基于规则的判断模式难精准衡量大模型的安全问题。在模型训练/微调阶段，训练或微调语料若含违法不良信息等敏感数据会污染模型，缺乏模型安全对齐机制可能导致模型输出易失控，这也成为了模型在应用过程中风险的最直接根源。在上线服务阶段，模型部署依赖的推理框架等软件环境普遍存在漏洞缺陷，模型鲁棒性差、智能体等上层应用防护不完善，可能导致数据泄露等严重危害。在更新、下线销毁阶段，缓存数据、临时文件可能干扰新模型运行，模型文件、权重、缓存等信息则需妥善销毁。尽管更新下线阶段风险暂时没完全显现，但随着技术应用的不断深入，会在未来呈现出实际危害。

　　与传统信息系统安全相比，大模型安全的攻防焦点延续了传统安全的核心要素——硬件、数据。防火墙、数据泄露防护（DLP）等工具经改造后仍可发挥作用，传统的“识别-评估-管理-持续改进”的风险管理框架依然适用。但大模型也带来了新的威胁：如攻击手段已实现智能化迭代，攻击者可通过大模型自动演化攻击模式，突破传统边界防护；业务系统的复杂度提升，“云边端”一体化架构下，一次攻击可能导致多个业务系统中断；防护和应对成本大幅攀升，据统计，2023年全球AI网络安全支出为240亿美元，预计2030年增至1330亿美元。

　　此外，大模型安全风险还呈现出多维复杂交织的新态势。风险载体从传统硬件、数据扩展至模型、智能体等新对象，数据层面的投毒、对抗样本有可能造成模型后门植入，或致使推理决策的重大错误。模型黑箱、幻觉特性导致内容生成过程中的风险不可预见。智能体因形态多样、协议不统一、权限控制能力不足，难以用标准化手段防护。同时，在风险检测评估方面，缺乏统一的标准、工具和动态监控方法。这些都需要新的管理思路和技术手段进行应对。

　　三大模型安全“工具箱”

　　大模型安全“工具箱”作为一套集成全流程安全技术产品和工具的综合解决方案，以“攻-检-防”全流程为核心思路，覆盖大模型生命周期的主要环节，形成了涵盖“智鉴”大模型安全检测平台、“智钺”大模型安全自动化仿真验证平台和“智盾”大模型安全加固防护方案的产品服务矩阵，实现风险“发现-评估-加固-验证”闭环机制，确保大模型在全生命周期的安全性。

　　“智鉴”大模型安全检测平台聚焦于大模型基础环境和模型应用过程中输入输出内容的安全检测。大模型基础环境检测针对大模型研发和部署环节安全问题，通过代码扫描、漏洞和软件成分，发现模型环境的安全风险。模型输入输出内容安全检测重点针对模型接收和产生的内容，包含有害、商业或技术敏感信息。

　　“智钺”大模型安全自动化仿真验证平台主要用于对大模型提供自动化的安全评估支持。在测试能力方面，支持自动化调用模型接口，无需人工干预即可完成攻击测试，测试完成后，可自动生成包含测试过程、结果、安全问题及改进建议的评估报告，为应用方提供清晰直观的结论。在测试数据方面，平台集成了百万量级测试数据和近百种攻击方法模板。同时，还可结合用户需求，定制化开展数据制作和评估模型建设工作，满足场景化安全测试需求。

　　“智盾”大模型安全加固防护方案依托积累的海量大模型安全数据，采用模型微调对齐和安全知识库增强等手段进行模型对齐防护，提升大模型自身安全能力，同时兼顾大模型原本的通用能力，避免安全加固对模型功能造成负面影响。经实践验证，“智盾”方案能显著提升大模型的安全性能，多个开源大模型被攻击成功概率下降超过30个百分点，最高超过70个百分点。此外，还支持对大模型进行语意层面的权限控制，防止不同权限人员使用同一套模型的过程中造成的数据未授权访问问题。

　　目前，工具箱中的产品已经服务于能源行业多个用户单位开展大模型安全检测、防护等工作，特别支撑了煤炭科学研究院太阳石矿山大模型，完成了生成式人工智能服务上线备案工作。

　　四结语

　　未来，大模型、智能体必将与业务生产环节实现更加深度的融合。因此，为推动新技术的深度融合，可通过对场景进行风险分级分类评估的方式，全面梳理并最终形成技术落地的路线图，再配合技术手段进行检测、监测、防护，实现大模型、智能体与传统行业的深度融合。

来源：中国冶金报-中国钢铁新闻网

编辑：张雨恬

下一篇：四问+一图，读懂《钢铁行业稳增长工作方案（...

版权说明

【1】凡本网注明"来源：中国冶金报—中国钢铁新闻网"的所有作品，版权均属于中国钢铁新闻网。媒体转载、摘编本网所刊作品时，需经书面授权。转载时需注明来源于《中国冶金报—中国钢铁新闻网》及作者姓名。违反上述声明者，本网将追究其相关法律责任。
【2】凡本网注明"来源：XXX（非中国钢铁新闻网）"的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点，不构成投资建议。
【3】如果您对新闻发表评论，请遵守国家相关法律、法规，尊重网上道德，并承担一切因您的行为而直接或间接引起的法律责任。
【4】如因作品内容、版权和其它问题需要同本网联系的。电话：010—010-64411649