被“污染”的训练数据 可能正在给AI“投毒”

评论 · 24 浏览

本文转自:羊城晚报AI也需要安全的“成长”环境(资料图片)国家安全部近日发布安全提示文章称,人工智能的训练数据存在良莠不齐的问题,其中不乏虚假信息、虚构内容和偏见性观点,造成数据源污染,给人工智能安

  本文转自:羊城晚报

  国家安全部发布安全提示,0.01%虚假训练文本可致AI有害内容增加11.2%

  被“污染”的训练数据 可能正在给AI“投毒”

        AI也需要安全的“成长”环境 (资料图片)

  

    国家安全部近日发布安全提示文章称,人工智能的训练数据存在良莠不齐的问题,其中不乏虚假信息、虚构内容和偏见性观点,造成数据源污染,给人工智能安全带来新的挑战。

    数据是人工智能的基础

    人工智能的三大核心要素是算法、算力和数据,其中数据是训练AI模型的基础要素,也是AI应用的核心资源。

    海量数据不仅为AI模型提供了充足的训练素材,使其得以学习数据的内在规律和模式,实现语义理解、智能决策和内容生成,同时,数据也驱动人工智能不断优化性能和精度,实现模型的迭代升级,以适应新需求。

    随着数据资源的日益丰富,在应用中加速“人工智能+”行动的落地,不仅培育和发展了新质生产力,更推动我国科技跨越式发展、产业优化升级、生产力整体跃升。高质量的数据能够显著提升模型的准确性和可靠性,但数据一旦受到污染,可能导致模型决策失误甚至AI系统失效,存在一定的安全隐患。

    数据污染冲击安全防线

    研究显示,当训练数据集中仅有0.01%的虚假文本时,模型输出的有害内容会增加11.2%;即使是0.001%的虚假文本,其有害输出也会相应上升7.2%。通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,削弱模型性能、降低其准确性,甚至诱发有害输出。

    受到数据污染的人工智能生成的虚假内容,也可能成为后续模型训练的数据源,形成具有延续性的“污染遗留效应”。当前,互联网AI生成内容在数量上已远超人类生产的真实内容,大量低质量及非客观数据充斥其中,导致AI训练数据集中的错误信息逐代累积,最终扭曲模型本身的认知能力。

    数据污染还可能引发一系列现实风险,尤其在金融市场、公共安全和医疗健康等领域。

    在金融领域,不法分子利用AI炮制虚假信息,造成数据污染,可能引发股价异常波动,构成新型市场操纵风险;在公共安全领域,数据污染容易扰动公众认知、误导社会舆论,诱发社会恐慌情绪;在医疗健康领域,数据污染可能致使模型生成错误诊疗建议,不仅危及患者生命安全,也加剧伪科学的传播。

    筑牢人工智能数据底座

    文章呼吁,要加强源头监管,防范污染生成。应当以《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律法规为依据,建立AI数据分类分级保护制度,从根本上防范污染数据的产生,助力有效防范AI数据安全威胁。

    同时加强对人工智能数据安全风险的整体评估,确保数据在采集、存储、传输、使用、交换和备份等全生命周期环节安全。同步加快构建人工智能安全风险分类管理体系,不断提高数据安全综合保障能力。

    此外,还要定期依据法规标准清洗修复受污数据。依据相关法律法规及行业标准,制定数据清洗的具体规则。逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理与质量把控。 

    (来源:央视新闻)

评论