大讲堂

 

第十二期大讲堂回顾 | 王志波:人工智能安全风险与可信探索

大讲堂
2022-09-19

王志波

浙江大学计算机学院/网络空间安全学院教授

国家优秀青年科学基金获得者

浙江大学信息技术中心副主任

演讲实录节选:

 一、人工智能:应用场景越来越多,前景更加广阔

基于深度学习的人工智能技术已广泛应用于人脸识别、自动驾驶、在线教育等各个领域,展现了其卓越的性能,人工智能的应用正带来一场新的技术革命。人工智能是引领未来的战略性技术,是国际竞争的新焦点,是提升国家竞争力、维护国家安全的重大战略。

中国人工智能产业发展势头良好,发展空间巨大,我们亟需抢抓人工智能发展机遇,为制造强国、网络强国、数字中国建设提供有力支撑。从2017年开始,国务院印发《新一代人工智能发展规划》,提出了面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施,部署构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国。党的十九大报告中指出,“推动互联网、大数据、人工智能和实体经济深度融合,在中高端消费、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域培育新增长点、形成新动能”。近期的《2021年政府工作报告》指出,“基础科技发展的重点领域将涵盖新一代人工智能等战略性新兴产业”。紧接着,中国国家新一代人工智能治理专业委员会发布《新一代人工智能伦理规范》,旨在将伦理道德融入人工智能全生命周期,为从事人工智能相关活动的自然人、法人和其他相关机构等提供伦理指引。可以说,未来,人工智能将为经济社会发展打开更大的可能性空间。人工智能的未来可期,前景广阔。

 二、人工智能安全问题

人工智能在各行各业、不同场景应用的案例越来越多,已实实在在嵌入到了各种场景之下的生产作业流程中。然而,随之而来的数据隐私、安全风险等问题也引起了关注。例如,一种被称为对抗攻击的典型攻击方式,利用深度神经网络内在脆弱性,通过添加精心构造的噪声到原始数据(比如图像、音频)来误导模型决策错误。基于这种攻击,莫斯科国立大学与华为莫斯科研究中心联合提出AdvHat,将打印的对抗性图案粘贴在帽子上,成功地让先进的Face ID系统识别出错;通过在交通标志上添加噪声误导自动驾驶系统决策错误。此外,另一种典型攻击方法深度伪造(Deepfake)也是业界关注的重点,这一攻击使用人工智能技术生成能够以假乱真的虚假视频,甚至可以使用视频换脸生成某个特定人的视频。深度伪造视频真假难辨,甚至可以欺骗人类与当前人脸识别系统,有可能对社会稳定甚至国家安全造成威胁。迄今为止,诸如奥巴马假视频、扎克伯格假视频、虚假汤姆克鲁斯明星模仿等等深度伪造的大事件层出不穷,已经造成了恶劣的社会影响。

歧视与偏见也广泛地存在于现实系统中。一方面由于数据和算法的局限,在训练数据不足的时候,人工智能系统就容易出现偏差,从而产生类似的歧视行为。比如,Northpointe公司开发的系统Compas在美国被广泛使用,黑人被告相比于白人被告被预测为高暴力犯罪风险的可能性高77%,被预测为将来可能实施任意一种犯罪的可能性高45%,还有像亚马逊AI招聘系统存在性别偏见等例子。

针对AI的安全分析,可以从AI的全生命周期来看,包括设计阶段、训练阶段和执行/推理阶段。在每个阶段都存在着一定的安全风险。

在设计阶段,根据需求收集数据、选择合适的模型结构。理想情况下的模型,是客观中立,在满足个体对个性化的需求的同时不应歧视某一群体。然而,偏见总是普遍存在的,例如:数据收集过程中的偏见、数据标注的偏见、结果解释的偏见、设计算法时采取准则的偏见等,从而威胁了AI的公平性,产生如数据的偏见、模型的偏见等安全威胁。

在训练阶段,按照设计时决定的模型结构,结合训练数据来训练模型,存在如投毒攻击、后门攻击等安全威胁。具体说来,数据投毒是攻击者将少量精心设计的中毒样本添加到模型的训练数据集中,利用训练或者微调过程使得模型中毒,从而破坏模型的可用性或完整性,最终使模型在测试阶段表现异常。后门攻击是在训练数据中加入少量的带触发器的毒化数据,破坏模型的训练完整性;面对正常输入数据时,模型预测结果无异常,一旦输入数据包含触发器,模型预测结果就被恶意篡改。

在执行阶段,使用训练好的的模型进行预测,完成既定任务,存在如对抗攻击、成员推断攻击等安全威胁。具体说来,对抗攻击指的是,攻击者对输入加入精心设计的扰动,使模型得出错误的结果。通常攻击者希望加入的扰动难以被辨识,这样意味着攻击的隐蔽性强。根据攻击意图,对抗攻击可以分为有目标攻击和无目标攻击;根据攻击者所能获取的信息,对抗攻击可以分为白盒攻击、灰盒攻击和黑盒攻击。成员推断攻击指的是,攻击者根据模型执行的结果,推断输入样本是否属于模型的训练数据,破坏模型保密性;若模型本身的训练数据较为敏感,则会泄露用户的敏感信息,如患病情况等。

 三、可信AI

人工智能面临着“信任危机”,人民需要更加“可信”的人工智能。因此,"安全可信" 成为 AI 发展的重要趋势。AI的安全要素包括:1)保密性,即涉及的数据与模型信息不会泄露给没有授权的人;2)完整性,即算法模型、数据、基础设施和产品不被恶意植入、篡改替换伪造;3)鲁棒性,即能同时能够抵御复杂的环境条件和非正常的恶意干扰;4)隐私性,即Al模型在使用过程中能够保护数据主体的数据隐私;5)公平性,即对不同的使用者,算法不会差别对待。

可信AI是抵御风险的关键能力,可信AI研究可以从以下四方面解决AI的信任危机:稳定性/鲁棒性,AI系统抵抗各类环境噪声、攻击的能力;可解释性,AI系统的预测、决策是否透明、可被人理解;隐私保护,AI系统是否可以保护用户隐私不被泄露;公平性,AI系统是否公平对待不同群体,以上四点也是可信AI的四大基本原则。通过研究AI模型的可解释性、鲁棒性、公平性和隐私性,从而构建安全可信AI系统。

 四、可信AI的相关研究成果

在模型公平性提升方面,我们提出了基于对抗性扰动的公平性提升技术,通过阻止模型提取敏感属性相关信息且保留目标任务相关信息,在不改变已部署模型情况下提升系统公平性;对于高隐蔽对抗样本方面,我们提出了基于噪声空间约束的高隐蔽对抗样本生成技术,根据区域复杂性自适应的添加噪声而非全局加噪,在实现高攻击成功率前提下达到噪声高隐蔽;抗压缩对抗样本方面,我们提出了基于压缩近似模型的抗压缩对抗样本生成技术,在对抗样本优化时引入压缩近似模型,首次实现社交平台未知压缩方式下的抗压缩对抗图像生成;物理鲁棒对抗攻击方面,我们设计了跨摄像头可变、位置可扩展、物理高鲁棒的对抗性图案,首次实现面向行人重识别系统的目标逃逸攻击与伪装攻击,揭示了其系统脆弱性;高迁移性对抗攻击方面,我们提出基于特征重要性的高迁移性对抗样本生成技术,引导对抗样本朝着破坏目标相关的重要特征进行优化,有效提升了现实场景下的黑盒攻击成功率 。

 五、AI安全理论及验证平台:新一代人工智能重大项目

我们的工作得到了科技创新2030—“新一代人工智能”重大项目《人工智能安全理论及验证平台》的支持,该项目是人工智能安全领域的第一个重大项目,由浙江大学任奎教授牵头。该项目旨在发展新的AI安全理论及关键技术,提高AI系统威胁监测、预警、响应能力,实现大规模人工智能系统的安全性验证,推动系统安全评测标准的制定与完善,完全响应“建立多领域技术融合、支持大规模人工智能系统自主安全防御的理论体系”的总体研究目标。通过本项目的实施,有望发展出一套新的AI安全理论及关键技术,提高AI系统威胁监测、预警、响应能力,推动系统安全评测有关标准制定与完善,降低AI技术不成熟性与滥用带来的安全风险。

 

 

直播回顾:第12期前海数据经济大讲堂