开云电竞开云电竞2024年12月3日上午,由清华大学、新加坡国立大学、香港科技大学联合主办的“2024人工智能合作与治理国际论坛”举办了以“人工智能安全的科学研究”为主题的圆桌对话。(Simon CHESTERMAN)主持,清华大学计算机科学与技术系教授(Mohan KANKANHALLI),芝加哥大学和伊利诺伊大学香槟分校教授、瑞欧威尔(irtue AI)创始人兼首席执行官作为对话嘉宾,共同围绕人工智能安全领域的科学研究问题展开了精彩对话与交流。
会议伊始,李婉诗提出问题:当前人工智能发展及安全治理的前沿进展如何?存在哪些局限性?
针对这一问题,黄民烈提出,目前我们依然处于模型评估的早期阶段,今天绝大多数科学家所做的工作,仍是试图建立一个静态的评估标准。鉴于人工智能技术创新和产业应用的速度很快,在可见的未来,我们还需要尝试开发一些动态的、基于自动学习的算法来进行各种人工智能安全和性能的评估。
李博认为,目前的人工智能安全治理包含治理原则、监管措施、算法评估、阈值设定多个层次,当前各个层次的前沿研究均有待加强,特别是有待结合人工智能在不同领域和场景的应用提出具体的治理方法。
墨翰·阚阚哈里高度赞同其他发言人的观点,认为当前人工智能类似于100年前的生物学领域,非常接近于经验科学,对于人工智能运行及其风险产生机制的了解存在不足,因此很难保证人工智能系统的绝对安全。
随后,李婉诗请专家们对各类人工智能风险的优先级、人工智能安全测试方法发展的重点方向等问题展开讨论。
对此,李博认为,以大语言模型为例,如果想从根本上解决模型的安全和价值对齐问题,单纯的依靠基于多头注意力机制的深度学习的Transformer架构可能很难完美实现,需要通过引入一些推理能力的组件加以辅助。如何明确地将一些符号代表性知识规则集成到模型中,确保模型遵守一些非常关键的安全规则,将是未来重要的发展方向。
黄民烈提出,探索人工智能风险形成的内部机制非常重要,了解这些机制是提升人工智能安全的重要手段。例如,目前研究者们普遍认同,大模型受到越狱攻击的脆弱性很大程度上取决于训练数据的质量。在近期研究中,研究团队尝试从模型中删除了部分有害的知识,导致模型在抵抗各类越狱攻击方面的表现取得了巨大提升。
墨翰·阚阚哈里提出,不同国家的社会价值、法律制度等存在很大差异,导致各国对于人工智能风险的看法存在差异,人工智能的价值对齐也很难采取全球统一的方法和标准。尽快取得更多人工智能安全治理的共识可以为推动相关技术发展提供更加明确的方向。
围绕这一问题,黄民烈认为不同国家对于人工智能安全存在不同的关注点,在某些基准测试的开发中,不同国家的科研人员可能会因为价值观念的差异产生分歧。有必要通过国际合作达成具有全球共识的基本原则。
李博提出,政府、学术界、工业界在人工智能安全治理问题上具有不同的优势,不同主体需要做好自己的工作,并且在此基础上在交叉领域形成密切的合作关系,针对人工智能应用的具体场景形成更具可操作性的治理方案。
墨翰·阚阚哈里提出,总的来看,人工智能主要存在误用、滥用风险,以及模型的歧视、幻觉等人工智能系统内在技术风险两类风险。其中,误用、滥用风险可以更多通过监管予以解决,但是有关人工智能系统自身的风险,需要全球更多科学家参与相关研究,共同寻找应对之道。
清华大学人工智能国际治理研究院(Institute for AI International Governance, Tsinghua University,THU I-AIIG)是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,研究院面向人工智能国际治理重大理论问题及政策需求开展研究,致力于提升清华在该领域的全球学术影响力和政策引领作用,为中国积极参与人工智能国际治理提供智力支撑。