Dentons Shanghai Office-Dentons Shanghai Office-Dacheng Shanghai Office

随着生成式人工智能技术的飞速发展，其带来的安全与伦理挑战愈发显著。为此，全国网络安全标准化技术委员会发布了《生成式人工智能服务安全基本要求》（以下简称《基本要求》），旨在规范此类技术的应用，确保服务提供者在保护用户隐私、避免侵犯他人知识产权、确保数据安全等方面的义务得到履行。虽然该《基本要求》并非强制性法律规定，但其第4条总则指出，“本文件支撑《生成式人工智能服务管理暂行办法》，提出了服务提供者需遵循的安全基本要求。服务提供者在按照有关要求履行备案手续时，按照本文件第9章要求进行安全评估，并提交评估报告。”在我国监管体制下，该《基本要求》将成为指导企业进行人工智能相关合规工作的重要遵循。本文将分析《基本要求》相对于征求意见稿的主要修改内容，并指出企业在合规路径上需关注的重点，给出相关合规建议。

一

《基本要求》主要修改点概述

全国信息安全标准化技术委员会于2023年10月11日发布《基本要求》的征求意见稿，并于2024年3月1日发布生效版本，现就生效版本相对于征求意见稿的主要修改点概述如下：

（一）术语和定义的修改

增加了基础模型（foundation model）的定义。

对违法不良信息的注释进行了微调，更加明确指向附录A.1到A.4中29种安全风险的信息。

（二）总则部分的修改

征求意见稿未明确提及长期风险。生效版本明确提出服务提供者应紧密注意生成式人工智能可能带来的长期风险，特别强调了欺骗人类、自我复制、自我改造能力的人工智能的潜在危害。此外，还特别注意到生成式人工智能可能被用于编写恶意软件、制造生物武器或化学武器的风险。

（三）语料来源安全要求的修改

细化评估与核验：明确要求在采集特定来源语料前后进行安全评估和核验，确保不采集或使用含违法不良信息超过5%的语料。

多样性与可追溯性：加强了对语料来源多样性的要求，并对开源语料、自采语料、商业语料的使用条件提出了更详细的规定，如开源许可协议、采集记录、交易合同等。

（四）模型安全要求的修改

基础模型的备案：新增了使用第三方基础模型时必须是已备案模型的要求。

安全监测与优化：增加了建立常态化监测测评手段，针对监测发现的安全问题进行及时处置，并通过指令微调、强化学习等方式优化模型的要求。

（五）安全措施要求的修改

服务稳定、持续方面：新增了多项要求，如训练环境与推理环境的隔离、恶意输入攻击的防范、安全审计及漏洞修复、备份机制与恢复策略等。

针对未成年人的服务：细化了服务适用未成年人时的具体要求，如防沉迷措施的设定、限制付费服务、积极展示有益内容等。

服务透明度：新增了需公开的信息种类，如服务适用的人群、场合、用途等信息，以及模型、算法的概要信息等。

向使用者提供服务：细化了检测和处理使用者不良输入信息的方法，如采取关键词、分类模型等方式进行检测，暂停提供服务的情况等。

（六）其他修改

关键词库：明确了关键词库应具有的全面性和代表性，总规模不宜少于10000个，并应覆盖附录A中全部31种安全风险。

生成内容测试题库和拒答测试题库：对这两类测试题库的具体要求进行了细化，包括规模、覆盖的安全风险种类、测试题的数量等。

二

合规建议

（一）关于语料安全评估

语料安全评估是生成式人工智能服务安全的源头，因此《基本要求》对此作出最为详细的规定，包括语料来源安全要求，语料内容安全要求和语料标注安全要求三部分。

1. 就语料来源安全要求，建议如下：

1）建立详细的语料来源安全性评估框架

开发综合评估系统：建立一个包含自动化技术检测和人工智能辅助的综合评估系统。该系统应能对语料来源进行全面分析，包括来源网站的安全信誉评级、历史违法不良信息记录、以及语料内容的多维度安全性分析。

实施动态评估机制：采用实时数据监控，对已评估和采集的语料来源持续进行动态评估，确保其长期安全可靠。如发现任何违法不良信息比例上升或其他风险信号，应立即重新评估并采取相应措施。对于采集后的语料，如发现违法不良信息比例超过5%，应立即排除使用。

2）采取语料来源多样性与可追溯性的实操措施

构建多元化语料库：积极探索并整合来自不同领域、地区、语言的语料资源，避免偏见和单一视角。在保证安全性的前提下，广泛收集并利用多样化的语料来源，增强模型的综合性和适应性。

建立可追溯性管理系统：为每一批语料建立详细的来源记录，包括采集时间、来源网址、授权信息等，确保语料的每一步操作都可追踪、可核查。此外，对于重要或敏感的语料，应实行更严格的审查和记录要求。可以利用区块链技术记录语料的采集、处理和使用过程，确保每一步的透明性和不可篡改性。

3）加强合作伙伴和第三方语料供应商的管理

严格供应商选择和评估：对于使用第三方提供的语料，必须选择信誉良好、具有合法授权能力的供应商。通过详细的尽职调查，评估其合规性、安全性以及历史表现，确保其提供的语料符合安全要求。

签署详尽的合作协议：在与供应商合作时，应签订包含明确合规和安全义务的合同或协议。协议中应详细规定语料的安全标准、违约责任、数据保护措施等内容，以法律手段保障合作双方的权益和责任清晰。

2. 就语料内容安全要求建议如下：

1）构建交互式违法不良信息识别系统

引入用户参与：开发平台，允许用户标记和反馈生成内容中的潜在违法不良信息。利用社群的力量作为补充，增强内容审查的全面性和准确性。

建立奖励机制：对于积极参与标记不良信息的用户，提供积分、奖品等激励措施，以提高社群参与度和动力。

2）使用深度伪造内容识别技术

识别深度伪造：考虑到深度伪造（如Deep fake）技术的兴起，企业可通过引入专门技术针对通过AI生成的图像、视频等内容进行真伪鉴别。

3）利用AI辅助知识产权审核

采用AI辅助技术支持：采用AI辅助的知识产权审核工具，自动检测语料库中可能侵犯知识产权的内容，提高审核效率和准确性。

对接权威知识产权数据库：与诸如版权保护中心、著作权集体管理组织、裁判文书网等权威知识产权数据库合作，实时比对内容，准确快速地识别潜在的版权问题。

4）开展知识产权教育培训

教育培训：为所有参与语料采集、处理和标注的员工提供知识产权保护的培训，增强他们的版权意识。

5）优化使用者信息的处理

精细化用户设置：为用户提供详细的隐私设置选项，允许他们控制个人信息可以被用于生成内容的具体范围，实现个人信息的最小化处理。用户能够控制其数据如何被用于训练人工智能模型的平台或工具。用户应能够根据自己的偏好选择同意或拒绝其数据用于特定目的，同时能够轻松撤回同意。

进行智能化数据脱敏：通过智能化数据脱敏工具，自动识别和处理涉及个人信息的内容，确保在不影响服务质量的前提下，最大程度保护用户隐私。

3.关于语料标注安全要求的建议

1）建立全面的标注指南和培训体系

制定详尽的标注指南：针对不同类型的语料和预期的用途，制定详细的标注指南，包括但不限于标注目标、数据格式、标注方法、质量指标等内容。确保标注指南覆盖本文件附录A中的全部31种安全风险，并对每一种风险都提供具体的标注规则和示例。

定期进行标注人员培训：组织定期的培训和考核，确保标注人员充分理解标注规则，掌握标注工具的使用方法，并对数据安全管理有足够的认识。特别是对于安全性标注，要求标注人员能够准确识别和处理违法不良信息及其他安全风险。

2）强化标注过程的质量控制

实施分层标注和审核机制：采用分层标注机制，不同级别的标注人员负责不同阶段的标注任务，例如，初级标注人员负责初步标注，高级标注人员或专家负责复审和审核。确保同一批数据至少经过两轮标注和审核，以提高标注准确性。

引入质量控制样本：在标注任务中混入已知标注结果的控制样本，用以评估标注人员的标注准确性和一致性，及时发现并纠正标注错误和偏差。

3）采用技术辅助的标注工具

引入自动化标注工具：采用支持自动化辅助标注的工具，如基于机器学习的预标注系统，提高标注效率和初步准确率。同时，确保标注工具具有良好的用户界面和操作体验，降低标注人员的工作难度。

强化数据安全和隐私保护功能：确保标注工具符合数据安全和隐私保护的要求，如实施数据加密、访问控制、操作日志记录等功能，防止数据泄露和未授权访问。

4）定期评估标注质量和效率

建立标注质量评估体系：定期对标注结果进行质量评估，包括准确性、一致性、完整性等方面。使用随机抽样、交叉验证等方法，评估标注质量，并根据评估结果进行必要的调整和优化。

优化标注流程和工具：根据标注质量和效率的评估结果，持续优化标注流程和工具。例如，针对频繁出现标注错误的领域，增加标注指导、改进标注工具的功能，或调整标注人员的配置。

（二）关于模型安全要求

模型安全是实现人工智能生成内容安全的核心，《基本要求》对此提出了具体要求，建议如下：

1. 建立基础模型合规性数据库

进行合规性跟踪：针对需基于第三方基础模型提供服务的要求，建立一个内部数据库，跟踪和记录所有使用的第三方基础模型的备案状态、安全评估报告和任何相关的合规性信息。

定期审核：定期对数据库中的信息进行审核，以确保所有基础模型均保持最新的合规状态，特别是在法律法规更新或主管部门变更要求时。

2. 建立模型生成内容的动态安全监控系统

采用智能监测技术：开发或引入先进的人工智能技术，以实现对模型生成内容的实时动态监控，及时识别可能的违法不良内容。

多维度安全检测：实现对用户输入信息的安全性检测，不仅限于违法不良信息的识别，也包括对潜在误导信息、假信息等的识别和过滤。

3. 构建模型优化反馈机制

利用用户反馈：建立一个机制，允许用户对生成内容的准确性、可靠性提出反馈，利用这些反馈进行模型的针对性指令微调和强化学习。

集成专家系统：考虑集成一个由相关领域专家组成的审查团队，定期对模型生成的内容进行评估，以人工方式辅助识别和修正模型的不足之处。

4. 增强模型生成内容的准确性和可靠性

开发准确性验证机制：开发一个系统，对模型生成的内容进行科学常识和主流认知的自动验证，减少错误内容的生成。

实施内容质量控制：通过技术措施确保生成内容格式框架的合理性及有效内容的含量，如实施内容生成模板、设置内容质量评分系统等。

5. 实施跨部门合作以增强模型安全

参与行业协作：与政府机构、其他企业、学术机构建立合作，共享关于模型安全的最佳实践、工具和技术，促进行业内的知识共享和技术进步。

对接国际标准：针对模型安全的管理和优化，参考并对接国际标准和实践，如欧盟《人工智能法》中对高风险人工智能系统的要求，提升模型安全措施的全球一致性和前瞻性。

（三）关于第7条安全措施要求

相对于征求意见稿，《基本要求》的修改重点集中在针对未成年人的服务和服务透明度等方面，企业应当重点关注，建议如下：

1. 针对模型适用人群、场合、用途的定制化安全评估

开展风险评估工作：定期组织跨部门工作，参与者包括产品、技术、法律和伦理团队，针对不同场合和用途的生成式AI服务进行定制化的风险评估。这些评估应充分考虑特定用户群体的需求和潜在的风险敞口，尤其是未成年人、老年人等敏感群体。

2. 提高服务透明度与用户教育

开发透明度仪表盘：创建一个在线透明度仪表盘，向用户公开展示服务的安全性、限制性和适用性等级别。仪表盘可以包括模型的基本信息、训练数据概览、性能指标和安全评估报告的摘要。

用户教育计划：推出用户教育计划，通过视频、FAQs和互动教程，教育用户如何安全、负责任地使用AI服务，包括未成年人保护措施和如何识别和报告不良内容。

3. 建立健全的投诉和反馈机制

建立AI伦理热线：设立一个专门的AI伦理热线和在线投诉平台，快速响应用户的安全、隐私和伦理问题。热线应提供多语言支持，确保全球用户都能方便地获得帮助。

定期发布透明报告：定期（例如每季度）发布透明报告，汇总和分析用户投诉、反馈及公司的应对措施，以及任何由此导致的服务调整或改进。

4. 加强对未成年人的保护

开发未成年人保护工具包：为监护人提供一个包含各种控制工具的未成年人保护工具包，包括内容过滤、使用时间控制和消费限制等功能。工具包应易于使用，支持定制化设置。

5. 强化技术与管理措施防止未成年人使用不适宜服务

实施先进的年龄识别技术：比如采用生物特征识别（如面部识别）和行为分析技术，提高服务中未成年人身份识别的准确性和有效性，以防止未适龄用户访问不适宜的内容或服务。

推动行业标准制定：与行业伙伴合作，推动制定和实施未成年人保护的国际标准，包括年龄识别、内容分级和家长控制功能等方面。

三

小结

生成式人工智能是前所未见的开创性技术，这决定了其相关的法律法规环境会不断变化更新，因此企业应当建立法律法规更新机制，随着相关法律法规的不断更新和行业标准的变化，建立一个快速响应机制，及时调整内部管理和操作流程，并借助外部专业人士的智慧投入，确保随时符合最新的合规要求。

专业文章 Articles

基于《生成式人工智能服务安全基本要求》的合规建议