生成式人工智能( Generative AI )与传统的判别式人工智能(Discriminative AI)或决策式/分析式人工智能(Analytical AI)不同,是一种可用于创建新的内容和想法的人工智能技术。生成式 人工智能依赖于复杂的机器学习模型或深度学习模型来创建新内容,试图在图像识别、自然语言处理(NLP)和翻译等非传统计算任务中,通过模拟人脑学习和决策过程的算法来模仿人类智能。这些模型的工作原理是识别大量数据中的模式和关系并对其进行编码,然后使用这些信息来理解用户的自然语言请求或问题,并以相关的新内容进行响应。[1]
当前,人工智能作为一项渗透性极强的颠覆性技术,正在引领新一轮的产业变革,正深刻地改变着人类的生产、生活,已成为科技研发、产业发展乃至大国竞争的制高点。生成式人工智能技术作为一种与人类的亲合度更高、更加智能的人工智能技术,已经从技术出现、技术传播迈入到大规模应用阶段,已经成为投资的热点领域。新锐的生成式人工智能创业企业不断得到风险投资资金的支持,投资金额不断创出新高。以下我们结合参与生成式人工智能企业投资项目的实务经验,梳理、总结生成式人工智能企业合规和法律尽职调查的主要关注要点。
根据《生成式人工智能服务管理暂行办法》及全国网络安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》的相关定义,生成式人工智能技术是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。生成式人工智能服务提供者,是指以交互界面、可编程接口等形式提供生成式人工智能服务的组织或个人,研发、应用生成式人工智能技术但未向境内公众提供生成式人工智能服务的,不包括在内。[2]
当前生成式人工智能服务提供者多数本身是技术开发者,但随着市场的发展,将会有大量本身不开发、不掌握生成式人工智能技术,而是应用他人开发的技术对外提供生成式人工智能服务的服务者。本文所述的生成式人工智能企业主要指前者,即实际训练或优化模型,基于其生成式人工智能技术提供服务的技术型企业,不包括仅通过购买或调用他人的模型向第三方提供服务的服务商。
一、生成式人工智能的风险挑战及监管概述
1. 生成式人工智能的风险挑战
以ChatGPT为代表的人工智能技术的迭代式创新突破,正加速推动人类向数字化、智能化的未来前进。人工智能在给人类带来福祉的同时,不良影响也日益加剧。通用人工智能不受约束的能力可能会被用来操纵舆论、制造假新闻或有害言论。例如,“文心一言”大模型在与用户对话的过程中生成了某知名人物的失德行为构成职务犯罪并正在接受监察委调查的虚假信息。可能具备欺骗人类、自我复制、自我改造能力的人工智能,及可能被用于编写恶意软件、制造生物武器或化学武器等的人工智能,甚至可能威胁人类的生存。采用深度学习、神经网络算法的人工智能模型往往被视为黑箱,其本身可能无法理解输入与输出内容的真实内涵,无法解释其生成机制和生成结果,一旦被训练数据和语料污染,可能生成违法不良内容,带来弥散性的影响并叠加扩散,从而带来挑战现代公共治理的长期风险。
《生成式人工智能服务安全基本要求》列出了语料及生成内容的五类主要安全风险:
第一类,包含违反社会主义核心价值观的内容,包括:煽动颠覆国家政权、推翻社会主义制度;危害国家安全和利益、损害国家形象;煽动分裂国家、破坏国家统一和社会稳定;宣扬恐怖主义、极端主义;宣扬民族仇恨;宣扬暴力、淫秽色情;传播虚假有害信息;其他法律、行政法规禁止的内容。
第二类,包含歧视性内容,包括:民族歧视;信仰歧视;国别歧视;地域歧视;性别歧视;年龄歧视;职业歧视;健康歧视;其他方面歧视。
第三类,商业违法违规,包括:侵犯他人知识产权;违反商业道德;泄露他人商业秘密;利用算法、数据、平台等优势,实施垄断和不正当竞争行为;其他商业违法违规行为。
第四类,侵犯他人合法权益,包括:危害他人身心健康;侵害他人肖像权;侵害他人名誉权;侵害他人荣誉权;侵害他人隐私权;侵害他人个人信息权益;侵犯他人其他合法权益。
第五类,无法满足特定服务类型的安全需求,主要是指将生成式人工智能用于安全需求较高的特定服务类型,例如自动控制、医疗信息服务、心理咨询、关键信息基础设施等,存在的:a)内容不准确,严重不符合科学常识或主流认知;及b)内容不可靠,虽然不包含严重错误的内容,但无法对使用者形成帮助。
以上第一类违反社会主义核心价值观的内容和第二类包含歧视性内容的风险属于风险等级更高的风险,是监管的重中之重。
2. 生成式人工智能的监管体系
面对数字化、智能化急剧转型背后的社会关系和理念的全面重组,及由此带来的广泛、深刻和复杂、多变的公共治理挑战,各国都在积极探索治理之道,尝试建立审慎包容的人工智能监管体系。当前,作为全球科技竞争中最为激烈的领域,人工智能的国际竞争早已超越技术和产业的竞争,拓展到人工智能治理的竞争。美国、欧盟、英国、日本、韩国等国家和地区均高度重视人工智能治理优势的塑造,纷纷抢占全球人工智能治理的制高点和主导地位,形成“技术赛道”、“产品赛道”和“制度赛道”多轨并行的新格局。从全球范围来看,人工智能已步入技术发展的“奇点时刻”与人工智能治理的“关键时刻”。[3]
(1)欧盟《人工智能法案》
在人工智能的发展方面,美国、中国处于领先的位置,欧盟有所落后,其竞争重心在于治理规范的制定,试图成为人工智能领域的全球治理主导者。2024年5月21日,欧盟理事会批准了《人工智能法案》(AI Act),这是全球首部人工智能的专门立法,释放出了欧盟将其在人工智能领域的价值观和技术规范投射到全球的强烈信号,体现了欧盟在全球范围内抢占人工智能治理权的战略意图。《法案》对人工智能采取了审慎的立法态度,采取强监管措施以防控人工智能可能产生的结构性风险。《法案》基于人工智能系统对用户和社会的潜在影响程度将其分为四类:不可接受风险类、高风险类、有限风险类、最小风险类,每个类别适用不同程度的监管要求。任何试图操纵人类行为、利用人性弱点或支持政府社会评分的人工智能系统将被视为具有不可接受风险而被严格禁止。对健康、安全、基本权利和法治构成重大威胁的人工智能系统被归为高风险类,在进入市场之前必须接受符合性评估(Conformity Assessments),并满足有关透明度、数据质量、记录保存等监管要求。
《法案》同时从是否具有系统性风险的维度,将通用人工智能[4]模型分为具有系统性风险和不具有系统性风险两类。当一个通用人工智能模型用于训练的累计计算量以每秒浮点运算次数(FLOPs)计大于10^25时,应推定其具有高度影响能力并构成系统性风险。具有系统性风险的通用人工智能模型的提供商应履行额外的风险管理义务,包括进行模型评估以识别和降低系统性风险;确保对具有系统风险的通用人工智能模型和模型的物理基础设施提供适当水平的网络安全保护等。《法案》的违规处罚力度较大,对违反《法案》的处罚金额可高达3,500万欧元或全球年营业额总额的7%之巨,以较高者为准。
欧盟舆论认为,其他国家和地区可能会使用该《法案》作为未来人工智能治理的蓝图,使欧盟成为可信赖人工智能的全球标准制定者,就像欧盟的《通用数据保护条例》(GDPR)所起到的作用一样。但欧盟《人工智能法案》整体而言属于产品安全法范畴,目的是将人工智能系统造成的不利和风险降至最低。《法案》对高风险人工智能系统设置的复杂、昂贵的预防措施,可能导致创新型初创企业的监管负担过重而减缓人工智能的发展,使得只有像谷歌、微软等这样的国际大公司才有能力满足监管要求,从而产生对中小企业的挤出效应,或者扩大它们对中小企业的领先优势。[5]当然,在全球科技竞争的背景下,也存在一些国家主动削弱监管以获得经济竞争优势的情形。
(2)我国的生成式人工智能监管体系
自2022年初以来,我国陆续发布算法推荐、深度合成与生成式人工智能服务相关的规范文件,初步构建起对生成式人工智能技术与服务的监管机制。其中,2023年8月15日发布的《生成式人工智能服务管理暂行办法》,是全球首部正式发布、实施的专门的生成式人工智能法规,较为系统地提出了生成式人工智能服务的合规义务。另外,我国也制定了《人工智能法草案》,且2023、2024连续两年被列入国务院立法工作计划预备提请全国人大审议。
目前,目前我国生成式人工智能监管的基本框架主要包括以《生成式人工智能服务管理暂行办法》(以下有时简称“《暂行办法》”)为核心的以下法规和标准,具体如下:
其中,《生成式人工智能服务安全基本要求》(以下简称“《基本要求》”)作为全国网络安全标准化技术委员会发布的技术文件,并非有强制力的立法,也非国家标准,但在进行正式立法之前,其内容实际被作为执法监管的标准。《基本要求》提供了开展安全评估的具体评估要求、标准,开展大模型备案时应当执行,事实上具有准强制力。
此外,《个人信息保护法》、《数据安全法》、《网络安全法》等法律,为个人信息保护、数据安全、网络安全等提供了基础性规范,这些基础性规范在从事生成式人工智能服务业务时仍然是适用的,服务提供者必须高度重视网络安全、数据安全和个人信息保护的合规问题。
二. 互联网信息服务相关业务资质
生成式人工智能服务通常进行云端部署,以提供互联网信息服务的方式提供服务,属于典型的互联网信息服务产品,应当取得与互联网信息服务相关的业务资质。[6]
1.互联网信息服务许可/备案(ICP许可/备案)
《互联网信息服务管理办法》第3条规定,互联网信息服务分为经营性和非经营性两类。经营性互联网信息服务是指通过互联网向上网用户有偿提供信息或者网页制作等服务活动,非经营性互联网信息服务是指通过互联网向上网用户无偿提供具有公开性、共享性信息的服务活动;第4条规定,国家对经营性互联网信息服务实行许可制度,对非经营性互联网信息服务实行备案制度,未取得许可或备案的,不得从事互联网信息服务。生成式人工智能企业通过互联网的方式将生成的内容提供给用户的,属于通过互联网向用户提供信息服务的活动,应当取得ICP许可或备案。
《互联网信息服务管理办法》没有对经营性或非经营性互联网信息服务的认定、区分提供具体的指引。如果生成式人工智能企业以营利为目的,通过向上网用户收费或者以电子商务、广告、赞助等方式获取利益,提供生成式人工智能服务的,应当考虑可能构成经营性互联网信息服务,应当在网站完成ICP备案后,进一步办理经营性ICP许可证。[7]
通过移动互联网应用程序(含小程序、快应用等,以下简称“APP”)提供生成式人工智能服务的,根据工业和信息化部《关于开展移动互联网应用程序备案工作的通知》,从事互联网信息服务的APP主办者,应当依照《反电信网络诈骗法》、《互联网信息服务管理办法》等规定履行备案手续,未履行备案手续的,不得从事APP互联网信息服务。[3]APP主办者应当向其住所地省级通信管理局履行备案手续,由其网络接入服务提供者、APP分发平台通过“国家互联网基础资源管理系统”(即ICP/IP地址/域名信息备案管理系统),采取网上提交申请、查验审核方式进行。
2. 公安联网备案
根据《计算机信息网络国际联网安全保护管理办法》等相关规定,使用计算机信息网络国际联网的法人和其他组织,应当自网络正式联通之日起30日内,到公安机关办理联网备案手续。
生成式人工智能企业通常需要接入互联网,通过互联网向境内用户提供信息服务,应在网站/App在工信部进行ICP备案成功后,到公安机关办理联网备案。网站/App虽然部署在非中国内地的服务器上,但可以在中国内地访问该网站/App的,也须办理公安联网备案。公安联网备案非工信部ICP备案,在中国境内从事生成式人工智能服务的企业,无论网站/App部署在中国内地或非中国内地的服务器上,只要在中国境内可访问该网站/App服务,均需进行公安联网备案。
3. 互联网文化、出版、视听节目服务资质
利用生成式人工智能提供生成文本、图片、音频、视频等内容的服务,可能构成网络出版服务、网络文化活动和网络视听节目服务,应取得相应的业务资质。[9]
(1) 《网络出版服务许可证》
根据《网络出版服务管理规定》的规定,从事网络出版服务,必须依法经过出版行政主管部门批准,取得《网络出版服务许可证》。网络出版服务,是指通过信息网络向公众提供网络出版物。网络出版物,是指通过信息网络向公众提供的,具有编辑、制作、加工等出版特征的数字化作品,范围主要包括:(1)文学、艺术、科学等领域内具有知识性、思想性的文字、图片、地图、游戏、动漫、音视频读物等原创数字化作品;(2)与已出版的图书、报纸、期刊、音像制品、电子出版物等内容相一致的数字化作品;(3)将上述作品通过选择、编排、汇集等方式形成的网络文献数据库等数字化作品;(4)国家新闻出版广电总局认定的其他类型的数字化作品。
根据上述规定,需要取得《网络出版服务许可证》的应当是向公众提供符合知识性、思想性、原创性三性的数字化作品,与已出版的作品内容相一致的数字化作品及将上述作品汇编形成的网络文献数据库等数字化作品等。人工智能自动生成物,并非与已出版的作品内容相一致的数字化作品。符合知识性、思想性、原创性三性的数字化作品,按照一般理解,应该是具有可版权性、享有著作权保护的文字、图片、游戏、动漫、音视频读物等原创数字作品,人工智能自动生成物是否符合三性要求并具有可版权性、享有著作权保护,需要具体判断,通常而言是不具备的,可参考本文第三篇“知识产权篇”之“人工智能生成物的可版权性及著作权保护”一节。另外,生成式人工智能企业响应用户特定的服务需求,点对点地向用户提供特定生成物,是否构成向“公众”提供,也有待监管部门进一步明确。
部分在线教育企业在招股说明书中披露,经与相关监管部门访谈确认,开展在线培训服务过程中通过线上平台向培训对象提供音视频,无需取得《网络出版服务许可证》。我们认为,在相关监管部门进一步明确之前,生成式人工智能企业向个别用户定向提供不具备知识性、思想性、原创性三性要求的文本、图片、游戏、动漫、音视频等生成物,暂不需要取得《网络出版服务许可证》。
(2) 《网络文化经营许可证》
根据《互联网文化管理暂行规定》的规定,从事音乐娱乐、动漫等经营性互联网文化活动的企业应当申请《网络文化经营许可证》。经营性互联网文化活动是指以营利为目的,通过向上网用户收费或者以电子商务、广告、赞助等方式获取利益,提供互联网文化产品及其服务的活动。根据该《规定》第2条,互联网文化产品是指通过互联网生产、传播和流通的文化产品,主要包括专门为互联网而生产的网络音乐娱乐、网络游戏、网络演出剧(节)目、网络表演、网络艺术品、网络动漫等互联网文化产品;以及,将音乐娱乐、游戏、演出剧(节)目、表演、艺术品、动漫等文化产品以一定的技术手段制作、复制到互联网上传播的互联网文化产品。
根据文化和旅游部办公厅《关于调整<网络文化经营许可证>审批范围 进一步规范审批工作的通知》,调整后的《网络文化经营许可证》审批范围包括:网络音乐、网络演出剧(节)目、网络表演、网络艺术品、网络动漫和展览、比赛活动。其中,网络表演指以网络表演者个人现场进行的文艺表演活动等为主要内容,通过互联网、移动通讯网、移动互联网等信息网络,实时传播或者以音视频形式上载传播而形成的互联网文化产品。电商类、教育类、医疗类、培训类、金融类、旅游类、美食类、体育类、聊天类等直播不属于网络表演。网络演出剧(节)目指在舞台场景下现场进行的文艺表演活动等为主要内容,通过互联网、移动通讯网、移动互联网等信息网络,实时传播或者以音视频形式上载传播而形成的互联网文化产品。网络艺术品指艺术创作者通过数字化手段创作,通过互联网、移动通讯网、移动互联网等信息网络传播,具有一定艺术价值和审美意义的互联网文化产品。网络动漫指通过互联网、移动通讯网、移动互联网等信息网络传播的闪客动画(Flash动画)、在线漫画等互联网文化产品。
生成式人工智能服务通过人工智能自动生成图片、音视频等,通常并不录制、传播表演者个人现场进行的文艺表演活动,或者在舞台场景下现场进行的文艺表演活动,不属于需要取得《网络文化经营许可证》的网络表演或网络演出剧(节)目。该《通知》明确规定了电商类、教育类、医疗类、培训类、金融类、旅游类、美食类、体育类、聊天类等直播不属于网络表演,因此,通过人工智能自动生成方式进行上述类别的直播,也不需要取得《网络文化经营许可证》。但是,人工智能自动生成的具有一定艺术价值和审美意义的图像等艺术品,是否构成用户通过数字化手段创作的艺术品,以及,通过互联网、移动互联网等信息网络传播人工智能自动生成的动漫,是否构成网络动漫,并应取得《网络文化经营许可证》,需要具体判断。我们认为,在相关监管部门进一步明确之前,如生成式人工智能企业不以经营网络文化产品为目的,其产品的主要功能不是提供网络表演、网络音乐、数字艺术品等网络文化产品,仅具备虚拟人物表演等网络表演的小模块或者有零星的网络文化产品功能的,暂不需要办理《网络文化经营许可证》。
(3) 《信息网络传播视听节目许可证》
根据《互联网视听节目服务管理规定》的规定,从事互联网视听节目服务,应当取得《信息网络传播视听节目许可证》。该《规定》所定义的互联网视听节目服务,是指制作、编辑、集成并通过互联网向公众提供视音频节目,以及为他人提供上载传播视听节目服务的活动。但是,该《规定》又将申请从事互联网视听节目服务的主体限制为国有独资或国有控股单位,大量的生成式人工智能企业是民营的,不具备申请该证的条件。[10]
2016年12月16日,原国家新闻出版广电总局发布了《关于加强微博、微信等网络社交平台传播视听节目的管理规定》。根据该《管理规定》,利用微博、微信等各类社交应用开展互联网视听节目服务的网络平台,应当取得《信息网络传播视听节目许可证》,其他机构和个人使用微博账号、微信公众号等各类社交应用开展互联网视听节目服务,应由网络平台作为该项服务的开办主体,履行内容把关等各项管理责任,节目范围不得超出平台自身许可证载明的业务范围。因此,通常而言,发布人工智能自动生成的音视频作品的网络平台应当有《信息网络传播视听节目许可证》,非社交网络平台的生成式人工智能企业自身不需要取得该证。
但是,某线上教育公司的招股说明书披露,由于视听节目服务的定义较为模糊,尚不确定线上培训过程中通过互联网向培训对象提供与培训课程相关的视音频节目是否属于该《管理规定》定义的互联网视听节目服务。由于未取得《信息网络传播视听节目许可证》,该公司于2019年被有关部门处以人民币3千元罚款,但经与相关监管部门访谈确认,监管部门不会因为该公司无《信息网络传播视听节目许可证》而要求其终止提供与培训课程相关的音视频。因此,生成式人工智能企业如果在互联网平台上发布人工智能自动生成的音视频,通过互联网实时播出供公众收看或者供公众在网上点播,可能构成从事互联网视听节目服务的,应当对照《互联网视听节目服务业务分类目录(试行)》,并咨询广电主管部门的意见,确认是否应当取得《信息网络传播视听节目许可证》。在相关监管部门进一步明确之前,生成式人工智能企业向个别用户定向提供自动生成的音视频,未通过互联网实时播出供公众收看或者供公众在网上点播的,暂不需要取得《信息网络传播视听节目许可证》。
三. 有关算法、模型的监管要求
在人工智能时代,算法逐渐脱离了纯粹的工具性角色而有了自主性和认知特征,甚至具备了自我学习能力。算法对现实社会和个人发生效用的流程,在算法设计、算法应用和部署之外,增加了算法决策本身。智能算法的自主决策,使得算法从提高效率的“工具”上升为“决策者”,且算法作为决策者,其决策原因和推理过程对人类而言处于黑箱之中。[11]因此,在生成式人工智能的监管中,算法、模型本身成了规制对象,主要的监管要求则是备案。算法、模型备案与算法透明的科技伦理要求和网络信息内容生态治理相关[12],是最具生成式人工智能行业特色的监管要求。没有进行算法、模型备案的,相关应用程序可能被采取不予上架、暂停服务或者下架等处置措施,因此,算法、模型备案也是影响生成式人工智能企业持续经营的市场准入型监管要求。
1. 算法备案
《互联网信息服务算法推荐管理规定》(以下简称“《算法推荐管理规定》”)第2条、第24条、第31条规定,应用算法推荐技术提供互联网信息服务,是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息。具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。
《互联网信息服务深度合成管理规定》(以下简称“《深度合成管理规定》”)第19条、第13条规定,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《算法推荐管理规定》履行备案和变更、注销备案手续;互联网应用商店等应用程序分发平台应当核验深度合成类应用程序的安全评估、备案等情况,对违反国家有关规定的,应当及时采取不予上架、警示、暂停服务或者下架等处置措施。根据该《规定》第2条的规定,深度合成技术,是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术,包括但不限于:(1)篇章生成、文本风格转换、问答对话等生成或者编辑文本内容的技术;(2)文本转语音、语音转换、语音属性编辑等生成或者编辑语音内容的技术;(3)音乐生成、场景声编辑等生成或者编辑非语音内容的技术;(4)人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等生成或者编辑图像、视频内容中生物特征的技术;(5)图像生成、图像增强、图像修复等生成或者编辑图像、视频内容中非生物特征的技术;(6)三维重建、数字仿真等生成或者编辑数字人物、虚拟场景的技术。
生成式人工智能技术通常包含了生成合成类算法,其中具有舆论属性或社会动员能力的,应当按照《算法推荐管理规定》和《深度合成管理规定》的规定进行算法备案。根据《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》,具有舆论属性或社会动员能力主要是指开办论坛、博客、微博客、聊天室、通讯群组、公众账号、短视频、网络直播、信息分享、小程序等信息服务或者附设相应功能,以及开办提供公众舆论表达渠道或者具有发动社会公众从事特定活动能力的其他互联网信息服务。可见,具有短视频、网络直播、信息分享、小程序等信息服务功能的生成式人工智能服务均被视为具有媒体属性,具有提供公众舆论表达渠道或者社会动员功能,均应进行算法备案。一些生成式人工智能企业认为其生成的短视频、所提供的小程序或所从事的网络直播系用于商业活动,或者仅面向B端企业客户提供算法技术服务而不直接面向C端公众用户提供服务,因此不具有舆论属性或者社会动员能力的观点不符合法律法规的规定。
2. 大模型备案(“生成式人工智能服务备案”)
生成式人工智能建立在各种大模型的基础上。生成式人工智能中的模型、大模型或“基础模型” 区别于普通的计算机模型,是一种基于海量数据(文本、图像、音视频或多种数据类型的混合)进行大规模训练的复杂的机器学习系统,是用于普适性目标、可优化适配多种下游任务的深度神经网络模型。对基于深度合成算法,具有舆论属性或社会动员能力的生成式人工智能服务,《暂行办法》在《算法推荐管理规定》、《深度合成管理规定》规定的安全评估和算法备案的基础上,另外提出了生成式人工智能大模型的安全评估和备案要求,形成了“深度合成服务算法备案”(“算法备案”)和“生成式人工智能服务备案”(“大模型备案”)双备案的监管架构。在实务中,监管部门对需备案的大模型认定的范围非常广,只要有可能对不特定用户提供服务,有用户交互(对话框)的,都会落入此范围并要求备案。根据国家网信办发布的《生成式人工智能服务已备案信息》,截至2024年4月初,已有117个“大模型”取得了网信部门的备案。
值得注意的是,算法备案和大模型备案都在网信部门,但算法在国家网信办备案,大模型在地方网信办(省一级)备案。与算法备案主要填报算法原理、算法属性等技术信息不同,大模型备案要复杂得多,更强调通过算法、模型安全确保生成内容安全,防止产生违法不良信息。2024年3月1日,全国网络安全标准化技术委员会发布了《生成式人工智能服务安全基本要求》(“《基本要求》”),服务提供者在按照有关要求履行备案手续时,应按照该文件的要求进行安全评估,安全评估应覆盖该文件的所有技术条款,包括语料安全、模型安全、安全措施等,且每个条款应形成单独的评估结果。[13]《基本要求》的主要监管要求参见本文第二篇“数据/语料和生成内容安全篇”有关训练数据/语料安全、模型安全和安全措施、安全评估的章节。
《基本要求》要求服务提供者基于第三方基础模型提供服务的,应使用已经主管部门备案的基础模型。若基础模型未经主管部门备案,境外生成式人工智能服务提供者不应直接向境内公众提供服务,境内服务提供者不应通过接入境外API接口的方式向境内用户提供服务。
3. 算法说明和模型优化义务
算法说明义务是指根据《暂行办法》第19条的规定,有关主管部门依据职责对生成式人工智能服务开展监督检查时,提供者应当披露算法的机制机理,按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明。模型优化义务是指根据《暂行办法》第14条的规定,提供者发现违法内容时,除应当及时采取停止生成、停止传输、消除等处置措施外,还应当采取模型优化训练等措施进行整改。
四. 生成式人工智能开发和服务的跨境监管
1. 中国对人工智能技术的出口管制
在生成式人工智能服务提供者向境外个人或实体提供服务的情况下,可能存在人工智能相关技术被列入限制出口目录的情形。根据《中国禁止出口限制出口技术目录》(2023版),涉及人工智能相关技术出口管制的主要在该《目录》限制出口部分“软件和信息技术服务业”之“信息处理技术”(编号:086501X)项下,包括“16.专门用于汉语及少数民族语言的人工智能交互界面技术”和“18.基于数据分析的个性化信息推送服务技术(基于海量数据持续训练优化的用户个性化偏好学习技术、用户个性化偏好实时感知技术、信息内容特征建模技术、用户偏好与信息内容匹配分析技术、用于支撑推荐算法的大规模分布式实时计算技术等)”等。向境外个人或实体提供生成式人工智能服务涉及上述技术的,需注意技术出口管制的问题,取得商务部门颁发的技术出口许可证后方能提供相关服务。
2. 美国对中国企业使用美国云计算训练人工智能实施的限制
算力是指计算机处理数据的能力,是支撑数据和算法运行的平台,与算法、数据一起构成人工智能的三大基石。随着数据量的爆炸式增长和算法复杂程度的不断提高,人工智能对算力的需求也在不断增加。由于美国对中国实施人工智能芯片出口管制,导致我国人工智能企业算力不足,部分企业转而通过购买Azure、AWS等海外云计算服务的方式解决算力瓶颈。2024年1月,美国商务部发布了IaaS云服务相关客户识别拟议规则(Taking Additional Steps To Address the National Emergency With Respect to Significant Malicious Cyber-Enabled Activities, a Proposed Rule by the Commerce Department on 01/29/2024)[14],向公众征求意见。该规则要求美国IaaS提供商通过实施客户身份验证程序(Customer Identification Programs, CIP)并在满足相关条件时向美国商务部报告外国客户的详细身份信息和人工智能大模型训练活动情况,来限制外国客户尤其是中国客户使用美国云计算厂商的服务来训练其人工智能大模型。该规则生效后,将封堵中国企业通过美国企业的云计算服务绕过当前的人工智能芯片出口管制规定的漏洞,中国的人工智能企业获取训练其大模型所需的算力将更加困难。该规则征求公众意见的截止日为2024年4月29日,但截至目前,该规则尚未正式颁布、生效。
3. 生成式人工智能服务出海的境外监管——以欧盟《人工智能法案》为例
中国的生成式人工智能服务正在加速出海,一方面是其所服务的用户正在加速出海,需要在境外场景下为用户提供服务,另一方面是中国的生成式人工智能技术在很多方面处于领先的地位,国外客户对中国人工智能技术的接受度越来越高,第三是欧美等成熟海外市场的用户付费意愿更高、活跃程度更好,对中国企业有吸引力。
以欧盟《人工智能法案》为例,该《法案》目前已颁布,自颁布之日起6至36个月内分阶段、分步骤实施,中国的生成式人工智能服务出海欧盟国家的,应对照该《法案》,审慎评估、积极应对相关监管要求对其业务的影响。
首先,应结合产品的应用场景判断风险级别,例如,涉及医疗健康或者汽车智能驾驶、智能座舱的人工智能,应判断是否对健康、安全、基本权利等构成重大威胁而被认为属于高风险类人工智能,涉及电子商务的人工智能算法,应判断是否用于消费者行为和心智操控、利用人性弱点等情形而被视为具有不可接受风险而被严格禁止。
其次,通用人工智能模型应履行相关披露和透明度要求、撰写并公开发布训练数据集的详细摘要、遵守欧盟版权法等规定。对计算量较大的模型,应当判断是否可能被判定为具有系统性风险,并履行开展模型评估以识别和减轻可能的系统性风险、确保足够的网络安全保护水平、向监管机构报告重大事件等义务。
第三,在数据处理和个人信息保护方面,应遵守欧盟《通用数据保护条例》(GDPR)的规定。
第四,需要使用欧盟的数据训练模型的企业应当注意,我国的生成式人工智能监管对模型训练过程中使用受著作权保护的文本、图像等数据,只是简单地要求应使用具有合法来源的数据,涉及知识产权的,不得侵害他人依法享有的知识产权,并未严格要求获得著作权人的明确同意或授权后方可使用。[15]从司法实践的角度看,在广州互联网法院判决的全球首例生成式人工智能服务侵犯著作权案[16]中,原告上海新创华文化发展有限公司只是从被告广州某网络科技公司生成的图像与原告受著作权保护的奥特曼图片实质相似,产生了侵犯原告著作权的后果的角度起诉,并未对被告未经原告同意或授权许可使用其受著作权保护的奥特曼图像作为训练素材/数据训练模型,并要求禁止被告未经授权许可使用奥特曼图像训练模型的行为的角度起诉。[17]但在境外市场除日本以外的其他国家和地区,一般均要求应获得著作权人的同意或授权后方可使用。换言之,使用未获授权的作品训练模型,即使未产生与受著作权保护的作品实质相似的侵权作品也是违法的,应承担相应的侵权责任。[18]以欧盟《人工智能法》为例,该《法案》在有关的立法说明和条款中明确,在人工智能系统开发、训练等领域出现的著作权问题应当在欧盟著作权制度的框架下解决,通用人工智能模型的提供者在开发、训练模型的过程中,对著作权法保护客体的任何使用,除少数例外情形外,都需要取得授权。因此,我国的生成式人工智能企业在出海后,在使用受境外著作权法保护的语料/数据训练模型的过程中,应遵守欧盟等目的地国家和地区的著作权法,未经著作权人的许可或授权同意,不应使用受著作权保护的训练语料/数据。
本篇从总体上概览了生成式人工智能的主要风险和监管体系,主要阐述了生成式人工智能企业的业务资质要求和对算法、模型的监管要求,下一篇具体阐述有关数据/语料和生成内容安全方面的合规要求。
注释
[1] https://www.ibm.com/cn-zh/topics/generative-ai
[2] 见《生成式人工智能服务管理暂行办法》第2条、第22条,及《生成式人工智能服务安全基本要求》之“术语和定义”。
[3]《全球人工智能治理的格局、特征与趋势洞察》,张欣、宋雨鑫,原文载 《数字法治》2024年第1期,https://mp.weixin.qq.com/s/Bo5Ww14nMrwhZnu9EXgj8g
[4] 传统的人工智能是为有限的特定任务而设计的。这些模型通常由人工设计,从数据收集、数据建模到部署要经过很多步骤,这些步骤被称为机器学习(ML)生命周期。这些模型通常局限于所训练的特点任务,缺乏泛化能力,无法执行未见过的任务。通用人工智能系统(GPAIS)则能解决不止一项任务且无需专门为它们设计,能泛化到未见过的任务中。当前最有代表性的通用人工智能就是大型语言模型,如GPT-4。欧盟《人工智能法案》对通用人工智能的定义如下:通用人工智能系统由提供者(provider)设计,可执行图像和语音识别、音频和视频生成、模式检测、问题解答、翻译等普遍适用的功能;通用人工智能系统可在多种情况下使用,并可集成到多个其他人工智能系统中。
[5] 《<欧盟人工智能法案>的背景、主要内容与评价——兼论该法案对劳动法的影响》 , 原著:沃尔夫冈·多伊普勒(Wolfgang Däubler),译者:王倩,原文载《环球法律评论》2024年第3期,https://mp.weixin.qq.com/s/gp0cTsHTXGcWl51T14lgVA
[6] 只进行私有化部署的除外。
[7] 参考《互联网文化管理暂行规定》关于经营性互联网文化活动和非经营性互联网文化活动的规定。
[8] 根据工信部的相关咨询答复意见,单机(不联网)的APP不需要履行APP备案手续。https://bzxx.miit.gov.cn/bzxx/reply/detail?id=ff8080818dd52641018ddeecde6e0546&appellateId=ff8080818dd52641018ddeecde6e0546
[9] 《互联网信息服务深度合成管理规定》第24条规定,深度合成服务提供者和技术支持者从事网络出版服务、网络文化活动和网络视听节目服务的,应当同时符合新闻出版、文化和旅游、广播电视主管部门的规定。
[10] 字节跳动于2017年2月通过收购山西一家名为运城阳光文化传媒有限公司的网站,曲线获得广电总局和工信部颁发的《信息网络传播视听节目许可证》。见《今日头条拿下网络视听许可牌照:收购持牌公司山西运城阳光》,澎湃新闻记者包雨朦,2017-02-06 ,来源:澎湃新闻https://m.thepaper.cn/newsDetail_forward_1612900
[11] 张凌寒,《算法规制的迭代与革新》,《法学论坛》2019年第2期(第34卷,总第182期)。
[12] 《网络信息内容生态治理规定》第12条规定,网络信息内容服务平台采用个性化算法推荐技术推送信息的,应当设置符合该《规定》要求的推荐模型。
[13] 例如,北京市网信办在一篇题为“北京市网信办开通生成式人工智能服务备案咨询电话”的微信公众号文章中提示,进行生成式人工智能服务备案有关语料安全、模型安全、安全措施、安全自评估等具体要求详见全国网络安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》(TC260-003)。https://mp.weixin.qq.com/s/Cns72xS8v3PQmZRWb3OsKg
[14] https://www.federalregister.gov/documents/2024/01/29/2024-01580/taking-additional-steps-to-address-the-national-emergency-with-respect-to-significant-malicious
[15] 参见本文第二篇“数据/语料和生成内容安全篇”之“有关训练数据/语料的合规要求”一节的相关内容。
[16] 2024)粤0192民初113号)。
[17] 参见本文第三篇“知识产权篇”之“人工智能生成物侵犯他人著作权”一节的相关内容。
[18] 李陶,《欧盟<人工智能法>公布最终完整版本——对我国未来制度创新有哪些启示》,《中国新闻出版广电报》2024年7月18日,https://epaper.chinaxwcb.com/epaper/2024-07/18/content_99845392.html
(来源:云上锦天城)