来源:云上锦天城,作者:肖海龙 张克江
本文第一篇从总体上概览了生成式人工智能的主要风险和监管体系,阐述了生成式人工智能企业的业务资质要求和对算法、模型的监管要求,第二篇具体阐述了数据/语料和生成内容安全方面的合规要求,本篇具体讨论生成式人工智能企业的知识产权保护和与知识产权相关的风险。
十二. 知识产权保护
1.算法的知识产权保护
(1)算法的专利保护
对于生成式人工智能涉及的算法的可专利性,根据《专利法》第25条第一款第(二)项的规定,智力活动的规则和方法不能获得专利。算法作为一种数学运算模型,可能被视为抽象的智力活动的规则和方法而不具备可专利性。但是国家知识产权局于2019年12月31日发布的《关于修改<专利审查指南>的公告》(第343号)在《专利审查指南》第二部分第九章增加了第6节“包含算法特征或商业规则和方法特征的发明专利申请审查相关规定”,对涉及人工智能、“互联网+”、大数据以及区块链等包含算法或商业规则和方法等智力活动的规则和方法特征的发明专利申请作出指引,允许符合该《指南》要求的人工智能算法获得专利授权。
根据修订后的《专利审查指南》,如果权利要求涉及抽象的算法或者单纯的商业规则和方法,且不包含任何技术特征,则这项权利要求属于智力活动的规则和方法,不应当被授予专利权。例如,一种基于抽象算法且不包含任何技术特征的数学模型建立方法,或者,一种根据用户的消费额度进行返利的方法,该方法中包含的特征全部是与返利规则相关的商业规则和方法特征,不包含任何技术特征,均属于专利法第25条第一款第(二)项规定的不应当被授予专利权的情形。但是,如果权利要求中除了算法特征或商业规则和方法特征,还包含技术特征,记载了对要解决的技术问题采用了利用自然规律的技术手段,并且由此获得符合自然规律的技术效果,则该权利要求限定的解决方案可以授予专利。例如,如果权利要求中涉及算法的各个步骤体现出与所要解决的技术问题密切相关,如算法处理的数据是技术领域中具有确切技术含义的数据,算法的执行能直接体现出利用自然规律解决某一技术问题的过程,并且获得了技术效果,则通常该权利要求限定的解决方案属于专利法第2条第二款所述的技术方案,可以授予专利。
因此,若需获得算法模型的专利保护,生成式人工智能企业在申请专利的过程中,应抛弃单纯的算法思维,尽可能地体现算法的技术特征,将算法与实际解决的技术问题相结合,体现算法步骤的执行能够采用具有自然规律的技术手段,解决具体技术领域的具体技术问题,并形成具体的技术效果。
2024年7月3日,世界知识产权组织(WIPO)发布了《生成式人工智能专利态势报告》。报告显示,自2014年至2023年的十年间,全球与生成式人工智能相关的发明申请量达54,000件,其中中国申请的生成式人工智能专利数量最多,达3.8万件,居世界首位,远远超过美国、韩国、日本和印度等其他国家和地区。在排名前十的生成式人工智能专利申请机构中,来自中国的腾讯、平安保险集团、百度和中国科学院分别名列第一至第四名。尽管如此,从实操层面看,当前人工智能算法模型获得专利授权的情形仍然比较少见,初创型、中小型生成式人工智能企业获得算法模型的发明专利或实用新型专利保护仍然是比较困难的。
(2)算法的软件著作权保护
人工智能算法获得软件著作权保护相对容易,初创型、中小型生成式人工智能企业通常大量地登记软件著作权。但软件著作权保护的只是计算机程序及其技术文档的表达形式,即保护语句序列或指令序列的表达以及有关软件的文字说明表达,而不保护其思想、算法和技术方案。因此,软件著作权对算法的保护是不充分的,当侵权者绕开算法的“代码表现形式”,而采用其他代码编译相同“算法”时,即可绕开著作权保护,损害生成式人工智能技术开发者的权益和竞争优势。
2. 人工智能生成物的可版权性和著作权保护
生成物的可版权性是一个极有争议的问题。生成物的表达主要来源于人工智能,在表达由人工智能而非人贡献的情况下,人工智能生成物不具有可版权性。美国版权局(U.S. Copyright Office)在数个案件中持这一观点。我国的权威法学理论和以北京互联网法院判决的生成式人工智能可版权性第一案为代表的司法实践,则支持生成物可以构成作品。
(1)我国的理论和司法实践
吴汉东教授认为,人工智能生成作品著作权的核心规范内容包括:(1)独创性标准。即创作的独立性和原创性不以自然人人格为基础,但须有人类作者对人工智能作品的介入;(2)作者身份认定。在人机合作的情景下,承认拟制作者即人工智能的创作主体身份,以及与人类作者共同创作作品即合作作品的创作事实;(3)人的主体要素构成。确认人对作品的必要介入,即达到决定作品本质属性的贡献程度;(4)著作权归属。根据“创作主义”或“投资主义”原则,将著作权分配给有意思能力和责任能力的自然人或法人。[26]
北京互联网法院2023年底判决的全国首例生成式人工智能生成图片著作权案[27]体现了上述思想。该案原告使用开源软件Stable Diffusion,通过输入提示词和相关参数的方式生成了涉案图片后以“春风送来了温柔”为名发布在“小红书”平台。被告将涉案图片作为题为《三月的爱情,在桃花里》的文章配图,截去水印,发布在“百家号”平台上。涉案图片的生成过程如下:
(a)原告下载Stable Diffusion模型,随后在正向提示词与反向提示词中分别输入数十个提示词,设置迭代步数、图片高度、提示词引导系数以及随机数种子,生成第一张图片。
(b)在上述参数不变的情况下,将其中一个模型的权重进行修改,生成第二张图片。
(c)在上述参数不变的情况下,修改随机种子生成第三张图片。
(d)在上述参数不变的情况下,增加正向提示词内容,生成第四张图片(即涉案图片)。
北京互联网法院的裁判观点如下:
首先,涉案图片符合作品的定义,属于作品。涉案图片是以线条、色彩构成的有审美意义的平面造型艺术作品,体现出了与在先作品的可以识别的差异性,属于美术作品,受到著作权法的保护。从涉案图片生成过程来看,原告通过提示词对人物及其呈现方式等画面元素进行了设计,通过参数对画面布局构图等进行了设置,体现了原告的选择和安排。另一方面,原告通过输入提示词、设置相关参数,获得了第一张图片后,继续增加提示词、修改参数,不断调整修正,最终获得涉案图片,这一调整修正过程体现了原告的审美选择和个性判断,体现了原告的智力投入,因此涉案图片具备“智力成果”要件。
其次,涉案作品的权利归属于使用人工智能模型的人,而非人工智能模型本身或人工智能模型的开发设计者。就涉案作品的权利归属而言,《著作权法》规定,作者限于自然人、法人或非法人组织,因此人工智能模型本身无法成为我国《著作权法》规定的作者。原告为根据需要对涉案人工智能模型进行相关设置并最终选定涉案图片的人,涉案图片是基于原告的智力投入直接产生,而且体现出原告的个性化表达,因此原告是涉案图片的作者,享有涉案图片的著作权。同时,人工智能模型的开发设计者只是创作工具的生产者,“既没有创作涉案图片的意愿,也没有预先设定后续生成内容”;且涉案人工智能模型的设计者在其提供的许可中放弃对输出内容主张相关权利。因此,涉案人工智能模型的设计者并非诉争图片的作者。[28]
(2) 美国的司法和行政案例
美国版权局对人工智能生成物的可版权性及著作权保护持完全相反的观点。Jason Michael Allen使用生成式人工智能绘图工具Midjourney生成了一张名为Théâtre D'opéra Spatial(法语,意为“太空歌剧院”)的图片,在Midjourney上至少进行了 624 次的提示词输入和修改(text prompts and input revisions)得到图像的初始版本(以下左图“Midjourney Image”),之后又用Adobe Photoshop修复瑕疵,并使用 Gigapixel AI 增加了尺寸和分辨率,得到终图(以下右图“The Work”)。该图参加了 2022 年科罗拉多州博览会年度美术大赛,获得“数字艺术/数字修饰照片”类奖项(The image won the 2022 Colorado State Fair's annual fine art competition in the in the “digital art/ digitally manipulated photography” category),是最早获奖的人工智能生成图像之一。
美国版权局认为,尽管用户进行了624次的提示词输入和修改,但最终的结果仍取决于Midjourney系统如何处理人类的提示,在这个过程中人类对人工智能的生成结果没有控制作用,起主要作用的仍然是人工智能技术,即“传统作者元素”(traditional elements of authorship)是由技术决定和执行的,而非人类用户,人类用户的行为没有对图像元素构成“创意控制”(creative control),因此不满足原创性和人类作者身份要求(Originality and the Human Authorship Requirement),不构成作品,不能得到著作权保护。[29]
在另一起案例中,哥伦比亚特区地方法院首先否认了生成式人工智能本身的著作权,进而否认生成式人工智能用户的著作权。在该案中,原告Stephen Thaler拥有名为“Creativity Machine”的计算机系统,用该系统生成了一幅名为“A Recent Entrance to Paradise”的图像作品(见下图),并向美国版权局申请版权注册。在申请中,原告将Creativity Machine列为作者,并通过普通法(common law)上的财产转移规则和版权法上的雇佣作品规则(work-for-hire)使自己成为著作权人(Copyright Claimant)。申请被美国版权局驳回后,原告向哥伦比亚特区地方法院起诉了版权局官员,法院判决维持了美国版权局的决定,认为人类作者身份是版权保护的基本要求(human authorship is a bedrock requirement of copyright),非人类作者不是美国版权的保护对象。由于计算机系统在生产图像时未产生有效的版权,因此无须再考虑后续的版权转移归原告所有的问题。[30]
3.人工智能生成物的著作权归属
人工智能生成物由人工智能和用户共同生成,是人机合作的产物。如本文“人工智能生成物的可版权性和著作权保护”一节所述,我国权威的知识产权法学者认为,在人机合作的情景下,承认拟制作者即人工智能的创作主体身份,以及与人类作者共同创作作品即合作作品的创作事实,即承认人工智能的作者身份;在著作权的归属上,则根据“创作主义”或“投资主义”原则,将著作权分配给有意思能力和责任能力的自然人或法人。即,在人机合作创作的情景下,人类作者非职务作品的著作权归用户个人,职务作品的著作权归其所属的单位;人工智能作者的著作权则归投资、拥有人工智能系统的人即生成式人工智能企业所有,而非开发、设计人工智能系统的人所有。例如,在腾讯诉网贷之家一案中,腾讯公司使用自行研发的Dreamwriter智能写作助手完成财经报道文章并在腾讯证券网站发表,“网贷之家”网站转载了该文,法院将该文认定为法人作品,将其著作权归属于腾讯,并认定“网贷之家”侵权。[31]
在人机合作,生成式人工智能企业与用户共同享有生成物著作权的情形下,双方可以协议约定著作权的归属。例如,OpenAI的用户服务协议约定,用户享有输入和生成内容的著作权(you retain your ownership rights in Input and own the Output),但OpenAI可以使用用户创建的内容用于开发、改进服务及确保服务安全等(We can use your Content worldwide to develop, and improve our Services, and keep our Services safe),包括训练其人工智能模型,但用户也有权选择不允许OpenAI将其创建的内容用于训练模型(If you do not want us to use your Content to train our models, you have the option to opt-out)[32]。Midjourney的用户服务协议则约定,用户在Midjourney输入的内容和生成内容的著作权均归用户所有(You own all Assets You create with the Services to the fullest extent possible under applicable law, subject to any rights of any third parties),但用户将其著作权永久免费授权给Midjourney使用(You grant to Midjourney a perpetual, worldwide, non-exclusive, royalty-free, copyright license to reproduce, publicly display, and distribute text and image prompts You input into the Services, as well as any Assets produced by You through the Service)。[33]
国内的生成式人工智能企业则通常在其用户协议中约定著作权归生成式人工智能企业所有。例如,文心一言的用户协议约定,百度在服务中提供的内容(包括但不限于文字、图片、图像、音频、视频等)的著作权属于百度所有[1],且未给予用户任何的使用授权或其他选项。根据《著作权法》的规定,受委托创作的作品,著作权的归属由委托人和受托人通过合同约定,没有约定的,著作权属于受托人;合作作品的著作权,由合作作者共同享有,其权利的分配和行使,可以由合作作者协议确定。文心一言的上述约定,直接将生成物的著作权归属于百度,而不与用户共享任何知识产权,用户没有分配和行使生成物著作权的任何空间,似乎不承认人工智能生成物为用户和人工智能人机合作生成,而是建立在用户委托人工智能创作生成的基础上,与我国权威的理论阐述和司法判例不一致。
关于生成式人工智能企业独占生成物著作权的约定尽管不违反法律的规定,但在生成物侵犯他人著作权的情况下,根据“享有权益者自担损害”的权责一致性认定原则,生成式人工智能企业相应也需承担全部的责任。对于一些大量生成图像、视频,生成物的著作权侵权风险较高的生成式人工智能企业来说,作类似的约定可能增大其产品的著作权侵权风险及企业的合规风险。
十三. 知识产权侵权和其他侵权风险
1. 算法的软件著作权侵权风险
如本文“算法的知识产权保护”一节所述,算法可以受到计算机软件著作权保护。当前,生成式人工智能企业在算法、模型的开发过程中往往会对已经相对成熟的算法、模型产品进行不同程度的借鉴,可能涉及到模型结构、算法优化、训练方式等多个层面,需要对潜在的著作权侵权风险保持足够的警惕。开发过程中如需借鉴他人的专有软件,则应尽量避免采用逆向工程、反编译等容易触发软件著作权侵权风险的源码溯源措施。
2. 人工智能生成物侵犯他人著作权
目前生成式人工智能领域的版权纠纷,国外大都聚焦于模型训练阶段未经授权的版权利用行为,国内则侧重于生成阶段生成物与受著作权保护的作品高度相似而致侵权的结果行为。据媒体报道,2023年12月27日,美国《纽约时报》对OpenAI和微软提起诉讼,指控这两家公司未经许可使用该报数百万篇文章训练其ChatGPT等人工智能模型,诉状称被告试图搭《纽约时报》的便车,“无偿利用《纽约时报》的内容创建替代产品,并夺走其受众”[35],要求OpenAI和微软销毁包含侵权材料的模型和训练数据,并表示被告应该对与非法复制和使用《纽约时报》作品相关的“数十亿美元的法定和实际损失”负责。本案被认为是迄今为止规模最大、最具代表性和轰动性的生成式人工智能侵权案例。
《纽约时报》在诉状中列举了多个例证,证明ChatGPT输出的内容与《纽约时报》文章的内容高度相似。下图左侧是GPT-4输出的内容,右侧则来自《纽约时报》2019年获得普利策新闻奖的一篇报道。该报道是在对纽约市出租车行业掠夺式贷款事件进行18个月的调查取证、600多次采访、100多次信息公开申请并取得几千页银行内部记录后创作出来的。对二者进行比对发现,红字标示的部分一模一样,二者仅有细微的用字差别,整体高度相似。
(ChatGPT输出的内容与《纽约时报》文章对比,左侧是GPT-4输出的内容,右侧来自《纽约时报》)
2024年2月8日,广州互联网法院作出了全球首例生成式人工智能服务侵犯著作权的判决[36],认为被告广州某网络科技公司在提供服务过程中生成涉案奥特曼图片侵犯了原告上海新创华文化发展有限公司的著作权,具体而言,是在生成阶段侵害了涉案图片的复制权、改编权,但未侵害其信息网络传播权,具体如下:
(1)侵犯复制权
人工智能算法、模型基于训练数据/语料生成与权利人作品基本表达相同或者相似的生成物,与传统的作品复制包括数字化复制行为明显不同,能否被视为一种复制行为?学者认为,因为复制权并未限制复制的具体形式,因此人工智能生成也可以被认为是一种复制。《保护文学和艺术作品伯尔尼公约》和《著作权法》在起草时,并没有预见到生成式人工智能技术的出现,但这并不妨碍复制权涵盖人工智能生成这种复制形式。[37]在“新创华诉广州某网络科技公司案”中,法院支持了原告关于复制权侵权的诉请。
(2)侵犯改编权
当生成物保留了原作品的基本表达,但又与原作品存在实质性区别时,就涉及改编权侵权的问题。在“新创华诉广州某网络科技公司案”中,原告主张涉案部分生成物融合了其作品形象和其他版权人作品形象,例如“奥特曼与美少女战士”的融合,侵害了其改编权。
认定人工智能生成物侵害改编权时,是否应以生成物的可版权性为前提?如果生成物不具有可版权性,生成物不能构成“新作品”,是否就不涉及改编权?《著作权法》第10条定义的改编权为改变作品,创作出具有独创性的新作品的权利。从改编权定义的字面含义来看,要求改编后的生成物可以构成“新作品”,才被视为侵害改编权;而生成物要构成“新”作品,就必然要求生成物可以构成作品,具有可版权性。但在“新创华诉广州某网络科技公司案”中,法院并未论述生成物的可版权性,而是直接认为生成物“在保留该独创性表达的基础上形成了新的特征”,侵害了改编权。学者认为,改编权对独创性的要求及新作品的要求,实质上是为了将改编权与复制权区别开来。从立法原意而言,改编权条款的独创性和新作品要求并不是对“创造主体为人”的要求,而是对改编作品与原作品客观差异的要求。只要生成物在保留原作品基本表达的基础上,在客观上与原作品具有显著差异,同时满足“独创性”中“创”的要求,就可以认为进入了改编权的控制范围,而这并不以认定生成物为作品作为前提。[38]
(3)信息网络传播权侵权问题
根据《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》第3条第二款的规定,侵害信息网络传播权的方式包括 “通过上传到网络服务器、设置共享文件或者利用文件分享软件等方式,将作品、表演、录音录像制品置于信息网络中”。因此,在用户通过传统网络服务获得作品的过程中,侵权人是将作品的数字复制件置于信息网络空间中,然后用户可以通过浏览、下载的方式获得作品的数字复制件。在这个传播过程中,始终有一个数字复制件存在于信息网络,可以进行“一对多”的交互式传播。用户获得的数字复制件与提供端的数字复制件具有严格的对应关系,由提供端的数字复制件经过传输,产生用户端的数字复制件。由于模型并不“存储”作品,所以人工智能并非将一个数字复制件向不特定的用户进行传播,而是每次都根据用户的指令产生新的生成物,每次产生的新生成物往往相互之间还存在不同之处。因此,在用户与人工智能的交互传播过程中,并不始终存在一个数字复制件可供用户获得。用户端所产生的作为数字复制件的生成物,也不是经由训练数据中的作品数字复制件传输而来,而是人工智能模型根据用户指令独立生成。在这个过程中,生成式人工智能服务提供者没有将原作品置于信息网络中的提供行为,从而使得其行为不在信息网络传播权的控制范围内。[3]因此,在“新创华诉广州某网络科技公司案”中,法院没有支持原告关于信息网络传播权侵权的诉请。
3.人工智能生成物著作权侵权责任的归属
如本文“人工智能生成物的著作权归属”一节所述,OpenAI的用户服务协议约定,用户享有输入和生成内容的著作权,相应地,该协议把生成物著作权侵权的责任也分配给了用户(You are responsible for Content)。在此情况下,若生成物侵犯他人著作权,除非生成式人工智能企业收到著作权人的侵权通知后,没有及时采取删除和其他必要措施,才需要承担相应的侵权责任,否则无需承担责任。
国内的生成式人工智能企业则通常在其用户协议中约定著作权归生成式人工智能企业所有,在生成物侵犯他人著作权的情况下,根据“享有权益者自担损害”的权责一致性认定原则,生成式人工智能企业相应也需承担全部的责任。2023年4月11日发布的《生成式人工智能服务管理办法(征求意见稿)》曾经也采取了这一立场,规定生成式人工智能服务提供者应承担产品生成内容生产者的责任(第5条),但正式发布稿删除了“产品生成内容生产者责任”的规定,将其限缩为“网络信息”内容生产者责任和网络信息安全义务(第9条)。
有业者认为,生成物侵犯他人著作权的,生成式人工智能企业作为网络服务提供者可以适用避风港原则(又称为“通知+删除”原则),即收到侵权通知后,及时采取了删除和其他必要措施的,不需要承担赔偿责任。避风港原则详细地规定在《信息网络传播权保护条例》中,根据该《条例》第14、22、23条的规定,避风港原则只适用于没有参与侵权内容制作、生成,不知道也没有合理的理由应当知道侵权事实的存在,仅提供信息存储空间或者提供搜索、链接服务的网络服务提供者。如本文“人工智能生成物的著作权归属”一节所述,人工智能生成物是人机合作或者用户委托人工智能创作生成,难以适用避风港规则免责。尽管如此,收到侵权通知后及时采取删除和其他必要措施,仍是认定生成式人工智能服务提供者是否存在侵权故意,是否承担了停止侵权的责任,并得以减轻或加重其责任的重要情节。
3.人工智能生成物侵犯他人肖像、声音等人格权
在某人工智能生成声音侵权案中,原告为配音师,受某文化传媒公司委托录制了声音作品,录音制品的著作权归文化传媒公司所有。后文化传媒公司将该录音制品的音频提供给某软件公司并允许使用、复制、修改数据用于其产品及服务。软件公司将原告的声音作品作为基础素材,经过人工智能处理,创建了涉案的文本转语音产品,用户只需输入文本并调整一些参数,就能将文本内容转换成用原告声音配置的语音。之后配音师发现他人利用其配音制作的作品在多个知名APP广泛流传,遂诉至法院。
《民法典》第1023条第二款规定:“对自然人声音的保护,参照适用肖像权保护的有关规定”,即未经肖像(声音)权人同意,肖像(声音)作品权利人不得以发表、复制、发行、出租、展览等方式使用或者公开肖像(声音)权人的肖像(声音)。因此,即使文化传媒公司拥有原告录音制品的著作权,如果要再次利用原告声音,也必须再次征得原告的同意。软件公司从文化传媒公司处获得声音素材时,应尽合理审慎义务,核实素材的来源和授权情况。
虽然《个人信息保护法》没有明确将自然人的声音列入个人信息的保护范围内,但是《个人信息安全规范》( GB/T 35273-2020)将“声纹”列入“个人生物识别信息”,作为个人敏感信息予以保护。因此,自然人的声音也可以视为个人信息的组成部分,利用、处理自然人的声音信息需要个人信息持有者的明确同意。本案法院认为人工智能生成的声音“与原告的音色、语调、发音风格等具有高度一致性,能够引起一般人产生与原告有关的思想或感情活动,能够将该声音联系到原告本人,进而识别出原告的主体身份”,因此将原告的声音作为个人信息适用《个人信息保护法》予以保护。
本案北京互联网法院最终判决文化传媒公司和软件公司未经许可使用了原告声音,构成对原告声音权益的侵犯,其侵权行为造成了原告声音权益受损的后果,应承担相应的法律责任。
十四. 开源模型和软件合规
当前,开源已经成为信息技术生态的主流趋势,成为全球协同创新的新模式和推动信息技术快速发展的巨大动力。生成式人工智能企业除少数自研基础大模型外,大多数存在吸收、借鉴境外开源大模型的情形,或者在境外第三方开源算法、模型的基础上进行应用开发。使用开源模型、算法违反开源许可证的风险及开源的持续性风险较传统开源软件高,生成式人工智能企业应进行相应的合规和安全风险评估,识别和排查使用开源算法或模型的相关风险。
1. 违反开源许可证风险
虽然开源模型、软件的开放性为生成式人工智能技术的开发提供了便利,但是,开源不是免费的午餐,开源软件不是公共领域软件,而是受著作权保护的,不可以任意使用。开源软件的著作权人通过开源许可证(协议)将软件的复制权、修改权、发行权等部分权利许可给了使用人,但这种许可是附条件的,即应遵守相关模型、软件的许可协议关于许可使用范围、方式的规定,被许可人只有在遵守开源许可协议规定的前提下,才可以行使这些权利。例如,用户有权修改、分发适用GPL许可证的开源软件,但修改后的软件必须同样适用GPL许可证开源。若用户因违反许可证的规定导致许可终止,则用户使用软件的行为将因失去权利来源而构成侵权。如果企业没有充分理解和研究许可证规定的权利和义务,往往会埋下知识产权的风险隐患,甚至会被强制要求公开自行开发的产品的私有代码,存在很大的违约、侵权风险。根据美国知名的科技媒体网站The Verge[40]的报道,某国内知名的互联网企业一直在使用 OpenAI 的API秘密开发其代号为 Project Seed 的大语言模型( LLM ),包括用于训练和测试、评估其自有模型[41],违反了 OpenAI 服务条款中关于其模型输出不能用于“开发任何与我们的产品和服务相竞争的 AI 模型”的规定,OpenAI对其采取了暂停帐户权限的措施,并对其展开进一步的调查。
开源许可证具有合同性质,用户在对源代码进行复制、修改或发布时,许可协议成立并生效。开源许可类型大体上可以分为强开源的“著佐权”(copyleft)类许可,例如GPL、AGPL、LGPL,及宽许可类(permissive)开源许可,例如MIT、Appache2.0、BSD等。宽许可类许可证对下游使用者的限制非常少,开发者可以直接商用、进行二次开发,并且后续可以选择继续开源或者闭源,开发者拥有较大的处置自由。在“著佐权”类许可场景下,如果人工智能产品研发过程中对其进行结合、部分结合或衍生创作,将会引发传染效应,即整个产品都必须按照同一许可证进行开源发布,或者,前序软件适用了该类型的开源许可证,则后续开发的软件将被强制“传染”成为开源软件。即一旦开源,后续不能再闭源,否则,该产品将被取消相关授权,产生违约或侵权风险。因此,在人工智能产品研发过程中,开发者应优先考虑使用宽许可类许可证下的模型或代码,避免使用适用“著佐权”类开源许可证的模型或代码。
当然,开源许可的传染性问题比较复杂,需要具体分析。在国内开源软件第一案数字天堂网络技术有限公司诉柚子科技有限公司、柚子移动技术有限公司案[42]中,原告使用了受GPL协议约束的第三方开源软件,在此基础上开发了三个插件(代码输入法功能插件、真机运行功能插件、边改边看功能插件)。法院认为,三个插件虽包含于受GPL协议约束的开源软件中,但三个插件均可以独立运行,所处文件夹中并无GPL开源协议文件,且原告对三个插件分别进行了著作权登记,因此属于独立的计算机软件作品,不属于GPL协议所指的应被开源的衍生产品或修订版本,不受该开源许可的传染。在不乱买电子商务有限公司诉闪亮信息技术有限公司侵害计算机软件著作权纠纷案[43]中,最高法院在二审判决中认为,根据GPL3.0协议开源传染性的例外条款对“聚合体”(the aggregate)的规定,GPL协议的开源“传染性”包括受保护程序的衍生程序或修订版本,但不包括与其联合的其他独立程序。涉案软件虽然前端代码使用了GPL协议下的开源代码,但后端代码与前端代码在展示方式、所用技术、功能分工等方面均存在明显不同,与前端代码既相互联合又相互独立,不受GPL协议约束,无需强制开源。
除开源许可“传染”外,开发团队还需关注并遵守相关产品的许可使用限制。以OpenAI的ChatGPT产品为例,其使用条款中明确禁止任何人利用其产品生成的内容开发竞品,或者通过任何自动化或编程方式爬取其数据。实务中还存在某些特殊类型的开源许可证,如Meta公司就其开源的Llama模型专门设置的Llama2社区许可协议,虽然具备一定的开源因素,例如免费分发、可修改、含源代码等,但其许可协议第2条规定,如果开发出来的衍生模型投入商用后月活跃用户超过7亿则必须获得Meta公司的单独授权才能使用。因此,生成式人工智能企业应审慎评估使用类似开源模型的风险,必要时应获得权利人的单独授权许可,避免侵权。
开发者可能需要在一个开源产品上同时适用多个开源许可证,例如开源产品中的代码、模型、数据等分别适用不同的开源许可证,或者将一个开源程序的代码合并入另一个开源程序,将适用不同许可证的两个开源程序合并成一个较大的程序。在此情况下,存在各个许可证的限制或条件冲突,相互之间不能兼容而产生的侵权风险。
2. 开源持续性风险
生成式人工智能模型、算法开源通常并非是为公益,而是为了建立生态,本质上是一种商业策略。当生成式人工智能产品和产业发展、成熟到一定程度后,开发者为平衡前期的巨大投入,实现商业利益,存在将模型从开源走向有限开源甚至闭源的趋势。
背离开源的初衷、使命最典型、最轰动的案例,恰恰是生成式人工智能开源的始创者之一,开发出ChatGPT的OpenAI。OpenAI最初由特斯拉CEO埃隆·马斯克与他人于2015年共同创立,公司成立之初是非营利组织,其使命是开发人工智能以造福人类,其创始协议(Founding Agreement)的核心是非营利和开放。公司在2019年转为营利性企业,并从微软获得投资。之后,微软又向OpenAI追加投资,投资额据称达百亿美元之巨。2018年,OpenAI发布了轰动一时的开源GPT,将生成式人工智能推向了全新的高度,且ChatGPT 3.0之前的版本均为开源模式,其许可证为使用限制极少的MIT宽许可证。但ChatGPT3.0、4.0则为商用专有软件,存在复杂的商用许可条件限制。2024年2月29日,马斯克对OpenAI提出了包括违约、违反信托义务和不公平商业行为在内的指控,并要求该公司恢复开源。
很多开发通用大模型的生成式人工智能企业选择了"两条腿走路",即开源其较小的大语言模型,但在最大的和最先进的模型上选择闭源,或者对原开源许可证规则进行调整或变更,从宽松的开源许可证变更为强开源的著佐权开源许可证,或者直接加入商业使用限制条款。例如,一直坚持开源的法国人工智能初创公司Mistral AI最新发布的文本生成模型Mistral Large没有开源,仅提供终端用户付费使用。谷歌开源的Gemma也仅为其轻量化的大模型版本。另外,如前所述,Meta声称其最新版本的Llama为开源模式,但其并未使用通行的开源许可证,而是自行制作了适用于该模型的“社区版使用许可”。根据该许可证,如果开发出来的衍生模型投入商用后月活跃用户超过7亿则必须获得Meta公司的单独授权才能使用,以达到限制竞争的目的。国内的科大讯飞也仅选择将较小参数的模型进行开源。
在模型开源可能无法长期持续的情况下,生成式人工智能领域大量在他人大模型的基础上进行后续开发的中小企业,存在业务无法持续,或者因无法使用最先进的模型而导致竞争优势被削弱的风险。
3. 使用个人版软件侵权
生成式人工智能企业在生成文本、图片、音频、视频的过程中,存在使用Photoshop,After Effect,WPS等图片、文字处理软件的需要。这些软件很多同时存在个人版和商业版,部分生成式人工智能企业在创业初期选择了使用个人版,而没有购买商业付费版。作为企业用户为商业用途使用软件的个人免费版,超越了这些软件的许可使用范围,存在被软件权利人要求购买商业付费版,甚至被诉软件侵权的风险。
十五. 结语
生成式人工智能引发了人类对自身前途、命运的深切关注,生成式人工智能技术和服务所引起的争议比较大,引发的法律和伦理问题比较多,在全球范围内,对生成式人工智能技术和服务进行监管,控制其风险外溢的呼声不绝于耳,欧盟、中国等国家和地区正在尝试构建生成式人工智能监管体系,相关监管架构正在搭建过程中。当前,国内生成式人工智能的技术开发、应用和投资方兴未艾,生成式人工智能企业应密切关注监管动态,积极参与监管立法进程,组建合规团队并聘请律师事务所及其他专业机构协助提升合规能力和合规水平,避免因法律、伦理和监管合规问题而损害其长远竞争力,甚至危及企业的持续经营,以在技术和商业竞争中立于不败之地。(完)
(李心路律师对本文有贡献。)
注释
[26] 《生成式人工智能的作品独创性和作者主体性》,作者:吴汉东,原文载《中国法律评论》2024年第3期“思想”栏目,https://mp.weixin.qq.com/s/CGPMOUC23EdKkWUyZ-9iGQ
[27] (2023)京0491民初11279号。
[28] 《“AI文生图”著作权案一审生效》,来源:微信公众号“京法网事”, 2023-12-27, https://mp.weixin.qq.com/s/ZRPF4SEK5ANz1D0VNhSDaA
[29] https://www.copyright.gov/rulings-filings/review-board/docs/Theatre-Dopera-Spatial.pdf
[30] https://caselaw.findlaw.com/court/us-dis-crt-dis-col/114916944.html
[31] (2019)粤0305民初14010号。
[32] https://openai.com/policies/terms-of-use
[33] https://docs.midjourney.com/docs/terms-of-service
[34] https://yiyan.baidu.com/infoUser
[35] 纽约时报网站的文章需要付费才能阅读,使用这些付费才能阅读的文章训练模型并生成类似的作品,在一定程度上产生了对纽约时报文章付费阅读的替代。
[36] (2024)粤0192民初113号)。
[37] 姚志伟:《人工智能生成物著作权侵权的认定及其防范——以全球首例生成式AI服务侵权判决为中心》,原文载《地方立法研究》2024年第3期,https://mp.weixin.qq.com/s/JlV514aysJL_mGL1fU1T3A
[38] 姚志伟:《人工智能生成物著作权侵权的认定及其防范——以全球首例生成式AI服务侵权判决为中心》,原文载《地方立法研究》2024年第3期,https://mp.weixin.qq.com/s/JlV514aysJL_mGL1fU1T3A
[39] 姚志伟:《人工智能生成物著作权侵权的认定及其防范——以全球首例生成式AI服务侵权判决为中心》,原文载《地方立法研究》2024年第3期,https://mp.weixin.qq.com/s/JlV514aysJL_mGL1fU1T3A
[40] The Verge是一家美国知名的科技媒体网站,由数字媒体公司沃克斯传媒(Vox Media)拥有。
[41] 该企业通过租用 OpenAI 的API接口与GPT聊天 ,反复与GPT进行海量对话,通过GPT返回的数据对自有的模型参数进行调节,利用GPT的问答记录优化自有模型,简而言之,就是让GPT帮助训练自有模型,这个过程在业内俗称“蒸馏”。
[42] (2018)京民终471号。
[43] (2019)最高法知民终663号。
(来源:云上锦天城)