Open AI公司推出的ChatGPT以最快速度(5天)突破百万用户,并不断更新迭代,2023年3月推出最新版本Chat GPT4.0,产生现象级效应。本文基于专利视角分析ChatGPT相关技术创新路径,阐述主要技术创新点,详细分析国、内外主要申请人的专利布局情况,探讨专利分析角度下的GPT技术局限性,从而期望对国内大模型技术发展有所启示。
01
Open AI与ChatGPT
OpenAI成立于2015年,是由美国著名创业孵化器Y Combinator的总裁Sam Altman和特斯拉的CEO马斯克(Elon Musk)发起的让全人类受益的非盈利组织。OpenAI承诺开源所有技术,鼓励研究人员公开发表工作成果,将专利(如果有的话)与全世界共享[1],避免使用危害人类或过度集中权力的AI或AGI(通用人工智能)[2]。2018年,因公司经营理念问题,马斯克与OpenAI分道扬镳。在研发AI模型的过程中,OpenAI面临越来越大的经济压力,最后不得不在2019年转变为盈利性公司,之后获得了微软10亿美元的投资。2022年1月,路透社援引的Semafor报告称,微软正考虑投资100亿美金给OpenAI(总估值290亿美金)[3]。
ChatGPT是OpenAI于2022年11月推出的人工智能聊天机器人程序,该程序是在GPT-3.5(一种自然语言预训练大模型)基础内核上使用监督学习和强化学习进行训练所得到的模型。在监督学习过程中,ChatGPT收集了全新的人类对话语料,并将其与GPT-3.5的监督学习语料合并。在强化学习过程中,ChatGPT首先训练了一个得分模型来对模型输出进行排序,然后用该得分模型来对生成模型输出进行反馈,并优化该生成模型。最终由强化学习得到的模型即为ChatGPT。ChatGPT以文字方式互动,可以实现与人类对话交互,还可以实现文本生成、自动问答、自动摘要等在内的多种任务。
ChatGPT的成功来源于更早期发布的GPT-3模型以及对RLHF的优化。GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。它是基于Transformer架构(2017年由谷歌提出),GPT的主要优势在于它可以通过预训练大量语料数据来获得对语言任务的预测能力,而不需要大量的人工标注数据。它具有良好的语言生成能力,可以生成文本、回答问题、对话等多项语言任务。RLHF(Reinforcement Learning from Human Feedback人类反馈强化学习)[4][5]是一项涉及多个模型和不同训练阶段的复杂概念,包括以下三个步骤:预训练一个语言模型(LM);聚合问答数据并训练一个奖励模型(Reward Model,RM);用强化学习(RL)方式微调LM。
2023年3月15日,多模态预训练大模型GPT-4[6]正式发布,能够处理文本、图像两种模态以及25000个单词的超长文本输入,并通过文本输出。GPT-4能够很好的支持图像输入,能够理解图片中的幽默之处,并且具备理解长上下文的能力,在各种专业和学术基准测试上表现出人类水平,包括通过模拟律师考试,分数约为全体考生的前10%。相对于以前的GPT-3.5模型,GPT-4明显减少了“幻觉”,在团队内部对抗性设计的事实性评估中,GPT-4的得分比GPT-3.5高19个百分点。但是,考虑到GPT-4这样的大模型的竞争格局和安全影响,OpenAI并未公开有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息。目前,ChatGPTPlus版本已经使用GPT-4模型。
智谱AI团队研究发布的《ChatGPT团队背景研究报告》[7]称,2023年2月,ChatGPT团队规模不足百人(共87人)。分析发现,其显著特征是“年纪很轻”、“背景豪华”、“聚焦技术”、“积累深厚”、“崇尚创业”和“华人抢眼”。该团队平均年龄为32岁,“90后”是主力军。他们引领的这一波大型语言模型技术风潮,充分说明了那些经常被认为研发经验不足的年轻人,完全有可能在前沿科技领域取得重大突破。团队成员绝大多数拥有名校学历,且具有全球知名企业工作经历。华人学者欧阳龙参与了与ChatGPT相关的7大技术项目中的4大项目的研发,他是InstructGPT论文的第一作者,是RLHF论文的第二作者,可见他是这两个关键技术项目的核心人员。
02
专利视角下的ChatGPT相关技术创新路径
1)OpenAI专利分析
在世界著名的DWPI摘要数据库中,以申请人(OpenAI)、发明人(InstructGPT、GPT-3等技术对应论文作者)、结合“NLP”、“语言”、“训练”等关键词进行检索,发现OpenAI公司作为权利人的专利数量为零,同时采用多种商业数据库进行搜寻,均未发现OpenAI名下任何专利。
分析其原因,OpenAI在成立之初作为非盈利组织,期望开源所有技术,专利制度作为公开换保护的一种方式,申请专利对于非盈利组织不是必须的,而OpenAI转变为盈利性公司后,考虑到ChatGPT、GPT-3、GPT-4属于黑盒模型,且模型的训练花费庞大,开发和部署都很复杂,对于其他公司或科研院所而言很难复现,不通过专利也能实现技术保护,通过商用API(Application Programming Interface,应用程序编程接口)等方式即可获利,另一方面,对于训练语料获取、模型算法而言,可能会涉及专利不授权客体问题,不能进行专利保护,而即使不涉及客体问题的,由于训练等步骤的不可见性,在专利授权后也很难进行维权,因此OpenAI公司有可能通过商业秘密进行技术保护。
根据OpenAI官网公开的ChatGPT技术原理图分析得知,ChatGPT的训练过程分为以下三个阶段[8]:
第一阶段:训练监督策略模型。首先会在数据集中随机抽取问题,由标注人员给出高质量答案,然后用人工标注好的数据来微调GPT-3.5模型,获得SFT(Supervised Fine-Tuning)模型。
第二阶段:训练奖励模型(Reward Model,RM)。在数据集中随机抽取问题,使用第一阶段生成的模型生成多个不同的回答。标注人员对输出进行打分排序,使用排序结果数据来训练奖励模型。
第三阶段:采用强化学习中的PPO(Proximal Policy Optimization,近端策略优化)[9]来优化策略。首先使用第一阶段中的初始权重构造一个初始的PPO模型。针对在数据集中采样的新的问题,使用PPO模型生成回答,并用第二阶段训练好的RM模型给出回报分数。PPO策略可以会通过回报分数计算出策略梯度,并更新PPO模型参数。
2)国外主要申请人专利分析
随着2017年谷歌Transformer模型的提出,预训练语言模型开始显著发展,因此本文关于预训练语言模型技术的检索主要针对2017年之后申请的专利。在DWPI摘要数据库中,针对关键词“language model”、“train”、“fine-tune”进行简单检索,共有2600多篇专利文献。检索结果仅针对专利摘要进行检索,且为专利同族合并后的结果。
谷歌多年来陆续提出Transformer、BERT、T5等模型,目前针对Transformer申请相关美国专利(US2018341860A1,专利名“基于注意的序列转换神经网络”),并在中美欧日韩等多个国家布局。BERT、T5虽未申请专利,但是我们经检索发现,其专利布局涵盖了基于上述模型衍生的下游任务,在多语言翻译、文本语音转换、完型填空、稀疏表示、情感分类等领域有所技术改进。2021年,谷歌提出了SwitchTransformer[10]模型,采用了稀疏激活技术,拥有1.6万亿参数,相同资源情况下,训练速度比由谷歌开发的最大语言模型T5-XXL快了4倍,谷歌就该模型申请相关PCT国际专利申请WO2022150649A1(NEURALNETWORKSWITHSWITCHLAYERS),目前并未进入任何国家阶段。谷歌也在模型训练、微调等方面开展专利布局。
图4 谷歌部分专利
基于BERT模型,微软于2020年提出了DeBerta模型,并提交申请相关美国专利“具有解开注意力和多步解码的高效变压器语言模型”(US2021334475A1),利用多步解码来更好地重建掩蔽标记并改善预训练收敛来促进预训练的自然语言模型的自训练。2021年提出的LORA模型主要涉及神经网络模型的低秩自适应,冻结了预训练的模型权重(相关美国专利US2022383126A1)。此外,微软也在下游任务进行专利布局,例如其申请的PCT国际专利申请WO2022221045A1涉及多任务模型,包括例如共享编码器、多个任务特定编码器和用于多个任务的多个任务特定线性层等。
在Patentics的英文全文库中以“DeepMind”(DeepMind为Google旗下前沿人工智能企业)作为申请人,language model作为关键词进行检索,检索结果为27篇。DeepMind侧重于对神经网络的改进。中国专利“针对使用对抗训练的表示学习的推理的大规模生成神经网络模型”(CN113795851A),训练可以是基于损失函数,该损失函数包括基于由鉴别器神经网络处理的输入对的样本部分和潜在部分的联合鉴别器损失项和仅仅基于输入对的样本部分或潜在部分中的一个部分的至少一个单一鉴别器损失项,该专利在中美等国均有布局,根据英文库中检索得到的专利查找其中文同族,可以确定DeepMind在中国申请使用渊慧科技有限公司名称。
图5 DeepMind部分专利布局情况
由图5可以看出,DeepMind在多模态方面也有所布局,涉及冻结语言模型的多模态少样本学习以及使用多模态输入选择操作。多模态的语言模型是一种能够同时处理不同类型的数据,如文本、图像、音频和视频的人工智能技术。多模态语言模型的目标是实现跨模态的理解、生成和交互,从而提高人机对话和信息检索的效果。谷歌近期申请了基于UI的多模态模型,例如美国专利US2023031702A1通用用户界面转换器(VUT),处理三种类型的数据:图像、结构(视图层次)和语言,并且执行多个不同的任务,诸如UI对象检测、自然语言处理、屏幕摘要、UI可敲击性预测。微软的PCT国际专利申请WO2022187063A1则公开了一种视觉与语言的跨模态加工方法,基于视觉语义特征集和文本特征集来训练目标模型,以确定输入文本和输入图像之间的关联信息。
03
国内相关技术发展情况
在Patentics的中文数据库中,以“预训练”、“大规模”、“语言模型”、“微调”、“零/少样本”、“知识图谱”等作为关键词进行简单检索,共检索出12292篇专利,我们可以看出国内预训练大模型技术自2018年后开始迅速发展,鉴于目前21年、22年申请的专利未全部公开,实际上该领域的专利申请数量可能更多。
图7 人工智能大模型技术中国专利主要申请人[11]
图8 语言大模型技术中国申请人在美国的申请量
1)国内语言模型相关专利
2019年3月,百度提出文心大模型ERNIE,随后百度在知识图谱、语言理解与生成技术、以及机器翻译、对话系统、摘要生成、长文本语义、文本纠错等领域都进行布局。其中知识图谱包括实体知识图谱、行业知识图谱、事件图谱、关注点图谱以及多模态图谱。
华为与清华大学、哈尔滨工业大学、中国人民大学等高校均有合作,语言模型包括自回归模型,并在模型训练方法、量子电路进行模型复数运算、降低训练PLM所需资源、文本向量等方向进行专利布局。
图9给出了国内语言模型相关专利发展情况。其中,中国专利CN110717339A通过构建词语片段、句子以及文章三个不同层级的无监督或弱监督预训练任务,使得语义表示模型可以从海量数据中学习到词语片段、句子以及文章不同层次的知识,增强了通用语义表示的能力,提升NLP任务的处理效果,百度公司的这项专利还获得了第二十三届2022中国专利奖优秀奖。
图9 国内语言模型相关专利发展情况
针对多模态模型,百度的中国专利CN115374798A提出将跨语言预训练目标和跨模态预训练目标无缝地组合在统一的框架中,从可用的英文图像字幕数据、单语语料库和平行语料库在联合嵌入空间中学习图像和文本。华为的中国专利CN115688937A将不同模态的数据的特征表示映射到同一个离散空间中,可以基于该离散空间对多模态的特征表示进行建模,得到兼容多模态输入数据的模型。
2)国内人机交互应用相关专利
而针对类似于ChatGPT的人机交互应用,国内申请人也有相应的专利布局,但未进行海外布局。
04
专利分析角度下的GPT技术局限性
目前免费版ChatGPT使用GPT-3.5版本(以下称为ChatGPT-3.5),具有出色的上下文对话能力,但是尚不能进行多模态交互,缺乏解决数学问题的能力,并且对于一些专业领域缺少足够的数据进行训练,导致无法常常无法生成适当回答。例如,笔者尝试用ChatGPT-3.5阐述美国专利US2021334475A1的技术方案,它可以完整地描述出专利的发明名称、技术方案等,但是这个专利文本实际上是微软公司于2020年6月24日申请的名为“具有解开注意力和多步解码的高效变压器语言模型”,公开日为2021年10月28日,ChatGPT-3.5的回答完全文不对题。至少ChatGPT-3.5无法做到专利号和发明内容的简单对应,这可能是缺少相关专利语料造成的。
图10 ChatGPT-3.5聊天截图
鉴于微软将GPT-4整合进NewBing中,笔者通过NewBing的聊天功能搜索美国专利US2021334475A1。虽然它能够完整的给出所有信息,但是除了发明名称是正确的,申请日、公开日、申请人、发明人信息都是错误的(见图11)。就此次结果而言,New Bing更倾向于在搜索的基础上对信息作出完整的补充,并不能保证真实性。
图11 New Bing聊天功能截图
图12 New Bing聊天功能截图
ChatGPT-3.5以及NewBing都不能完整的提供专利文件信息,那么针对法律条款是否能获得较好效果呢?笔者分别向ChatGPT-3.5和NewBing询问“专利的技术方案是无法实现的,需要用到中国专利法的哪个法条”,ChatGPT给出的答案类似于使用大量法律文献训练模型的结果,虽然看似准确,但涉及的条款及其规定都不是中国专利法的内容,而NewBing则是搜索加工的结果,找到了适合的条款,但是法条规定的内容与该条款毫无关系。因此,ChatGPT-3.5和NewBing都不能保证生成内容的准确性。
图13 ChatGPT-3.5与New Bing聊天功能对比
探究其原因,GPT-3.5只是基于本地的语料库进行搜索,没有联网,所以对于很多无法获取的信息会进行杜撰,缺乏准确性,但是GPT-4和New Bing是具有联网形态的大语言模型,回答问题时会首先通过用户的询问在互联网上搜索相关的语料进行补充,所以可以杜绝部分杜撰的情况,但是对于非常见的问题,或者是信息缺失的情境下,还是会有编造的风险。
此外,ChatGPT的训练和部署都需要大量算力来支持,因此可能需要更轻量化的模型。对于国内企业而言,需要通过加深国内产学研合作方式推动大模型发展。根据公开资料检索发现,鹏城实验室与华为合作开发盘古大模型,与百度合作开发鹏城-百度·文心大模型;另一方面,华为把科研院所、产业厂商等结合起来,以期更好地让大模型产业形成正向的闭环回路。
05
对国内大模型技术发展的启示
1)强调原始创新,发展大模型可持续演化
大模型的未来需要原始性创新,也需要自我生长,向可持续、可进化的方向发展。人工智能技术近年来呈指数型发展趋势,在当今政治经济环境下,我们更应强调原始创新的重要性,掌握根技术,但也不能拘泥于闭门造车,要求事事从零起步,要重视国际国内合作交流,实现大模型的可持续演化。
2) 建设大模型研发设施
如今的人工智能研究,已经突破单兵作战,“小作坊”式的埋头钻研无法在当下竞争日益激烈的环境中产出突破性科研成果。ChatGPT的横空出世也是基于前期几十亿美金的投入,大成果的产出必须依托大平台。国内应大力扶持高端科研平台,从数据、算力、工程创新能力三方面,三位一体加快建设大科学设施集群。
3) 人才队伍培养
科技创新的竞争本质是科技人才的竞争。从前文分析可知,OpenAI的成功除了大量算力的投入,更重要的是聚集了大量顶尖的科学家和工程师。面向全球吸引具备攻克技术难关能力的杰出人才,选拔具备国际影响力的领军人才,培育具备较高发展潜力的青年人才,将会是国内人工智能发展的重要手段。
4) 差异化竞争,安全伦理性加强
大模型技术的红利期还很长,ChatGPT的火爆出圈并不代表国内完全丧失先机,只能做跟跑者。文本语言类大模型,OpenAI走在前列,但在多模态大模型领域,世界各国科学家还在攻克技术难题。国内要想在新一轮人工智能科技创新中成为领跑者,就必须要学会差异化竞争,做出中国特色。大模型技术的演化一定会越来越强调科技伦理治理、系统安全性,在安全伦理方面的建设,突出中国价值观,也是我们需要关注的重点。
参考文献
扫码关注
QQ联系
微信好友
关注微博