蓝灯鱼AI人工智能、知识产权产品全面升级
人工智能前言
▼
在21 世纪的近30年,是计算机、互联网蓬勃发展的30年,人类社会相继进入计算机、互联网、人工智能时代。完成了从私有数据到共享数据的原始数据积累。
随着算力的大幅提升,人工智能学习大数据的商业应用竞争也拉开了大幕。
科技巨头纷纷把人工智能作为未来的战略支点,布局人工智能服务生态圈,尝试各行各业颠覆性技术革命。建立与顶尖学府、实验室进行深度合作关系,科学家与技术大佬在学术和商业应用中来回跨界,加速科技发展落地的进程,每一篇具有先进观点的论文都会立即引发开源代码的实现。
另外,从知识产权领域里专利申请的数量来看,人工智能、机器学习方面的专利越来越多,涉猎领域范围越来越广,应用场景越来越细,行业渗透率越来越高,都认证了人工智能作为科技发展的新动力,将不断的创造出新的社会发展机遇。
那么今天我们就来看看知识产权自身的行业和人工智能领域都有哪些结合点,人工智能够为知产行业带来哪些新的机遇。
知识产权行业需求
▼
知识产权行业主要有3大领域,专利权、商标权、著作权。
这三个领域,共同的特点是对数据的采集准确性、查询准确性都有高度的要求,并且整个知产行业对数据的使用都有很强的依赖性。
随着科技的不断发展,海量数据的汇聚越来越庞大,无论是商标检索还是专利检索都已经不能满足业务应用,传统检索已经成为制约行业发展的关键因素。
例如,在商标和外观设计的领域中,知识产权局、相关委员会、法院,对商标外观设计的显著性创造性进行审查判定,都要参考以前的商标和外观设计制度来作出决定。
而全球每年都会收到几百万件的商标申请和外观设计的专利申请,通过人工筛选确定某个商标或外观设计能否获权已经成为了令人头疼的问题,人工的传统式所造成的查漏现象已经严重影响到法律的严谨性。
我们期望人工智能技术能够大大的改善现阶段的困境。
人工智能基本概念
▼
知产行业本身会生产大量的生产或者服务数据,人工智能只有在产生数据的行业内才更有无用武之地。数据越丰富复杂越能凸显人工智能的价值。
人工智能(Artificial Intelligence,AI)在哪些领域有着较为突出的表现呢?
就目前来讲,我们常见的研究方向包括自然语言处理(Natural Language Processing,NLP)、计算机视觉(Computer Vision,CV)、语音识别(Automatic Speech Recognition,(ASR)、深度学习(Deep Learning,DL)、知识工程(Knowledge Engineering)、人机交互(Human–Machine Interaction,HMI)、机器人等等。
机器学习是一门以基础数学为主,多领域交叉学科,涉及统计学、凸分析、逼近论、概率论、各算法理论等多门学科。专门研究通计算机计算的方式模拟或实现人类的学习行为,以获取新的知识或技能,在海量数据的学习中,重新组织的知识结构形成计算模型,使之不断改善自身的智能和性能,不断的靠近人类的行为方式,从而帮助人类在传统计算机服务当中,得到更高服务质量和效率。
本身就是建立在语言的表述基础之上,所以计算机自然语言的研究方向和专利的文字检索就像鱼水关系一样密切。
在文字检索的方向人工智能与知识产权结合
▼
就目前而言市场上已经出现AI产品来看,人工智能有几个方向和知识产权领域结合有较好效果以及未来有可能结合的场景有:
1.计算机视觉和商标图片检索的结合,计算机视觉通过模拟人类的判断检索出近似的图像。
这一领域的结合几乎颠覆了传统查询方式,计算机视觉不但可以在结构式图形归类,还可以通过整体特征判断出动物形状,甚至叠加局部特征可以判断出更为夸张的动画、漫画形象。
目前达到应商业应用的产品包括国外世界支持产权组织WIPO(https://www.wipo.int)和国内的蓝灯鱼(https://www.lanternfish.cn)。
2.计算机视觉和外观设计的结合。在实现原理、应用场景都与上相同。
3.计算机视觉与专利附图文件检索。这也将是专利检索中新的一种查询方式,通过图片的近似比对,开启另外一个维度的查新模式。
4.计算机自然语言和专利检索的结合。
专利的价值和意义中,可以通过两种方式进行有效的结合,一种是近似词扩展,一种是语义特征检索。近似词扩展是通过海量数据的关键词抽取,通过计算机向量来定位彼此的相关度,在用户通过个别关键词的基础上进行最近相关词的扩展,在海洋数据中进行的关联查询,从而扩大检索文献的数据量,并且也保证了有效关联性。
另外一种,将文献中关键句子进行语义训练,整体赋予向量,该种方式虽然在查询中的精准度下降,但在整句的理解上好于词查询。
因此两种方式的配合在专利检索的不同场景中会起到不同作用。
5.机器翻译是对专利文献的各国语言互译。
随着全球数据集中、关联、统一展现,专利文献数据的相互翻译也成为行业重要业务之一。
机器翻译是计算机自然语言研究反向的一个重大分支。在没有通过专业翻译译过的文献,机器翻译可以大大降低语言理解的障碍,也同时减轻了翻译的职业人员的工作压力,从一字一句的翻译到初稿校验的跨度,提升了该岗位的整体工作效率,机器翻译也是人工智能的热点之一。
6.计算机自然语言的深度学习和专利文献自动撰写、答复、摘要提取的结合。
深度学习的较好案例有机器自动创造诗词、自动编写新闻稿。在专利领域内某些特定的场景中,深度学习将根据海量的数据进行智能学习,根据关键词模仿句型句式进行自动撰写。该方向还可以在整篇文献中提取最为核心语义进行摘要生成。
7.语音识别与声音专利判断。
声音专利作为专利中较小的一个范围也可以和语音识别作为有效的整合。在语音识别的技术领域中,降噪是一大难点,但在专利领域中刚好避过了这个技术瓶颈。声音文件提取出来的编码特征对已有的声音专利编码特征进行智能匹配,可以迅速找到特征相同的声音文件。
8.知识工程与专利文献的知识图谱建设。
知识图谱是结构化的语义知识库,专利的最大特点就是要把相关的、近似关键信息形成网状,每一个关键词都是节点,无穷无尽,通过节点关键词寻找到与它有直接关系的其他关键词。
知识图谱的出现几乎颠覆了传统数据库的存储关系,以关系结构为存储数据的模型,速度可以更快,可视化效果更加直观,对于一篇文献可以很找到其关系最近家族文献,参考文献,本领域最相关其他文献。
9.AI智能OCR与部分场景的结合。比如商标中变形文字的识别,各种纸质文件指定位置从而图片切割并识别,AI智能OCR更像是工具类。
其他影响
▼
人工智能与著作权目前并不像知产行业能够有很好的结合点。反而对传统的著作权制度带来新的挑战和麻烦。人工智能著作权问题涉及人工智能创作物的法律地位、保护模式及权利归属等问题,该问题在目前在社会上还没有达到统一共识。不过为人工智能也包括了模仿人类进行创造,将来著作权也必然有人工智能的一个专属标签。
小结
▼
在商业应用角度来看,人工智能技术在知识产权行业的应用现在还属于初级阶段,还不能完全理解人的思维。
尽管如此,世界上各组织机构、业内龙头公司、代理所、对人工智能给予了积极的正面评价和相当的资金投入,认为这是有效提高知识产权审查效率、提升质量和控制成本的一个契机,并将成为未来几个年都是业界关注的焦点,我们也将期盼人工智能在知识产权领域中不断突破、完善,成为该行业最具想象力的爆发点。
面对AI技术的历史性拐点,每一个企业都想抓这些机遇、先人一步,在行业内独占鳌头,让我们拭目以待未来知产行业的飞速发展。
开始了解我们的AI产品
蓝灯鱼商标检索产品
▼
蓝灯鱼商标检索产品是一款计算机视觉和商标图片相结合的人工智能产品。
市场需求
中国商标数据大概有4500万数据量,传统查询方式依赖于《建立商标图形要素国际分类维也纳协定》(简称“维也纳代码体系”),9个大类,1800多小类,用户首先要选出商标相应的图形编码。
例如:狗,属于图形分类3.动物;3.1“四足动物(系列一)”中的3.1.5“狗,狼,狐狸”,然后检索出数据库中所有符合该图形编码的图形商标。在成千上万的图形中检索出近似的图形,劳动强度可想而知。这还是表达明确的单一的要素情形。
通常情况是商标中的图形会包含多个要素,或者对同一要素的解读也不一样(例如:有的卡通造型像狗也像狼、狐狸),而且传统方式的检索仅依赖图形编码,忽略了图形设计的整体外观、视觉效果等影响商标近似性判定的因素,所以既耗时费力,又难以达到完整准确。
主要产品特点
以多年商标从业专家为指导,在计算机视觉技术的算法模型上加入行业经验和评判规则;通过各种技术参数、特征归类、商标分类、图形要素分类等细节设定;监督训练图形模型。促使视觉模型更加接近人为的图形识别和含义判断。从而减轻商标检索从业者的负担。
主要技术点
主要通过技术手段从图片中提取图像特征,通过对特征进行比较和匹配来判断图片相似度。
目前国内外主流的技术路线分为以下两类:
全局特征:将一整张图片提取成一条稠密特征向量,直接通过比较向量之间的欧式距离或余弦距离来计算相似度。这种路线优点是系统构建快捷,不需要太繁琐的处理步骤,只需要直接对每张图片提一条特征,特征向量之间的相似度计算方法也简单明确;缺点在于用一条向量来概括整张图片信息难度很高,容易损失原图片中的重要信息,从而导致相似图片提取的向量反而不相似,尤其是当图片内容较丰富、主体元素较多、关注重点不明确时,提取特征时很难把握侧重点。
目前常见的全局特征提取方式主要是利用深度学习技术训练得到的卷积神经网络,将图片映射为高维空间中的稠密特征向量;另外也有如图像直方图、RGB 颜色空间等手工特征提取方式,但由于神经网络的训练引入了大量的人工标注监督信息,且神经网络天生可以自动根据数据提取通用特征,手工特征在图像检索中的表现远远逊色于神经网络特征。
局部特征:从一张图片中进行局部采样,为每个局部特征点计算出一条具有表征能力的向量,这样每张图片都会得到一组数量不定的特征点向量。
在进行图像相似度比较时,会对两组图片的特征点向量进行分别匹配从而配对,从而得到两张图片的相似特征点关联关系。
这种路线的优点是受多个主体影响较小,因为特征提取时关注的是一个小范围的局部像素,因而可以对每一个主体分别匹配;缺点是局部特征技术比较成熟的如 SIFT 特征、HOG 特征都属于手工特征,提取得到的特征向量表征能力不如神经网络特征,因而容易把不相似的图片局部关联到一起;结合深度学习的局部特征提取方式虽然也在研究阶段,但暂时没有比较成熟的技术应用,并且局部特征匹配所需要的计算量非常大,在对检索速度有一定要求的任务中,局部特征不太适合引入。
图像检索技术方案如下:
为数据库中图片提取特征向量,建立特征索引库,用相同的方法为检索图片提取特征向量,将该向量与特征库中的向量进行最近邻匹配,计算欧式距离或余弦距离,从而找到最近似的图片,对找到的近似图片进行排序,并返回检索结果 本产品将采用最前沿的深度学习技术,运用最新的神经网络结构结合自研模块,在全球商标数据库上针对海量的商标图形元素信息进行训练,使得训练后的神经网络可以准确捕捉商标图片中的语义元素组成部分、位置、显著程度、主次关系等信息,从而针对性地分别提取全局特征和局部特征,在进行检索时利用开源和自研结合的高维特征最近邻匹配方法,优化计算量和检索速度使得在保证检索结果精度的基础上满足检索速度需求。
蓝灯鱼专利翻译产品
▼
蓝灯鱼专利翻译产品是一款自然语言分支机器翻译与专利文献相结合的人工智能产品。
市场需求
专利是具有国际和本地双重认证和保护特性,每年在PCT申请中,有大量的案件需要人工翻译、校对最终定稿的专利文献。一个专业的专利翻译门槛是非常高的,因为专利翻译大都涉及理工领域,遣词造句晦涩难懂。可以说每个案件的内容都需要字斟句酌才能理解原文和翻译成目标语言。在通常情况下是初稿、一审、二审才可能定稿。本产品的目标是解决初稿的翻译。
主要产品特点
在5000W专利文献中提取平衡语料,使模型在翻译过程中具有该行业语言描述特性的句子结构。针对该行业特点智能提取专利文献中的术语,对术语一致性进行统一处理。在训练中根据中文、英文、日文不同的而语言特性选中不同的参数,使模型在语言表达方面更接近人为翻译。从业10多年专家选用了机、电、化、不同领域的案子,对每一版本的模型进行评估和总结,使模型翻译结果更贴近行业特性。
主要技术点
Seq2Seq的深度学习任务,也是早起机翻的理论原点,基于这些理论。目前我们以tensorflow1.5的框架,transformer神经网络的模型为基础。在整体模型训练学习中,完全使用了transformer的特性,即注意力概念,该核心思想是更加关注词干机器身边词的关系。本产品通过对transformer神经网络的理解和语言训练的实际结合中,总结以下几点:
中英模型,以蕴涵关系(WNLI)为主导的学习方式: multi-head attention:将一个词的vector切分成h个维度,求attention相似度时每个h维度计算。由于单词映射在高维空间作为向量形式,每一维空间都可以学到不同的特征,相邻空间所学结果更相似,相较于全体空间放到一起对应更加合理。比如对于vector-size=512的词向量,取h=8,每64个空间做一个attention,学到结果更细化。
self-attention:每个词位的词都可以无视方向和距离,有机会直接和句子中的每个词encoding。比如上面右图这个句子,每个单词和同句其他单词之间都有一条边作为联系,边的颜色越深表明联系越强,而一般意义模糊的词语所连的边都比较深。比如:law,application,missing,opinion。
attention mask:简单理解为,遮盖,填空的的方式进行计算。
英中模型,以位置嵌入(relative)为主导的学习方式: position encoding:因为transformer既没有RNN的recurrence也没有CNN的convolution,但序列顺序信息很重要,比如你欠我100万明天要还和我欠你100万明天要还的含义截然不同。transformer计算token的位置信息这里使用正弦波↓,类似模拟信号传播周期性变化。这样的循环函数可以一定程度上增加模型的泛化能力。 中日和日中模型模型则采用了Fine-tune CNN/DM的单向的编码和解码方式。 本产品根据语言特点采用的不同技术处理,从语料生成即开始用不同分词方式进行个性化分词,使词典接近于语言特性。同时根据语料的大小对词典的大小也有同步设置,这些都是为了后续神经网络模型在训练过程中,避免了过拟合和欠拟合的现象发生。在翻译模型的训练中,运用最新的开源框架神经网络进行训练学习。通过不同problems设定,进行平均1000000步的迭代,使模型中的信息熵更加均衡和稳定。通工业化应用TensorFlow Serving发布模型面向客户。
蓝灯鱼专利检索产品
▼
蓝灯鱼专利检索产品是一款自然语言识别与专利文献检索的人工智能产品。
市场需求
在专利审查的过程中,会对专利的新颖性、创造性、特征性、实用性等维度进行考量,就要求了对一段话的所表达的含义进行充分理解。并且在专利的数据库中查找类似的案件出来,去比对两个案子的之间差别。在3000多万数据中,按传统方式查询可以分类查询,但没有近似度的排序,完全依靠关键词去定位,这样就漏掉了同义词、扩展词语义的信息。因此在查询时候特别依靠行业经验;尤其是跨领域的通用技术难度更会加大一些。
主要产品特点
本产品通过三种方式进行查询,AI语义的查询;智能分词查询;传统+扩展词查询。
AI语义查询,是通过对3000+万专利数据的自然语言学习而形成的神经网络机器模型。模型对50字到350字的语义理解有较突出表现。模型不但可以确定文字所表达技术的所在领域,对句子中的词干进行逻辑推理和蕴涵关系理解。从而从向量集合中查询最为近似的向量数据展现出来。该功能完全依赖有机器模型的训练好坏,是完整的人工智能实现方式。 智能分词查询,通过分词工具和基于神经网路模型训练,提取用户输入的内容。长短在1到500字皆可,但字数过多可能会带来排序干扰。因此我们建议短句或者用户主动输入的术语关键词的时候使用该功能。这样可以关键词进行精准匹配。同时,系统会智能判断用户输入词汇,过少的时候补充近似词,词汇过多时候保留最有意义的词汇。从而在性能与准确率之间达到平衡。系统保留了取出的词汇供用户二次筛选。
传统查询+扩展词查询。作为传统方式,系统仍然支持按申请号、公开号、申请人、申请日期等条件进行查询。同时为方便客户,该产品通过3000+万数据进行了近似词的神经网络模型训练,提供关键词扩展功能,增加了客户的同义查询,并且有用户手动确认,具有较强的可控性。
本产品将通过以上三种查询手段,结果力争达到与技术目标基本一致,包括主体和构成要素都基本相似,构成要素和主体均与目标技术相同或为同义。
主要技术点
本产品主要应用神经网络包括Word2Vec、bert二种神经网络模型进行机器学习。
近似词训练,Word2Vec 的思想,是利用一个词和它在文本中的上下文的词,神经网络基于这些训练数据将会输出一个概率分布,这个概率代表着我们的词典中的每个词是output word的可能性。模型的输出概率代表着到我们词典中每个词有多大可能性跟input word同时出现。通过给神经网络输入文本中成对的单词来训练它完成上面所说的概率计算。
句子相似度训练采用的bert,google推出的bert在2018大火,在自然语言上的表现笑傲江湖,在各个大赛中皆有突破。本产品即使用了tensorflow2.0、对Transformer结构的bert的语言模型进行调整;通过微调、对专利数据进行二次学习和迭代训练,形成新的应用模型,在反复迭代中,对各layer内容进行比对,获取最适合专利语言特性最终特征。基于bert的WNLI、MRPC、STS-B、SST-2的特性,清洗针对性的语料,使模型在细节理解性上得到了很好的表现。
蓝灯鱼公司介绍深圳蓝灯鱼智能科技有限公司成立于2018年,发起主要成员由知识产权资深人士、香港中大文实验室共同组建的团队。致力于人工智能的探索和研发,赋能知识产权行业。竭诚为知识产权行业的客户提供优质服务,为客户创造更大价值。
在知识产权的垂直行业中,我公司将深度学习的算法和行业特性结合,形成具有市场领先的产品。目前提供了商标检索、专利文献机器翻译、专利语义检索三个方向产品,欢迎行业内的客户使用,期望与您深入的合作。