当前位置: > 财经>正文

智能金融的三驾马车之自然语言处理NLP 金融保险证券是三驾马车

2023-08-29 17:40:44 互联网 未知 财经

智能金融的三驾马车之自然语言处理NLP

什么是自然语言处理NLP

用通俗的话来讲,自然语言处理NLP的目标是让机器能够理解人类的语言,NLP就是人和机器进行交流的技术。用专业语言来讲,自然语言处理有狭义和广义之分。狭义的自然语言处理是使用计算机来完成以自然语言为载体的非结构化信息为对象的各类信息处理任务,比如文本的理解、分类、摘要、信息抽取、知识问答、生成等的技术。广义的自然语言处理技术也包含自然语言的非数字形态(如语音、文字、手语等)与数字形态之间的双向转换(识别与合成)环节。

NLP的历史发展

自然语言处理是人工智能的一个分支。伴随着人工智能发展的三次浪潮,自然语言处理迎来黄金发展期。

NLP发展的第一阶段是20世纪50~70年代,自然语言处理作为人工智能的一个分支,其源头和人工智能一样,都出自于计算机科学的祖师爷级人物——阿兰·图灵。图灵在提出图灵测试的时候,就把使用自然语言与人进行对话可以乱真的能力作为判别一个机器系统有无智能的标准。早期的自然语言处理“理性主义”学派盛行,是基于规则的范式主导的年代,基于人工规则的方式,使用规则引擎或者规则系统来做问答、翻译等功能。

NLP发展的第二个阶段是20世纪70年代后,此时NLP语料库不断丰富,以IBM沃森实验室为代表的前沿技术公司基于统计机器学习的方法,使NLP技术有了较大的革新。此时NLP的技术理论从理想主义向经验主义进行了过渡。上世纪九十年代开始,“经验主义”学派开始反超,基于统计的范式繁荣了近二十年。

NLP的发展的第三个阶段是2008年-2018年,随着深度学习的出现,并与自然语言处理的结合,NLP得到了飞速的发展,这是数据和算力积累到临界点的一次综合性的爆发。2018年Google的Bert模型被认为开启了NLP新时代,2023年2月的Gpt2模型,因为太强大担心被坏人破坏为由,只公开了部分模型。OpenAI 训练了一个大型无监督语言模型,能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA (state-of-the-art result,指的是在该项研究任务中,目前最好的模型的结果/性能/表现)表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

当金融遇到NLP

2018年,随着国内科研机构关于NLP的论文激增,NLP在国内迎来了发展的黄金时期。此时也正赶上科创板元年,NLP技术和中国版“纳斯达克”邂逅,人工智能、自然语言处理领域的创业变成了风口,也成为了未来几十年中国产业结构化调整,转型中高端的动能之一。

金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而自然语言处理(NLP)与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。

Gartner数据显示,在金融服务以及保险行业对人工智能的投入中,约有20%的预算投入到了自然语言处理(NLP)中,在人工智能各方向中位列第三。对NLP的投入通常在1年左右产生可观的商业价值,这也进一步增强了金融机构对NLP的热情。

金融AI的投入占比如图所示,其中图像识别第一,数据挖掘第二,语音识别第三,机器学习列第4,NLP列第6,知识图谱列第7。

智能金融NLP技术未来发展趋势 NLP和知识图谱KG结合

将NLP和KG结合意味着将知识和常识引入到目前基于数据的学习系统中。“NLP”和“知识图谱”是金融科技领域核心前沿技术,这两项关键技术在金融领域的应用场景高度重合,两者相互依托、互为补充。前者不断丰富后者的内容,后者则为前者提供背景知识的支持。同时,将知识推理融入到NLP和知识图谱的应用中来,形成“语义理解+知识支撑+动态推理”的最佳范式,可以提供自然语言分析结果的“可解释性”,这点对于金融行业来说至关重要。

经验主义、理性主义缺一不可

一般认为,NLP主要有两种研究思想和方法,第一种是理性主义方法,其主要思路是通过归纳语言学规则来分析和生成语言,优点是语言表达结构和组成成分可以借助规则直接清晰地表示出来,但规则过于“刚性”会导致无法处理例外情况、鲁棒性差、规则获取和更新代价高等问题。另一种研究方法是经验主义方法,主要是采用机器学习(特别是统计学习)从语料集中自动或半自动地获取语言学统计知识来构建模型,然后对新的文本进行推断。目前最热门的深度学习也属于经验主义方法,近年来取得了快速进展和广泛应用,在学术界和企业界备受瞩目。对于金融领域的NLP应用来说,经验主义和理性主义这两方面不应是“离异”状态,而应该积极的“联姻”,就如哲学家培根所主张的,既反对狭隘的理性主义,也反对纯粹的经验主义。具体说来,以逻辑推理为代表的符号主义与神经网络为代表联结主义的深度融合应是未来最具发展潜力的方向之一。

目前NLP技术在自然语言的深度理解方面,仍然存在大量的探索空间,例如如何准确处理篇章范围内的指代消歧;如何正确理解比拟、比喻和隐喻等。随着金融NLP经验主义与理性主义研究方法的融合提升,并且与知识图谱、智能推理等进一步结合,

版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。