当前位置: > 财经>正文

专访第四范式副总裁涂威威:GPT模型结构和学习方式限制了推理能力 大模型落地关键在于解决业务问题丨WAIC 2023 黄金财经分析软件哪个好用

2023-07-19 19:34:10 互联网 未知 财经

每经记者 张韵    每经编辑 魏官红    

2023WAIC大会上,正在冲击港股IPO的AI公司第四范式带来了式说大模型,其首秀的“大模型之城”汇集了公司在金融、零售、房地产、航空、制造、司法等行业最具代表性的大模型实践,受到广泛关注。

从大模型技术发展演进出发,第四范式副总裁、主任科学家涂威威在接受《每日经济新闻》记者专访时提出,类GPT模型结构和学习方式的瓶颈在于不具备逻辑推理能力,并表示未来的AI发展路径不是依靠文字背书,而是从“抄袭”人类行为的步骤转变为学习做这件事的目标,通过一步步学习更高层级的目标达到超越人类上限的效果,真正的通用推理模型尚未出现,大模型三要素比拼的核心不只是算力,更重要的是数据。

大模型进化基于商业化路径

NBD:对于技术圈而言,生成式AI的发展已历经数年,那么从技术演进的角度来看,用一个模型是如何从只能解决一个问题到可以解决多个问题的?

涂威威:自然语言处理(NLP)其实是一个老生常谈的问题,以前所有的做法都是用人工的方式筛选数据特征,再跑一个简单的模型,做个简单的任务,直到深度学习出现之后,大家开始在模型上做优化。

一开始,深度学习不能工作的原因是模型本身比较复杂,数据太少,如果放进一个参数规模很大的模型里,效果比较差,所以都放在一个小模型里跑,每个模型只能完成某一种任务。

后来,大家慢慢地把各种各样的任务混到一起去训练,发现这些模型之间会相互帮助,不同任务之间可以共享通行的参数,本质理论就是迁移学习,当然不是所有的迁移学习都会奏效,迁移学习也有负向迁移的问题。

在商业化上,像百度和谷歌,他们是最早把AI用到商业化系统里去的。

NBD:为什么最早是这几个公司先把模型做大?

涂威威:首先是一个投资逻辑,要把模型做大需要有大量的数据和算力,这些都是成本,在十几年前,我们在百度的一个搜索广告模型的参数量从千万做到了上千亿甚至上万亿的规模,广告推荐场景之所以能把模型做这么大,是因为它能立马变现。

那时候,我们发现随着数据和算力的投入,把模型不断变大,模型效果会越来越好,推荐的越来越准,变现效率也会更高。

深度学习出现之后,就像乱拳打死老师傅,比如图像领域,基本没有人再做视觉特征,而是直接加入CNN模型,所以图像很快发展起来。随着图像开源的数据越来越多,大家也就把模型层数越做越深,效果也越来越好。

NBD:相比机器学习、深度学习在商业应用上的快速发展,自然语言处理领域为何长期没有起色?

涂威威:NLP之前存在的问题,一方面是没有一个特别好的模型架构出现,另一方面是没有明确的商业化前景,所以大家不愿意投入

版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。