当前位置: > 财经>正文

对话潞晨科技尤洋:AI 大模型没有知识产权,只有开源才能走得更远丨AGI 十人谈

2023-07-18 08:02:18 互联网 未知 财经

一个好的AI生态要有三四千家企业去贡献。

作者丨何思思

编辑丨林觉民

2023年北京中关村多了一家科技公司——潞晨科技。

作为一家创业公司,潞晨科技这个名字可能还不被大家所熟知,但是其创始人尤洋却凭借“ACM SIGHPC杰出博士论文奖、NUS校长青年教授、亚洲福布斯30岁以下精英榜”等多个头衔,被业界熟知。

谈到最近火出圈的大模型,其实尤洋早在2018年就参与了谷歌BERT的训练,并把训练时间从3天降到了76分钟。据尤洋介绍,至今仍有企业在使用当时训练BERT时设计的方法。

而潞晨科技的创立要从2023年说起,彼时的尤洋刚刚从美国加利福尼亚大学伯克利分校毕业并获得博士学位,这一年 OpenAI 发布了当时全球规模最大的预训练语言模型 GPT-3,正是在这时尤洋有了做大模型的想法。

尤洋告诉AI科技评论:GPT-3出来时并没有出圈,但当时我就预判到大模型一定是未来的一大发展趋势,因为疫情影响,所以一直在等一个机会。

直到2023年这个想法才真正落地了,同年7月尤洋只身一人创办了潞晨科技,同时这件事情也受到了资本的青睐,成立近一年半的时间潞晨科技已经完成了3轮融资。其中包括了创新工场、真格基金两家VC机构的超千万元投资。

值得注意的是,创立之初潞晨科技就选择了一条和其他厂商不同的路线,即不做通用大模型,围绕降本增效做文章,本质上是为了降低大模型的训练成本,提高大模型的训练速度。

缘何这么做?

尤洋曾公开表示过,过去六年大模型参数量每18个月增长了40倍,过去三年每18月增长了340倍,而硬件的增长速度大概每18个月增长1.7倍,完全跟不上节奏。训练成本高、周期长,是当前大模型企业最需要克服的难题。

同时,他还表示,我的本职专长是研究高性能计算,用很朴实的话说,就是想办法让大模型训练的越快,越省钱。

可以说,尤洋选择的路线是验证其研究成果最有效的途径。

AI科技评论了解到,目前潞晨科技的研发主要分为三部分:一是做大模型训练系统——Colossal-AI;二是训练100亿到200亿参数的行业模型;三是做PaaS(Platform as a Service)平台。其中Colossal-AI系统已经有世界500强,2000强的客户在使用。

“现阶段的重点是Colossal-AI系统的开发,未来不管是GPT、PaLM还是任何一家大模型都可以用Colossal-AI训练,因为我们的系统就是帮他们省钱省时间的”尤洋补充道。

谈到具体能降多少成本?

尤洋这样说:“假如用最基本的方案训练GPT 大概要1000 万美金,假如用业界最好的方案,能把成本降到300万美金,我们的方案则可以降到140万美金,也就是在最便宜的方案上再降一半,当然这些是绝对优化,如果加上收敛性优化可能降的会

版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。