清华90后首轮融资20亿打造大型模型ToC超级应用

日期:2023-10-17 12:36:55 / 人气:28


Moonshot AI可以说是中国最神秘的创业公司之一。
它的创始人杨教授是清华大学交叉信息研究所的一名31岁的年轻科学家,曾在FAIR和Google Brain工作,是Transformer-X和XLNet论文的第一作者。
这两篇论文在深度学习领域影响深远,在谷歌学术的总引用次数达到了惊人的数万次。
但是,学霸的人生并不是一开始就开放的。杨在小学和初中的时候,他的父母对他的成绩并没有很高的期望,所以他被给予了更多的自主权。
高中时,毫无编程基础的杨被选入奥赛培训班,最终通过比赛保送清华。师从中国最著名的人工智能研究者之一唐杰教授,在校四年一直保持年级第一。除了繁重的学业,他还组建了Splay乐队,并成为一名鼓手和创作者。
在卡耐基梅隆大学(CMU)攻读博士学位期间,他还师从苹果人工智能研究负责人鲁斯兰·萨拉胡季诺夫(Ruslan Salakhutdinov)和谷歌首席科学家威廉·科恩。他花了四年时间完成了通常需要六年时间完成的CMU博士项目。
今年6月,硅谷颇具影响力的科技媒体The Information列出了5个有可能成为“中国OpenAI”的候选人,包括MiniMax、智普AI、光年超越、蓝洲科技,另一个职位是杨,都是公司,他直接是个人。
10月9日,成立仅半年的大模创业公司Moon Shot AI宣布在“长文”领域取得突破,推出首款支持20万汉字输入的智能助手产品Kimi Chat。也有人说,这是目前全球市场上能有成效使用的大规模模型服务所能支持的最长上下文输入长度。
与市面上以英语培训为主的大型模特服务相比,Kimi Chat最大的特点就是强大的多语言能力。
比如Kimi Chat在中文方面优势显著,实际使用效果可以支持20万字左右的上下文,是Anthropic公司Claude-100k(实测约8万字)的2.5倍,OpenAI公司GPT-4-32k(实测约2.5万字)的8倍。
这也是Moonshot AI在大模型领域做To C超应用的首次尝试。相比于杨之前开创的面向的循环智能,他反复强调Moonshot AI是一家ToC公司,追求大模型时代的超级应用。
据悉,除了杨,两位联合创始人和也出身于清华。团队也有来自谷歌、Meta、亚马逊等巨头的海外人才,成员约50人。今年6月,Moonshot AI被曝完成首轮融资,已获得红杉资本、今日资本、理思资本等知名投资机构近20亿元融资。
杨表示,目前市场对估值的说法是不准确和偏低的,将通过官方形式正式公布。第一轮融资和下一轮融资将主要用于技术产品的研发和团队扩充。
大模型输入长度有限?
这次直接支持20万字。
目前大型号输入长度低,极大地制约了其技术落地。比如现在大火的虚拟角色场景,因为缺乏长文能力,虚拟角色会很容易忘记重要信息。比如在角色AI的社区中,经常有用户抱怨“因为角色在几轮对话后忘记了自己的身份,不得不重新开始新的对话”。
那么,长上下文输入后,大模型实际上会有什么样的表现呢?
比如微信官方账号的长文直接交给Kimi Chat帮你快速总结分析:
新发布的英伟达财报交给Kimi Chat快速完成关键信息的分析:
业务发票太多?将它们全部拖入Kimi Chat,并快速组织成所需的信息:
当发现一篇新的算法论文时,Kimi Chat可以直接帮你根据论文重现代码:
你只需要一个网站就可以在Kimi Chat里和你喜欢的原神角色聊天:
输入整本书《月亮与六便士》,让Kimi Chat和你一起读,帮助你更好地理解和运用书中的知识:
我们可以看到,当模型能处理的上下文变长,大模型的能力就能覆盖更多的使用场景。同时,由于问答和信息处理可以直接基于全文理解,大模型产生的“错觉”问题也可以在很大程度上得到解决。
目前Moonshot AI的智能助手产品Kimi Chat已经开放内测。
解决算法和工程的双重挑战,不走捷径。
一般来说,从技术角度来说,参数数量决定了大模型支持多复杂的“计算”,能接收多少文本输入(即长文本技术)决定了大模型有多少“内存”,两者共同决定了模型的应用效果。
支持更长的上下文,意味着大模型有更多的“记忆”,使得大模型的应用更加深入和广泛:比如通过多份财务报告进行市场分析、处理长篇法律合同、快速梳理多篇文章或页面的关键信息、基于小说设定的角色扮演等。,都可以在长文技术的加持下完成。
杨指出,长文技术的发展固然是目前大模型发展的一个重要方向,但有一些“捷径”对效果是非常有害的,主要包括以下几个方面:
“金鱼”模式的特点是容易遗忘。(比如10万字的用户访谈录音,不可能提取出最有价值的10条意见)。
“蜜蜂”模式的特点是只关注局部,忽视整体。(比如不可能从50份简历中归纳总结出候选人的画像)。
“蝌蚪”模型可以通过减少参数数量(例如,减少到数百亿个参数)来提高上下文长度。虽然它可以支持更长的上下文,但它不能胜任大量的任务。
“简单的快捷方式无法达到想要的产品化效果。为了真正做出可用、易用的产品,我们不能走虚假的捷径,而应该直面挑战。”杨对说道。
在训练层面,如果你想训练一个支持足够长的上下文能力的模型,就不可避免地会面临以下困难:
如何让模型在不降低其原有基本能力的情况下,在几十万个上下文窗口中准确地顾全所需内容?
在数千亿参数级别训练长上下文模型,带来了更高的计算能力要求和极其严重的内存压力,传统的3D并行方案已经难以满足训练要求。
由于缺乏足够的高质量长序列数据,如何为模型训练提供更有效的数据?
在推理层面,在获得支持长上下文的模型后,如何让模型服务于众多用户也面临艰巨的挑战:
在Transformer模型中,自我关注机制的计算量会随着上下文长度的增加而呈指数级增长,用户需要等待非常长的时间才能得到反馈。
超长上下文导致内存需求进一步增加:以1750亿参数的GPT-3为例,目前最高单机配置(80 GiB * 8)最多只能支持64k上下文长度的推理,超长文本对内存的要求可见一斑。
内存带宽压力大:NVIDIA A800或H800的内存带宽高达2-3 TiB/s,但面对如此长的上下文,naive method的生成速度只能达到2-5 token/s,使用体验极其卡顿。
总之,Moonshot AI的技术团队通过创新的网络结构和工程优化,克服了上述困难,完成了大内存模型的产品化,不依赖滑动窗口、下采样、小模型等大大损害性能的“捷径”方案,才有了这款支持20万字输入的千亿参数LLM产品。
杨此前曾表示,无论是文本、语音还是视频,对海量数据进行无损压缩都可以实现高度智能化。
无损压缩相当于预测数据的联合概率分布,找到与多模态数据的重合点。多模态数据的形成本质上是数据的联合概率分布预测,上下窗技术对实现多模态非常重要。
Moonshot AI之所以选择上下扩展的策略来提高模型技术的响应效果,源于团队对模型技术底层的理解、技术能力以及对相应需求的捕捉。
他认为,更长的上下文长度可以为大模型带来全新的篇章,将模型从LLM时代推向L (long) LLM时代。更长的上下文长度只是Moonshot AI在下一代大模型技术中迈出的第一步。"

作者:沐鸣娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 沐鸣娱乐 版权所有