欢迎大家关注我的视频号:傅盛
观看相关短视频
猎户星空大模型,专为企业应用而生。
2023年5月,我们在服务一个客户时,他们提出了一个需求:“能不能帮我私有化部署大模型?”
但是当时一个千亿参数大模型一年私有化授权费用就是几千万,到今天应该还是,然后私有化部署以后,买服务器的费用最低成本160万(当时的价格)。客户说,“我们其实就想做一个客服,AI大模型被讲的那么牛,一年投个几千万难以承受,再高深的技术最后也得算账,我不能因为有这个技术就用,用了以后比我现在的成本高几十倍,有没有更便宜又不损失性能的方案?”
一、千亿全面,百亿专业
在我们自己的实践中,我们就给客户做调试,后来发现用百亿参数的模型,加上客户自己的私有数据,再加应用的打磨,效果是可以约等于甚至大于千亿参数大模型的。
虽然千亿参数大模型全面性更好,比如让它做一道奥数题,回答法律知识,它的面会很宽,但是在企业场景当中并不需要做奥数题,只要在一个专业点上做好就可以了。所以不同专业的应用领域,用一个百亿参数把数据打磨好,把应用做好,它就可以满足需求,而且更具性价比。
我当时有一个演讲说,有经济实力的公司全在卷算力,他们的梦想是造出一个“爱因斯坦”,再解决几个物理定律。还有一帮开源社区的极客爱好者,用更小的资源、更精巧的算法去实现智能,所以当时提出平民化大模型,每个人都可以随便用的大模型。
百亿参数足够,成本又非常低,每个企业都将进入私有化大模型的时代,任何企业都可以有自己的大模型服务器。
二、七年磨一剑,打造专为企业应用而生的大模型
七年磨一剑。我们在AI行业投入了很长时间,现在已经打造出了顶级的团队。经过各种算法的尝试、多种服务器的使用和多种大模型的训练,共同打磨出我们的五个优势部分:顶级团队、算法理解、场景认知、应用打磨和数据累积。
我们今天发布的猎户星空大模型,专为企业应用而生。
猎户星空训练了140亿参数的大模型,在企业应用的专业场景中可以实现千亿参数的效果。在发布大模型基座的时候,我们做了7个应用方向的微调,在很多测试集榜单上名列前茅,很多用户也都说我们调得不错。
评判一个模型的应用是否调得好,需要在方向上积累非常专业且高质量的数据,我们做到的同时还提供“千元显卡即可运行”的目标。让人骄傲的是,我们也做到了,所以担得起这三个词组的评价:用得好、用得起、用得安心。
(1)行业领先的百亿参数大模型基座能力
我们经常可以看到,有些大模型在榜单上靠前,但用起来却很一般。这是为什么?
因为可以对大模型进行“应试教育”,从而在榜单上刷出很高的分数。但我跟团队说,不能为了分数就去进行“应试训练”,所以猎户星空发布了“素质教育版”。在这个版本里,我们不刷题,保证它遇到没有见过的新问题时,水平是一致的。
再来看素质教育版本基座能力,在200亿参数以下,我们在所有大模型的评测平台上的分数都很高,这代表了较强的基座能力,也意味着犯错的几率会很小。
(2)700亿参数以下基座模型中文第一
在综合评测机构OpenCompass的测试中,我们比720亿的千问得分略差一点,但700亿以下的范围内,我们的得分都是最高的。这标志着我们发布的大模型的基座能力能够在企业应用当中替掉很多三四百亿参数模型。何为参数?可以简单理解成网络复杂度,百亿参数模型比千亿参数可以省出90%以上的私有化部署成本。
(3)支持320K tokens 超长文本
另外,猎户星空可以支持320K的tokens,一个token相当于1-2个汉字,可以一次性读取50万字的文档。经过我们的实测,对30万字的文档里的任何一句话进行提问,它全部可以回答出来。最早的时候大概只能支持千字量级的文档,文档过长的话,需要做大量的匹配工作。而现在,相当于一本几十万字的侦探小说,让它读完之后,问它杀手是谁,它立马能回答出来。
(4)INT4量化性能损失低于1%
量化性能的损失低于1%。把它的模型缩小到原来的几分之一大小,它依然能够实现原来模型99%的性能,我们把这叫作“减脂不减肌,无损压缩”。模型大小降低70%,推理速度却提高30%,这意味可以用非常便宜的显卡运作起来。我之所以说企业的私有化大模型时代到来了,正是因为服务器成本和运营成本会降到可以忽略不计的地步。
(5)日语、韩语评测百亿模型全球第一
除了以上的优势,我们还加入了日、韩语能力测评。
以前我们做服务机器人的时候,每进到一个餐厅就得做适配,这让我们很苦恼。以前,在海外销售的服务机器人不具备多语言能力,很多可能性被钳制住了,现在有了大模型,日语、韩语可以做到很好的交流,能够进一步扩宽市场。
在评测指标上,今天发的140亿参数的猎户星空大模型是所有200亿参数以下各项评测性能最好的,但是跟GPT的全面性仍然有一定差距。不过,通过各企业应用定义好垂直场景,通过数据和应用的打磨,我们已经实践出在应用场景上超越GPT-4的可能性,这不是妄想。
三、下一个里程碑,专注百亿大模型
今天我们发布这个大模型之后,下一步准备怎么做?
最近业内开始出现一个叫MoE的构架。所谓MoE构架,是用多个模型进行集体决策,完成对一件事情的判断。今天在业内发的论文里,8个百亿参数模型的联合运行,其性能的某些指标已经超过了GPT3.5。这就像很多火箭公司都在打造一个更大更强的发动机,SpaceX做了一个核心的发动机,绑成9个就是猎鹰9号,绑成27个就是猎鹰重型,它用一个极简的可复制的构架完成了最大载送量的火箭,而不是去从头造一个特别独一无二的发动机。猎户星空正在做同样的事情,专注在百亿参数模型的性能提优,保证通过新的构架完成基础能力的不断提升。
为了让企业更好地应用,我们独家推出微调全家桶。微调指一个基座只有技术人员可以使用,这个时候就要有一个微调方向,去解决这个问题。我们做了一个聊天的微调大概用了15万条高质量的数据,有的是发完了以后再做的微调,有的时候是自带的插件微调。
大模型要和传统的程序有一个接口,这个接口调用一个插件,我们也针对插件做微调。除此之外还有专业问答,通过微调进行大海捞针,之后生成。
这些方向基本上都是我们通过不断实践、和客户摸索出来的。微调只是相对大模型的预训练称为“微调”,但其实工作量并不小,而且哪个数据能够让大模型表现更好,都是一点一点打磨出来的。
在七个微调方向里,我们重点打磨的两大方向为RAG和Agent。这是今天AI大模型浪潮里非常重要的两个方向。
RAG即专业知识问答,它更学术化的名称为“检索增强生成”。比如,当你问大模型:“为什么周鸿祎先生要穿红色衣服?”如果没有做RAG的检索增强,他可能就会说:“因为可能他喜欢红色”。我们看过各种原因,包括“他喜欢红色”、“红色是他的吉祥色”“今年是他的本命年”等等,这些结论是它根据泛知识做的大致推理。而做了检索增强以后,它会根据背景信息去重新生成检索,给你一个正确的回答:因为他的名字经常被人读成“周鸿伟”,他穿红衣是为了提醒别人他是“鸿祎”。这个回答他曾在几次演讲当中说过,但是不一定是互联网上的公开数据集,因此如果没有检索增强,就很容易出错。
RAG被很多行业人反复提及,并且有了专业术语。但是真实的情况是,如果你不深入做,虽然很快可以给别人Demo,但是半年都用不好,因为将准确率把控好非常困难。
今天开源社区有很多RAG套件,基本上往上一套之后再把文档一换就可以回答了,但是这个回答往往准确率不够高,而我们这次推出RAG套件是一系列的组合,能够保证极高的准确率。我们在内部做了一轮评测,准确率远远高于对手,这不是大模型基座单一的能力,而是与RAG套件统一合作完成的。
有一个概念叫“数字员工”。但是,目前的数字员工能力很低,基本上就只能对文档给出提示。要想真正地将企业应用与专业知识深度融合,做到和人一样准确的回答,需要RAG套件。
Agent是硅谷今年特别火的方向。它帮助大模型实现人类的记忆、行为规划等等一系列的事情。Agent用得最多的场景是和传统的系统接口之间调一个打开接口。
这件事听起来很简单,但是并不容易。因为大模型常常回答不稳定,如果不做足够多的微调,问它同一个问题就会出现不固定的答案,或者难以从一句话里找出关键点。
在Agent所需要的五种能力中,猎户星空大模型均接近GPT-4的水平,其中包括:意图识别成功率90.3%、首轮抽参成功率100%、多轮抽参成功率90%、缺槽反问成功率91%、插件调用成功率91%。
为了保证大模型跟你的系统接口不出错,保证大模型能够稳定运行,就需要套指标。我们评测过很多同等参数量的模型,能够超过70%都很难。比如我问:“北京今天天气怎么样?”它得知道你问的是天气,还是北京的天气,而且每次保证足够的稳定。我们最近想要把我们的经营数据和大模型打通,这套工作程序非常复杂,但是能够稳定输出,因此需要试一试。
综上所述,要先把RAG和Agent两个套件用好,企业数字员工才能够落地。否则用一些公开接口、一套开源数据库、开源向量数据库或构架去提升准确率的话,完全没法应用。
四、实现企业应用AI的王者段位,打造“数字老板”
我们这次发布的140亿参数大模型,完全开源免费,还可商用。之后,我们还会成立免费的社区支持群,将微调应用方向开源,以此希望促进大模型行业不再只是技术狂欢,而能够真正落地,我们甚至期待更好的技术大模型的出现。猎户星空百亿参数大模型,我们认为它是企业标配的首选,值得企业们为我们驻足。
通过以上的讲解可以看出,我们的产品差不多算是达到黄金段位了,但是还未登顶王者段位。不过,我们正在帮助企业走向AI应用王者段位的路。
真正要实现王者段位,就要让AI和企业的经营数据全绑定,一步一步深入,为企业提供决策支持。我们当时提出了一个叫AI基地的概念,AI产生决策,而不是内容,一个企业要真正到达王者段位,需要AI辅助决策。
为此,我们推出了一个强应用套件——聚言。聚言专门用作咨询服务,当企业或员工遇到难题时,它可以教课、做培训,它帮助企业老板提高决策效率,增加企业决策准确度,是一种真正意义上的“数字老板”。
我们做了三个重点的强应用,在这几个强应用上还提供保姆式的服务,真正通过应用+调试+流程整合一条龙服务,全程帮用户进行落地。我们专门参考传统咨询公司的做法,提供的服务包括从业务流程如何组织体系改造,到方案设计、大模型的选型、实施、培训等。我们提出交钥匙解决方案,保证AI的应用效率可以做到行业领先。
虽说基础模型和模型工具大家都有,但在今天再回头看,跟着应用一起生长出的几个套件才应该是真正的重点,而这套解决方案是跟客户一起打磨出来的,不是在办公室里想出来的。
其实,AI不是一把手推动,就没有办法真正推下去。而AI真正的提效不在于数字员工,而是老板,老板的效率高那么整个公司就活了。
杰克·韦尔奇说:“老板是最后一个知道公司要倒闭的人。”其因为很多经营的细节是散落在很多地方,只能通过一个个人的汇报了解总体情况,而且听汇报的效率和精力都是有限的。
接下来,我有三个问题问老板们:
(1)如果你是企业的一把手,你真得听得到一线的呼声吗?
HR一直是很难数字化的部门,因为在大模型出现前,每个人的工作都通过文字表达,所以过去的系统很难真正做到对员工工作状态有足够了解。
我想很多老板对一线员工的理解往往停留在他们是否繁忙、是否辛苦的层面,却并不知道他们在忙什么。常常出现的情况是,整个公司都在做战略项目,一线却少有人做。当我们在策划这个产品的时候就想要帮助老板解决这个难题,真正帮企业提效,找到AI比人擅长的地方,而不是简单替代人。
AI真正比人擅长的地方是可以读数千份文档,做出归纳总结,它的广度和精力一定比人强,它做出基本的推理一定能够起到决策支持的作用。
(2)你知道公司的云成本花到哪里了吗?
猎豹移动是当时亚马逊在海外最大的中国客户,我们很早就对亚马逊在全球的部署深度参与,当我们的海外业务遇到阻碍的时候,把整个云的运维队伍分拆出来成了一家公司,帮助各个中小企业和出海企业上亚马逊云和谷歌云,仅就这一个业务,它的复杂度让我自叹才疏学浅。后来才发现这是一群极其深度的工程师,他们的语言对外几乎无法交流,CEO不懂云,CFO不敢得罪CTO,业务部门总是申请更多的云资源,但很多时候都不怎么用,CFO又不了解业务的细节,所以云就变成闲置资产。正是为了避免这样的事情再次发生,我们在上面开发了针对这项功能。
(3)是否为新营销策略而苦恼?
今天的一份咨询报告十分昂贵,如果找ChatGPT解决需求,虽然他的回答听起来有用,但实用价值并不高,为此,我们构建了几个Agent互相讨论的工具,可以给出一些有价值的营销策略。
因此,聚言聚齐了我们考虑的各个方面,希望成为老板真正的决策助手,让AI进入全流程和经营决策的,并跟随客户一起生长,在未来越来越有实用价值。
五、2024年预测
接下来,我想对2024年AI做三点预测:
第一,千亿大模型真正使用起来很少。
在这一轮大模型竞争中,千亿大模型并不需要那么多,但是私有化百亿大模型会百花盛开,相信更多的企业会部署私有化的百亿大模型,真正帮助企业经营提效。
第二,超越Open AI的机会来自AI应用创业公司。
今天很多朋友去美国看,他们回来跟我说,这一波AI的应用创业在硅谷实在是太火了。回想Web时代的互联网创业,中国可能和美国是1:1的比例,但是这一波AI创业在硅谷至少是我们的好几倍。硅谷已经有了AI应用一条街,那条街上全由AI创业公司组成,他们将大模型的能力和实际运用相结合,让AI参与到生活中。
第三,数字老板是成功企业的标配。
以后董事会考核CEO使用AI的时长,如果一个CEO用AI用得少,那就意味着他一定会落后于这个时代。
小结:
最后我想说,今天能够站在这里我感到非常激动,今天讲七年磨一剑,实际上是七年时间都在探索,今天可以说意识超前,但是事实上压力非常大。
Think Different看上去很容易,实际却很难,失败的风险也很高。我们看到的创新成功案例,是无数个创新者、创业者在不断寻找方法,前仆后继失败的人之后冒出的那几个人。我们不一定可以成为最终冒出头的人,但是要做一往无前的人,因为每一份的努力都有意义。
猎户星空大模型开源地址 :
https://github.com/OrionStarAI/Orion
https://huggingface.co/OrionStarAI
扫描下方二维码,关注傅盛视频号,观看直播回放,了解详情