作者 | 曾响铃
文 | 响铃说
几秒钟写出了一篇欢迎词;
(资料图片)
小说人物乱入现实,快速创作不重样的故事;
鼠标一点,一封英文工作沟通邮件撰写完成;
准确解出数学应用题,还给出解题步骤;
甚至还能理解人类情感,认识同一个词语在不同场合下的含义……
在一片掌声中,不久前的科大讯飞“星火”认知大模型发布会,以现场实机的方式,第一次向业界展示了中国的大模型能力所能达到的程度。
科大讯飞董事长刘庆峰称,在文本生成和数学能力(一定程度代表通用认知大模型的智慧水平)上,星火认知大模型已经国内显著领先,且相比ChatGPT也具有一定优势;在语言理解和知识问答方面也达到接近ChatGPT水平,处于国内领先水平。
大模型的能力无疑是令人惊叹的。OpenAI的CEO奥特曼曾经说,数据量大了,模型大了,就突然就出现了令人惊喜的结果,他也不知道为什么。
刘庆峰在接受采访时表示,星火对一些问题的回复,“不知道它怎么懂的”。
这一类现象,正在接近人工智能领域期待已久的“智慧涌现”(Emergent Intelligence)。
如刘庆峰所言,统一的深度神经网络大模型在输入多元多模态的数据后,可以就所有非特定领域“触类旁通”,而不需要专门以特定的问题去训练。
智慧涌现从根本上告别了预设认知的“知识图谱”AI模式,在走向真正的认知智能。
在国内大模型遍地开花的大背景下,“智慧涌现”将成为共同的愿景。
而谁才能最先做到“智慧涌现”?
越来越多现实表明,作为一种技术创新,大模型也需要和其他技术创新一样,实现从技术能力到生态伙伴到产业应用的打通。
如刘庆峰所言,是要找准“最解决社会刚需而又有市场规模能够自我造血的点”,不断反哺技术创新提升,最终要实现“良性循环”。
只有良性循环,才能不断强化和提升,实现智慧涌现。
反过来,拆解当下大模型实现良性循环的几个要求,智慧涌现的实现也就自然而然了。
能力有链条,才能真正“智慧”
“星火”发布了七大能力,文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态。
这是通用人工智能的七大维度,很多厂商也基本上都跟随chatGPT进行了布局。
但科大讯飞对它们的各自认识却并不相同。
在“星火”发布会上,刘庆峰表示,5月份星火还要进行一次迭代,增加更多的插件机制。
“有理解能力就可以做很多插件机制。”
在刘庆峰看来,“自然语言理解水平到位,才能最后让大模型真的作为一个工具,能够把各种插件充分的调阅起来”。
也即,在科大讯飞的布局中,语言理解能力不仅仅是在发布会现场让观众发出惊呼,更重要的是它的强化,能够让大模型整体的能力“接驳”到不同的场景中去,API能够理解复杂的指令、给出切中需求的结果。
所以,语言理解能力对友商的领先,也被刘庆峰视作“独特优势”。
与此类似的,还有科大讯飞宣布“星火”6月份将有一次重大升级,其中数学理解要强化。
这背后,是科大讯飞认为“数学能力是代表大模型聪明程度”,“数学理解在智慧涌现中能够帮助到其他能力”,因此,在评价对国内竞品有代差级优势后,还不满意,还必须针对性强化。
此外,知识问答能力,也在发布会现场被刘庆峰透露要具体到垂直场景中,例如可以在医疗领域发挥价值。
可见,科大讯飞虽然发布了7大能力,但内在不同的能力却有自己的定位,形成了链条,有针对性的优化调整。
对大模型而言,只有这样,才能做到真正“智慧”,并让教育、办公、汽车等大多数场景和个体感受到“智慧”。
当然,完成七大能力的构建,尤其是针对性的能力提升,并非只有一个宏观认识就足够了,还离不开长期的技术储备。
早在2011年,科大讯飞就获准成立语音及语言信息处理国家工程实验室,2017年,科大讯飞又成立认知智能国家重点实验室,一系列技术创新和进步不断积累。
例如,2015年语音转写首次超过人类速记员、2017年通过国家执业医师资格考试、2019年SQuAD机器阅读理解全球首次超过人类平均水平、2022年OpenBookQA 科学知识推理单模型超过人类平均水平,等等。
这些,成为“星火”七大能力的基础,是科大讯飞2022年年底启动“1+N”(1个通用认知智能大模型、N个领域落地)认知大模型专项攻关的前提,也是“星火”能够在语言理解等特定能力上有独特优势的保障。
离场景更近,才能快速“涌现”
GPT-4发布后,并没有公布其参数量,这被视为走向商业化的准备。
毕竟,截止4月,微软向OpenAI已投入130亿美元,2023年,OpenAI预期还要实现数亿美元的营收,来开启“回报”的进程。
不论什么大模型,最终都必须走向商用、服务企业,创造专业价值,才能实现发展运营的良性循环——自我造血,是最大的良性循环。
实际上,“智慧涌现”,也并不仅仅指的是AI能力的触类旁通,更重要的还有各个场景下AI应用所产生的惊人效果。
要实现这种“涌现”,就必须加速AI能力向产业的落地。
包月、按量收费、VIP一对一……不管是什么样的商业模式,大模型背后的厂商所拥有的场景积累,决定了“涌现”的速度和深度。这是大厂的“基因优势”,可以直接结合过去一直在进行智能化场景业务来推动chatBOT能力落地。
典型的,还有“星火”发布的同时,科大讯飞就在现场同时发布了教育、办公、汽车、数字员工四大行业应用。
从目前的市场状况看,大模型的场景“涌现”,厂商能够在三个方面展现过去业务积累的价值。
1、离产品最近
很多过去就带有智能化能力的硬件和服务,可以直接接入大模型来实现能力的升维。
例如,“星火”接入科大讯飞AI学习机,让该产品实现中英文作文类人批改,;另外,讯飞智能办公本产品也直接受益于大模型,可以实现会议纪要的高效、精准、扼要整理,以及语音转写文稿的规整化。
目前,讯飞智能录音笔、讯飞智能麦克风等办公产品也在接入“星火”。
2、离产业最近
To B的智能化转型服务原本就是AI的主战场,现在可以直接引入大模型。
“星火”接入智能座舱,与科大讯飞为数千个车型提供智能语音交互服务有直接关系,现在这种交互变得更自由、更拟人化。此外,“大模型+数字员工”,在企业招聘、营销售后等方面能为企业提供更拟人甚至超越人的工作能力。
正如科大讯飞计划在医疗、城市、政法、工业等行业引入大模型,To B市场上已有的智能化服务都有接入大模型的可能性。
3、离生态最近
将已有的资源接入大模型,大厂们还需要更多伙伴的协同。
刘庆峰在接受采访时表示,“一定要靠生态共荣来做”,他透露,有首批来自36个行业的3000余家企业开发者将接入星火大模型。发布会上,科大讯飞还启动了“2023 科大讯飞AI星火营生态计划”。
这背后,也离不开科大讯飞已有的、来自千行百业的400多万开发者生态。
大模型的落地,不是只有把技术接入产品、服务卖给客户,没有生态运营能力,也很难“循环”起来。
力量成建制,才能持续进步
有链条定位的能力,离场景更近,“良性循环”就能够滚起来。
而这种滚动能够不断持续下去,还需要厂商本身在战略、战术、团队等方面建制化力量。
这不仅是对加入大模型竞逐的创业团队提出的严峻要求,也对大厂管理运营能力提出了要求。
草台班子,或者没法力出一孔推出新业务的大厂,做不到良性循环的持续。
刘庆峰的信心,很大一部分也来自这样的成建制力量。
在战略定位上,科大讯飞承载着认知智能唯一的全国重点实验室,“星火”的出色表现,某种程度上也是国家层面的幸事。
在战术上,科大讯飞没有闷头做技术和产品,而是以认知智能全国重点实验室会同中科院人工智能产学研创新联盟、长三角人工智能产业链联盟等业界权威力量,面向整个行业推出了通用认知智能大模型评测体系。
通过七个方面481个维度的分解,通用人工智能能力的评价有了一个相对更客观的评价标准。
一方面,在大量跟风入局的大背景下,技术的好坏不再凭借厂商各自的品牌宣传。
科大讯飞就试图用这套体系来客观讲述其大模型各项能力的水平。
例如,在英文的邮件、广告文案、招牌广告、新闻通告等事项上,5分制下,ChatGPT为4.48分,而“星火”达到了4.29分,领先国内同行,与ChatGPT十分接近。
这就使得市面上那种单一问题评价的方式(不管是官方的,还是测试者的体验报告)被摒弃,体系化的方式更令人信服。
一些行业乱象或也将被肃清。
另一方面,评测标准反过来也是指导标准,能够帮助更多入局的厂商更好地优化自己的技术和服务。
正如刘庆峰在采访中所言,“一方面对自己的研究做到什么程度是一个指导,指导我应该怎么做得更好,每一个阶段的版本进步在哪,有哪些缺点;另外一个也是用它来真的来看,根据不同的应用,应该关注哪些能力。”
评测体系的出现,一定程度上表现出全球大模型激烈竞争下,国内行业领头羊所承担的行业职责。
在团队上,科大讯飞“星火”核心团队目前有200人,大部分都是85后90后的年轻团队,每个领域分了8个子项目,每个课题的领军人物都在这个领域中做了8~10年。
而200人之外,刘庆峰介绍,还有支持团队1000余人,以及更外圈10万人的兼职数据标记团队。
这个整齐有序的团队体系建设,是“星火”各项能力能够不断进步、攻克大模型相关难题的保障。
战略、战术、团队,一整套建制化力量下来,科大讯飞还将在6月9号、8月15号和10月24号发布迭代版本。
对更多想要入局或者已经入局大模型的玩家而言,科大讯飞的案例表明,对技术有认知、对场景有沉淀,还能做好操盘,才能实现持续的“良性循环”。
光有技术与热血,在大模型这里,不足以实现“智慧涌现”。
*本文图片均来源于网络