现场实测,三大能力超越ChatGPT,科 - 美肤水

TUhjnbcbe - 2023/8/18 21:45:00

机器之心原创

作者：吴昕

如若问谁最有希望在中国实现智慧涌现，十多年前科大讯飞成立时的那个回答依旧铿锵有力：要么率先燎原，要么率先熄灭。

历时5个月、多天，5月6日下午2点，科大讯飞「星火」认知大模型如约而至。

发布会独具匠心，亮点一分为二：「1」+「N」。

上半场围绕「1」，聚焦「星火」通用能力展示。无论是挖坑设雷还是烧脑为难，「星火」应对自如，会场不时响起掌声和笑声。

下半场由「1」生「N」，旗下首批获「星火」加持的产品矩阵登台亮相。从教育、办公、车载到虚拟人，一次次人机交互体验盛宴，让人很难按捺点击购买的冲动。

与之前其他公司大模型发布活动不同，本次发布是一场产品级发布会——购买相应硬件产品，用户即可升级系统，立刻体验大模型带来的神奇能力。

AI大模型将带来终端数量和产业规模10倍以上的提升，科大讯飞董事长刘庆峰在会上表示，未来，「星火」认知大模型「1+N」的技术红利将通过「平台+赛道」的商业逻辑逐步兑现。

科大讯飞董事长在发布会上。

一、「1」：七大维度体验「星火」的通用能力

发布会开宗明义，为了科学PKChatGPT能力，科大讯飞通过认知智能全国重点实验室牵头设计了通用认知大模型评测体系，并与中科院人工智能产学研创新联盟和长三角人工智能产业链联盟共同探讨形成了覆盖7大类个细分任务类型。

其中，7个能力具体包括语言理解、知识问答、逻辑推理，数学能力、代码能力以及多模态能力。

先说结果：目前「星火」通用能力业内明显领先。中文方面，当前讯飞星火认知大模型已经在文本生成、知识问答、数学能力三大能力上已超ChatGPT，10月底将整体赶超ChatGPT。

10月24日开发者大会上，「星火」要「对标ChatGPT，在中文上超过，在英文上要达到跟它相当的水平。」刘庆峰在发布会上表示。

接下来，我们看看这些能力的现场展示，包括机器之心内测体验。

1、长文本生成能力。「星火」现场演示了撰写大会欢迎词、翻译机英文品宣文案等能力。不过，让人倍感温度的案例是给孩子讲故事。

「在今天的讯飞星火认知大模型的发布会上，孙悟空和奥特曼也偷偷潜入了现场，他们都抢着想做星火大模型的发言人，还为此吵了一架。」科大讯飞副总裁、研究院院长刘聪起了一个头，「星火」立刻娓娓道来一段故事。

每问一次，它讲述的故事都不一样。你不仅可以语音输入开头和故事要求，还能选择喜欢的合成声音甚至配合虚拟人形象，将这个故事说给孩子听。

会场之外，机器之心也没闲着。我们以《麦田守望者》为题，要求「星火」创作一首现代诗歌和古代的绝句，你看，还不错。

绝句最后一句对仗还是存在瑕疵。

机器之心又让「星火」写一篇《荒野的呼唤》读后感，完全合格。

现在化身婚礼策划，给窦骁和何超莲做一次婚礼策划吧！不知道窦骁有没有从大模型获取婚礼策划灵感呢？

为了体验「星火」生成摘要的能力，机器之心故意输入一篇很长的专访，结果发现，摘要基本覆盖了核心内容。

过程中，我们故意打了一个typo（生「存」摘要），但并没影响模型对输入任务的理解。

这是界面对《翦商》作者李硕的专访。

「星火」生成的摘要。

2、多层次跨语种语言理解能力，这也是大模型调用频率最高的能力之一。既包括诸如英文、中文表达上的语法修改，也有更高层次的语言理解，特别是理解博大精深的中文。

比如，小明拿到奖杯默默站了一分钟；小明被老师批评，默默站了一分钟。这两个「默默」是否表达了不同心情？

「星火」完全知道：一个是指高兴，一个是形容失落。

刘庆峰表示，科大讯飞现在的语言能理解能力相比ChatGPT还略有差距，但已超越国内同类产品。

3、「星火」的思维链推理能力如何？发布会上，刘庆峰继续给「星火」挖坑：孔子在年奥运会上说了些什么？结果人家不上当。

机器之心继续考验：

数理能力一定程度代表了一个大模型的聪明程度。刘聪现场也抛出了复杂的计算题：

「花坛里有三种花，一共88朵，其中月季花的数量是菊花的4倍，牡丹花的数量是菊花的5倍少2朵，那么请问花坛里一共有多少朵牡丹花？」

大模型很快准确给出了答案，并给出了解题步骤。刘庆峰表示，讯飞星火大模型不仅在国内系统中遥遥领先，也超过了ChatGPT。

会场外，机器之心找来一道真实的小学数学题，多轮对话追问，「星火」也能应对。

4、在多功能语言代码能力上，科大讯飞展示了「大模型+数字员工」，基于自然语言生成业务流程和RPA，帮助企业员工完成大量重复性工作。

现场以公司招聘事项为例，输入指令后，系统即可自动按照事先设计的RPA脚本，操作计算机中的相应软件，实现业务流程的自动化操作并输出结果，还能进行数据分析，大幅减轻一线工作人员的压力。

刘庆峰表示，工业领域也是一个非常重要落地场景，降低没有软件背景普通工程师和工人的编程门槛，我们可以期待8月的能力突破。

5、多模态输入和表达能力不断丰富。比如，输入一份图文并茂的英文菜单，「星火」不仅立刻给出了中文版菜单，还能应要求介绍没有吃过的菜品基本情况，用户甚至可以指定虚拟人以指定的合成声音，给自己介绍这些菜单内容。

除了上述展示，机器之心在测试大模型多轮对话能力时，发现方言能力是一个有趣的亮点，我们也测试过微软BingAI，后者暂时没办法做到。

另外，大模型呈现出的初步「智慧涌现」还体现在即时新知识学习应用于进化能力，但机器之心发现「星火」还需要加强。

比如，笔者正在读《翦商：殷周之变与华夏新生》一书，该书豆瓣评分很高，可能因为语料库中没有出现这本书或没有得到准确定义，「星火」并不知道这本书。

告诉「星火」书的全名、作者和出版社、出版年月，再试探它对该书的了解情况，结果仍不如意。

二、由「1」生「N」：大模型落地应用的领先者

图片社交软件Instagram积攒过亿用户数用了2.5年，TikTok用了9个月，而ChatGPT只用了两个月。爆火主要是因为其撬动了最具规模效应的C端——提供了一个便捷易用的交互界面，让普通人都能用得起来。

对于C端产品，大模型的重要价值在于大幅提升了后端理解能力，当与前端的听、说能力融为一体后，将极大提升每一个智能终端的人机交互体验，后者变得更便捷、自然和有深度。

科大讯飞已拥有智能录音笔、翻译笔、智能办公本、AI学习机等诸多C端产品，将大模型能力下放到这些产品矩阵中以达到一种规模效应，再自然不过。

客户真实使用的反馈非常重要，基于真实场景的数据最能验证模型的性能。既然模型需要长时间持续跟随客户的反馈不断调优，C端能够更快卷起这个闭环。

正如科大讯飞表示，目前还没有一家国产大模型面向公众大规模开放，让所有人都可以体验。讯飞推出的这些功能都是产品级，购买相应硬件的用户即可立刻获得体验。

下半场，首先登场的教育领域，是最具想象力和应用前景的垂直领域之一。以AI学习机为例。

「双减」之下，对标教培行业，AI教育硬件市场风光无限，AI学习机等产品也被寄予未来百亿营收规模的厚望，目前科大讯飞已形成高、中、低端学习机系列的完整布局。

不过，现阶段消费者很难明确体验、感知到智能服务及其效果，在业内人士看来，未来市场增长的关键点之一在于能否实现智能服务体验上的跃升，AI大模型的出现可以实现这一点。

「星火」大模型的基础能力，对教育领域的专业模型的语言表达、包括上下文在内的复杂语义理解、逻辑推理等方面会带来巨大提升。无论是通识科普、语文写作还是数学刷题，「星火」都能轻松帮上忙。

发布会上，搭载认知大模型的科大讯飞AI学习机T20系列可实现中英文作文类人批改。相比于传统学习机只能针对字词标点纠错、识别句式修辞错误这些基础批改，讯飞AI学习机实现了围绕写作要求、分析全篇结构和文采的深度高阶批改。像老师一样层层批改点评，让作文批改更高效。

它还可以实现写作思路启发，利用AI润色技术生成片段优化参考和写作建议提升，让孩子在启发中精准提升。

搭载了大模型后，第一轮批改了错别字；第二轮批改了语句；第三轮，覆盖了内容；最后还给了一个分数80。同时，系统还生成了总体评价和写作建议。这不仅需要自然语言理解能力，还需要需要文本生产能力。

英文批改也可以。

另外，作为科大讯飞业务营收的第三大支柱——讯飞开放平台和消费者业务（主要围绕「AI+」办公场景），过去也有不错增长。未来，基于大模型提升智能办公本、录音笔、讯飞听见APP等产品性能体验，将进一步拉开与竞品的差距。

以目前服务客户数超万的讯飞听见APP为例，这款应用主要负责将语音这样的非结构化数据迅速转换为可保存、检索的文本数据，提升生产效率。

我们匆匆记录重要会议和活动信息，机器可以将录音变成文本，仍然表达不够规范、不够美（还包括一些语音识别错误），需要后期人工润色。

有了「星火」，讯飞听见APP能力进一步延伸到人工环节——自动校对、润色过于口语化的机器翻译，还能按需生产摘要或办公文档——覆盖从转写到出稿的全过程，显著提升工作效率。

现场演示中，选择APP「会写」，导入一段音频，直接选择新闻稿件，17秒即可生成新闻稿。系统还可以根据用户