讯飞AI大模型“领跑国内”？做数学题堪比GPT-3809游略网

前两天，科大讯飞开了场发布会。

在这个时段开发布会的互联网公司，大家用脚指头想，都能想到，发布的肯定又是一个大模型了。

一开始我还没太在意，结果今天转头就看到科大讯飞在发喜报了。

他们发布的“ 星火大模型 ”，领跑国内了？

星火大模型在一个名为“ Super Clue ”的 AI 评测榜单上，一骑绝尘，国际上仅次于 GPT-4 和 ChatGPT，国内更是豪取第一。

说实话，看到这个信息的我，一时间感觉有点不真实。

而且我上网溜达了一大圈，也还没搞清楚这个“ Super Clue ”榜单到底是怎么搞出来的，背后有没有什么大佬或者组织，至于靠不靠谱，我也下不了定义。

国内好几家大模型，像阿里、360、天工，在这上面也都看不到踪影。

但科大讯飞竟然敢在自家的公众号上，大张旗鼓地把这个事给发出来了。这可就引发我的好奇心了啊。

于是，我们就搞到了一个测试资格，给大家验验货。

不过在正式测试开始前，咱们先摸个底，看看星火有没有基本的学习能力。

我教了它一套自创的规则，正向的句子标“ 正 ”，负向的句子标“ 负 ”。

结果，星火很快地就掌握了这套规则，既能给新句子打标记，也能按我们的要求进行相关创作。

看来星火这小子，基本的底子还行，可以做正式的测试了。下面，我将从逻辑、数学、代码和文本四个方面，对星火进行考察。

按照国际惯例，第一道测试题肯定得是——弱智吧精选 100 问。

我先上了一道经典测试：张三差点没上上上上海的车，什么意思？

星火的回答过于完美了，精准解读了几个“ 上 ”的意思。我拉了几个人一起看，都没看出毛病来。

不信邪的我，又给了个经典难题：

提问：小明问小红：今天小白来上班了嘛？小红回答：说曹操曹操就到。请问，谁到了。

结果，星火的回答依旧滴水不漏，从语意理解和文字表述上，堪比真人水平了。

我接着试了好几道经典题目，发现星火应对的都完美得像标准答案一样。

不服输的我，去弱智吧找了点新货，上了之前 AI 测试里没见过的生面孔。

提问：失主怎么一直给我的新手机打电话？

这回星火的答案明显不如前面几个回答简洁了，来了一堆车轱辘话。

接着提问：为什么西游记不请唐僧本人来演呢，他不是长生不老吗？

星火还是非常机械地来了一段名词解释 + 不懂装懂。

这么看来，我怎么感觉星火在新问题上，就表现得像个正常的大语言模型的水平了，似乎有专门训练过一些题目。

不过，抛开疑似训练过的问题，单从结果上看，第一项的弱智吧逻辑题，星火表现还算可以，能给到三星。

咱们测试继续。接下来，我准备试一下大模型的另一类难题——数学测验。

上来我还是先问了些测试题常客，连着问了三道，星火依旧表现出色，全部答对。

尤其是经典的鸡兔同笼问题，不管怎么变参数和问法，星火都能答对。

但是，测试到后面，我又发现了问题。

一些经典的测试题，当我替换掉参数之后，比如把青蛙跳井问题的 10 米，替换成了 100 米。

星火给我的答案，却依旧还是 10 米的计算过程。

实际上，星火并不是解不来题目。当我反问它：青蛙掉进的是 100 米的井，它能立刻给我 100 米的正确计算过程。。

为什么用问题模板问的时候，它似乎没有转过弯来呢？

除开这一点，星火在计算方面的表现，确实让人比较惊艳的。第二项测验，我觉得可以给一个四星半的高分。

前面试了两个大模型的弱项，为了不欺负人，咱们来点大语言模型擅长的文本内容。

而且，我特地找了一道有中文特色的文本题，把四大名著糅合了一下。

提问：假如孙悟空生活在红楼梦大观园里，会发生什么故事？

一开始，星火给了我五个方向，单从这 5 个方向来说，虽然没啥事实错误，但有些不太符合人设。

比如第三个方向，说孙悟空要保护贾母不受欺负，这就不符合贾母的设定了。

后面，我要求星火扩写一下方向，它的表现也比较中规中矩。

让星火挑选了第 5 个方向扩写，虽然生成结果符合题目的要求，但是通篇顺下来，文字比较干涩，情节更是口水和模板化，有点小学生写作文的感觉。。

文本方面的表现，说实话最多只能给到两星，拿个保底分。

三项测验下来，成绩都还算不错，看看这场试验的最后一题——代码能力，星火能不能继续稳住。

但是，有些遗憾的是，即便是最简单代码，星火居然没法写出来。

我要求做一个页面，页面中间有一个按钮。当在鼠标移动到按钮上面时，按钮会放大一倍。

但是，星火做出来的按钮，别说放大一倍，甚至连放大效果都没有。

它只是暴力地把长度和宽度，设置为了 50 像素。

跟前面几项测试比起来，代码能力属实是拉了。

但总的来说，四轮测试下来，除了代码水平实在有点垃圾，其他三项，都能够拿到 2 星及以上的成绩。特别是做数学题，给我一种过于强大，可以和 GPT-4 掰掰手腕的感觉。

如果星火早几个月发布，肯定能够惊艳到我们。

但大模型的进化速度一向不能以常理来考虑，所以越晚发布，大家对大模型的期待也就越高。

后来者不真拿两把刷子出来，没点革命性的变化，很难掀起大水花了。

而且，这条路后发者们能不能赶上趟还真不好说。

就像李彦宏说过观点：不要重复造轮子，AI 的十倍机会指不定在哪儿呢。