他虽然早有心理准备,但真正看到这个数字的时候,还是忍不住倒吸一口凉气。
76%到98%,看起来只是二十二个百分点的差距,但在ai领域,解耦率每提升一个百分点,都意味著底层架构的质变。
七十多的解耦率意味著模型能大致分清概念之间的边界,但遇到复杂推理时仍然会“串味”。
而98%……
“这意味著什么,我给您举个例子。”
刘浩然显然早有准备,他打开一个新的窗口,输入了一行字。
“『证明:如果一个数能被3整除,那么它的各位数字之和也能被3整除。这是一个初中级別的数学命题,表述很简单,但涉及到自然语言和形式化逻辑之间的转换。”
他先在一个开源的通用大模型上运行。
模型很快给出了答案,文字流畅,步骤清晰,甚至还贴心地加上了“由此可知”这样的过渡词。
“看起来没问题,对吧?”刘浩然笑了笑,手指点在屏幕上,“但您看这里。”
他放大了其中一行。
模型在推导过程中写了一句“设该数为abc,其中a、b、c分別为百位、十位、个位数字”。
“它把『各位数字之和理解成了『三位数的各位数字,所以它的证明只对三位数成立。它没有真的理解『任意正整数这个概念,只是从语料库里匹配到了一个最常见的教学案例。”
林正宏皱起了眉头。
这个问题他太熟悉了。
刘浩然关掉开源模型的窗口,打开了小智的测试界面,输入了同样的问题。
小智的回应出现在屏幕上。
“命题:对於任意正整数n,若3|n,则3|s(n),其中s(n)表示n的各位数字之和。
证明:设n的十进位表示为n=a_k·10^k+a_{k-1}·10^{k-1}+…+a_1·10+a_0,其中0≤a_i≤9。
注意到10≡1(mod3),故10^m≡1(mod3)对任意非负整数m成立。
因此n≡a_k+a_{k-1}+…+a_0=s(n)(mod3)。
若3|n,则n≡0(mod3),从而s(n)≡0(mod3),即3|s(n)。证毕。”
刘浩然转过头看著林正宏。
“林总,看到这里,或许您己经发现了不同吧。”
林正宏是做技术出身,虽然不是数学专业,但基础的逻辑素养还在。
他盯著屏幕上的证明,眼睛越来越亮。
“它……它用的是模运算,適用於任意正整数。”
“对。”刘浩然点头,“它没有套用任何现成的教学案例,而是从十进位表示的一般形式出发,抓住了『10模3余1这个本质属性。这说明它是真的理解了问题的结构,而不是在做模式匹配。”
“目前市面上所有的大模型,本质上都是『超高级的完形填空。它们根据前文预测下一个词,预测得多了,看起来就像是在思考。
但它们没有真正的理解能力。”
“而小智不一样。”
他切到小智的系统架构图。
“这套框架,核心思路是把自然语言、符號逻辑、数学结构这三层完全解耦。
普通的模型处理一句话,是把所有信息搅在一起,像一锅粥。