“训练过程中,系统会自动发现不同模態特徵之间的对应关係。”
肖宿指著屏幕上的损失函数曲线。
“这是群等变约束损失,这是特徵解耦损失。两者结合,就能实现跨模態的自然对齐。”
钱卫华院士身体前倾,盯著屏幕上的公式。
他是搞超算出身的,对算法效率极其敏感。
而肖宿展示的这个框架,计算复杂度明显低於传统的多模態融合方法。
“具体到实现细节……”
肖宿开始深入技术核心。
接下来的三十分钟,他像拆解精密的机械一样,將整个群论框架一层层剥开。
从李群在流形上的作用,到特徵空间的纤维丛结构,再到自监督信號的构造方法……
讲堂里的气氛开始变得有些微妙。
前十几分钟,大部分学生还能勉强跟上,毕竟肖宿讲得深入浅出,而且还用了很多直观的比喻。
二十分钟后,大多数学生已经开始眼神涣散了。
那些“李代数”、“表示论”、“上同调”之类的术语,像天书一样在头顶飞舞。
“我……我听不懂了。”
一个数院大三的学生痛苦地捂住脸,“虽然我们已经在上抽象代数了,但肖神讲的东西,好像跟教科书上的不是一个次元啊……”
他旁边的室友更惨,已经选择放弃治疗,开始在笔记本上画小人了。
“没事,听不懂正常。我怀疑咱们系一半的教授现在也在硬撑。”
確实,中后排的教授们表情各异。
有的频频点头,显然跟上了思路;有的眉头紧皱,努力消化那些新颖的概念;还有的已经在翻看提前列印的论文,试图对照理解了。
姚毅智院士的笔记本已经写了三页。
他偶尔会停下来思考几秒,然后快速写下新的想法。
身后的博士生们就没这么轻鬆了,一个个如临大敌,拼命想跟上节奏。
“现在看一个具体应用。”
肖宿切换到了“小智”系统的演示界面。
屏幕上出现了那个简洁的对话窗口。
肖宿先输入了一个很简单的水果分类问题,小智在几秒钟的时间里就能够自动完成思考並作出回答。
这看似简单的一幕,却让懂行的人脊背发麻。
聪明的网友可能要问了,这么简单的问答,现在的deepmind、openai等顶尖机构的ai模型都能轻易做到,有什么特別的呢?
答案就在於小智回答肖宿问题的答案,事先並没有在训练数据中明確標註,而是系统通过特徵解耦自主“理解”的。
类似openai这样的顶尖模型,其实本质上走的是“记忆匹配+概率推测”的路子,它们之所以能给出正確答案,不过是记住了“吃=减少”“收到=增加”的固定关联,熟记了苹果对应红色、橘子对应橙色、梨对应黄绿的统计规律,靠著海量训练数据中的样本匹配,找到最贴合问题的回覆,如同背会了答题模板,却从未真正理解问题的本质。
它的数据內容多了,回答的答案正確的概率也上升。
但是,又因为它的资料库杂乱的內容太多,导致最后连开发者都无法知道它会给出什么答案,也就是“黑箱”。
这也是有些人工智慧会被聪明的网友称作人工智障的原因。
它们的局限是显而易见的。
无法真正拆解问题中的核心特徵,更无法建立特徵间的独立关联,一旦遇到超出训练样本的场景,比如顏色特殊的水果、复杂的数量组合,就会出现卡顿、判断偏差,甚至混淆不同特徵的边界。
但肖宿运用群论实现的自监督解耦框架,彻底打破了这种局限。