大模型时代的学习

自从22年下半年chatGPT横空出世以来,从最初的猎奇、期待,到如今的巨头厮杀、人手一份的生产力工具,LLM/VLM一次次刷新我们的认知,把越来越多的任务从我们的认知负担上移除。在我们紧盯着AI对生产关系上带来的隐忧的同时,一个更大的问题也悄然浮出水面:在大模型时代,在几乎一切问题的答案都变得如此轻易触手可及的时候,我们该如何学习?下一代的教育应是什么形式的?在有了孩子之后,这个问题变得更加的尖锐。以下我用一个想象中的对话来进行这个思想实验:

在2040年的某一天,他气冲冲地问我,学习这些枯燥的代数与公式,背诵这些老掉牙的词句和文章,钻研这些晦涩的汇编代码和算法,到底有什么用?现在其实连考试也不应该存在,只要我们学会ai的使用方式就可以了!抱怨一通后还煞有介事地宣讲起他那所谓的happy path来:

“作业用ai解决就不必说了,考试只要会用ai作弊也可以蒙混过关,以后工作中也不会露馅:全都用ai解决,token现在已经那么便宜了,我平时锻炼骑单车还能贡献一些电能,完全可以自己cover成本。。。”

我突然想到了什么,立刻打断他:

“好的,那就算你一路顺风顺水全部蒙混过关,你使用ai也非常有天赋,写的prompt就是比别人好,这样下来你成了界内的知名人士,现在请你去做演讲,参加讲座,和其他人辩论,在一个完全无法即时作弊的场景下,你怎么应对?”

“那当然是用ai来准备讲稿,帮我熟悉话题,做好准备不就可以了吗?”

“那怎么做准备呢?通过提前读答案?就算主办方能给你预热背景,你也无法准确控制其他嘉宾或者听众会对你发出什么挑战。”

“哈哈,那就让它多准备一些,我都记下来熟悉熟悉呗。“

我像抓到了救命稻草一样地打断他:

“哈哈,你进入了我的圈套。你自己想想,如果你通过ai给你准备的材料,能把这些内容熟悉到现场和他人对答如流的程度,这和你自己通过学习掌握了这些内容,又有什么区别呢?更何况,难道你能通过ai帮你准备的材料,用死记硬背的形式做到这一点吗?如果你的终极假设是这样的话,为何不从现在学起,这样到时候还能轻松一点呢?”

小年糕顿时被我的回答噎住,说不上话来。

这个思想实验拷问了问题的本质:到底什么是学习,什么是ai辅助能力的边界。在日常生活中大量使用ai的我能清楚地体会到,处理问题的瓶颈,在于自己的大脑,而不是ai工具。当工具的能力超越大脑的处理能力边界时,工具就会架空你。对于个人使用者来说,这代表工具从你的助手变成了你的主人,引导你进入了完全不了解的世界。可以想象一下李鸿章的苦恼:洋人说这个那个,要这样那样,所以最后要签这个字;可我真不懂他们在说啥!好的我签了,下一张。对于团队来说,这代表你的团队进入了隔空交流模式,每个队友的ai之间开始直接对话,人成为了传话工具:你这个MR改了什么?ai写了一份文档。好的我看看,但我看不懂,我也让我的ai来看看吧,它给出了这些建议。当然如果你觉得未来ai的能力能强大到能闭眼信,那你就可以忽略这段内容。

问题的重点是什么?大脑是瓶颈。既然我们知道了瓶颈在哪,那我们就要去掉这个瓶颈。这是回答如何在大模型时代学习的第一个切入点。我们要把自己的大脑去瓶颈化。也就是提高思考效率,提高处理速率,提高认知载荷。你应该发现,对自己熟悉的事物,比如会唱的歌,背过的课文,擅长的科目,你的大脑轻车熟路,接受类似的信息毫无障碍,甚至还会有些愉悦感。而对自己陌生的事物,跨界交流,比如第一次听Post Punk,或看一篇领域外的论文,你的大脑可能几分钟就会开始shut down,具体表现为,这他娘的是什么这么难听,这写的每个字我都看得懂,但连起来写的是什么?在这种认知负荷很高的情况下大脑的处理速率会明显降低,即便你硬扛下了一篇文章,再看下一篇,可能就有一种脑子要爆炸的感觉,难以集中注意力。这时候,大脑处理器的性能就得以体现了。经常坚持深度思考的人,大脑的前扣带皮层受到这种思考和认知阻力的锻炼,在这种满负荷的情况下能以惊人的意志力保持高效运转,从而击败那些注意力已经开始涣散的人。这也可以被称为“精力”的一种体现。而这种深度思考的过程,就是我们所谓的“学习”。也就是说,在大模型时代的学习,不是以记住、掌握、背诵多少内容为目标,而是以提升自己认知载荷为动力。这里有两个方面:

一是对内提升能力,也就是通过打破思考阻力的锻炼,让自己大脑能更快地处理更多内容。立体几何,线性代数,物理这些“思维体操”,叠加生物化学、语言历史等一些需要归纳总结、融会贯通、构建思维导图的学科,能够从接受能力、体系构建上双重提升这种能力。要知道,把自己见过的零散内容做成思维导图,然后从表层图纸内化到自己的思想体系,可是一件非常吃精力的事情。

二是对外见怪不怪,也就是把尽可能多的东西变成自己熟悉的事物。这又分两个好处:一是从不熟悉到熟悉,总有一个打破边界的过程,同时也是一个打穿认知阻力的过程;二是对于熟悉的事物,大脑的认知负荷自然下降。

在对上述这两点做到长时间的训练后,你会发现,阅读agent吐出的一大段一大段的文字和计划,不再变得吃力,你可以在相当一段时间里毫不费力地阅读完所有这些内容,并和它进行有意义的交互。其实说白了也就是为了用好ai,你得赶上ai的水平,而赶上它的唯一方法,就是学习。

以上是本文的第一部分。根据一个思想实验,从结果出发,一步步推导论证得到结论。在第二部分,我将从技术的层面,简要阐述为什么ai取代不了人类,即使在ai最最擅长的文字领域。

还是从一个实验开始:你让当今最先进的视频大模型,帮你生成一个好莱坞级别的,外星人入侵地球大战的片段,长度,就说2分钟吧。它吭哧吭哧做出来了,各种镜头切换,特效,呼吸感,末日感,科幻感,画面宏大,情节激烈,你屏着呼吸看完了,非常震撼,头皮发麻,哇ai太强了。好的,现在请你让它帮你再生成一个视频:一张白纸上有一条线,线的一头是一个三角形,它打着转滚到另一头,过程中慢慢地变成了正五边形。啥都不要,只要最简单的线条,flash动画的那种效果。

突然它失灵了。最最简单的flash特效动画,几根线,你改来改去但它怎么就是出不了这个效果。咋回事?外星人入侵地球大战,谁也没见过,模型可以天马行空地发挥,在它见过的庞大的训练数据里东拼西凑的结果,总会让人觉得满意。而一个最简单,却又是最具体的需求,它就愣住了,无法发挥了。为什么,解空间太小啦。生成式模型的diffusion输出,在如此小的一个,单一解空间上,几乎无处采样。

同样的原理也可以迁移到文字上。如果你脑子里完完全全想好了要说什么,那这句话,无论你跟ai怎么解释,它都是无法一模一样生成的。唯一可行的方法是,把你的前因后果思想过程作为context,完完整整地告诉ai;即便这样,也不能保证它能生成同样的词句,更何况你何苦呢,自己写出来不香么?这就好比,你想要拍一个电影,你脑子里已经有完全具体的画面了,什么道具放在哪里,这种情况下无论你怎么描述,ai都不可能生成你想象的样子,只能先给它一张照片,让它按照这个来。至于说什么梦境生成器,好酷炫,那是因为你根本记不得梦里具体是啥样子,它又能自由发挥了。也就是说,如果你觉得ai出来的东西太强了太好了,要么是因为你自己根本不知道想要什么,看着办吧,要么是因为你做的是上下文强依赖的工作,换句简单的话说就是,牛马ppt活。至于你脑海里那个高价值想法,等价概率只有P=0的精确token组合,ai是根本生成不出来的。如果能生成出来,说明你的上下文太简单了,简单到你都能直接告诉它。

所以,真正牛逼的想法,有价值的文字,创意,都是ai做不了的。它唯一能做的,就是归纳总结,以及通过见过的海量数据,补全想象空间。而这种搜刮文献的牛马活,也正是ai可以用来帮我们节省精力的好场景,至于总结出来的东西,节省下来的精力,最后你能用来干啥,那就要看造化了。这就是学习能帮到你的,最后点睛之笔。

以上是本文的第二部分。从解空间的角度,证明ai能力的边界。接下来第三部分,我从体验的角度,说说为什么需要学习。

自从有了ai之后,知识变得太触手可及了。再也不需要等待和挖掘的过程,一切都能被即时满足,总结好的框架和细节都能立马递到嘴边。学习似乎变成了一个非常快速的事情;工作,生活也都成了效率优先,你不快别人就比你快。有什么不懂的,大模型瞬间会把这个领域所有相关的内容,由浅到深,完完整整地展现在你面前,应用尽有。

但这从体验上来说,也是一种降级。虽然在这几次生产力革命中,我们的感官体验已经降级过好多次了。现代人本已很难体会“海上生明月,天涯共此时“的那种思念之情,更不用说短视频横行的今天,注意力不足10秒的“后当代人”;抑或是莼鲈之思、鲥鱼多刺那种从食物引申而来的细腻情感体验,在麻辣为先、万物皆可烤的当下早已湮没在辣椒的红海之中(顺便多说一句,我觉得没必要和西方人去强调什么中国饮食的原味,人家从小吃的都是hyper-processed food,或者各种重口味的东西,就算味蕾能收到,神经突触也接收不到那些食物本味的东西,像蒲菜、蚕豆这些,对他们来说就跟尝水没什么区别)。大模型的出现只是把这种体验降级推到了极致,把你的大脑shortcut. 人们逐渐忘记学习和思考是一个什么样的过程,更不用说感受到它们的美。学习本身是一种顺着引导往里走的过程,但在这种开门见山的方式下,人们失去了曲步通幽的耐心,江南园林的含蓄反而成了一种阻碍,火起来给你墙全部敲掉。这使人失去了一种慢慢发掘、欣赏知识的美的能力;记得我以前本科学习ELEC 241 电子工程入门课的时候,里面的概念一个个出现就像赶路一样,慢慢地在你眼前展开、铺平,抽丝剥茧地学习,最后拼成一张完整图像的时候那种惊喜与魅力,是非系统性学习、短时间高剂量接触所不可比拟、无法体会的。

从这个角度上来说,学习的真正过程是:别人讲不清楚的时候,自己帮助并尝试理解。大模型的答案直接展现就是死记硬背,没有过程的强行记忆QKV。

以上是三部分我对大模型时代什么是学习,该怎么学习的一点思考。日后随着技术发展,也许一些观点也会显得过时,先留文在此吧。




Enjoy Reading This Article?

Here are some more articles you might like to read next: