DeepSeek Just Fixed One Of The Biggest Problems With AI
DeepSeek这次动静不小,但标题党得有点过分了。"解决了AI最大的问题之一"——哪个问题?训练成本、推理速度、还是幻觉?点进去才发现,他们做的是一个叫Engram的东西,本质上是在解决LLM的记忆问题。
具体说,就是让模型能更高效地存储和检索长期知识。传统LLM要么把知识全塞进参数里(训练成本爆炸),要么靠RAG外挂数据库(latency和准确性都打折扣)。DeepSeek的思路是在模型架构里加一层可微分的记忆模块,训练时就让模型学会什么该记在参数里,什么该扔进这个"外部硬盘"。听起来有点像给Transformer装了个L2 cache。
论文里的数据确实漂亮。在需要大量事实性知识的任务上,Engram比同等规模的baseline模型表现好一截,而且inference时的memory footprint小很多。更关键的是,他们声称这套机制可以在不重新训练整个模型的情况下更新知识——这要是真的,对需要频繁更新知识库的应用场景(比如客服、法律咨询)就太实用了。
但这里有几个问题得掰扯清楚。第一,这不是什么全新的idea,记忆增强神经网络(Memory-Augmented Neural Networks)十年前就有人做,只是一直没在大模型上跑通。DeepSeek的贡献更多是工程实现,而不是理论突破。第二,论文里测的都是知识密集型benchmark,对于推理、代码生成这些任务,这套机制的收益可能没那么明显。第三,也是最实际的——他们没开源模型权重,只放了paper和一些实验代码。所以现在还没法验证在真实生产环境里这东西到底能不能打。
谁该关注?如果你在做需要处理海量领域知识的agent或者chatbot,这个方向值得跟。但如果你的场景主要是reasoning或者代码生成,现在就all in这个技术路线还为时过早。更现实的做法是继续用成熟的RAG方案,等Engram这类技术真正落地再说。
有意思的是,这篇paper发出来的timing。就在各家都在卷reasoning能力、卷o1-style的思维链时,DeepSeek突然拐了个弯去搞记忆系统。这要么是他们判断reasoning这条路已经卷不动了,要么是在为下一代agent架构提前布局。毕竟真正有用的AI助手,光会推理不够,还得记得住你上周说过什么。
所以这到底算不算"解决了AI最大的问题"?见仁见智。但至少,它提醒我们一件事:模型越来越大不是唯一的路,有时候架构上的小手术,可能比暴力堆参数更有效。