DeepSeek Just Fixed One Of The Biggest Problems With AI

Two Minute Papers Youtube

DeepSeek这次动静不小，但标题党得有点过分了。"解决了AI最大的问题之一"——哪个问题？训练成本、推理速度、还是幻觉？点进去才发现，他们做的是一个叫Engram的东西，本质上是在解决LLM的记忆问题。

具体说，就是让模型能更高效地存储和检索长期知识。传统LLM要么把知识全塞进参数里（训练成本爆炸），要么靠RAG外挂数据库（latency和准确性都打折扣）。DeepSeek的思路是在模型架构里加一层可微分的记忆模块，训练时就让模型学会什么该记在参数里，什么该扔进这个"外部硬盘"。听起来有点像给Transformer装了个L2 cache。

论文里的数据确实漂亮。在需要大量事实性知识的任务上，Engram比同等规模的baseline模型表现好一截，而且inference时的memory footprint小很多。更关键的是，他们声称这套机制可以在不重新训练整个模型的情况下更新知识——这要是真的，对需要频繁更新知识库的应用场景（比如客服、法律咨询）就太实用了。

但这里有几个问题得掰扯清楚。第一，这不是什么全新的idea，记忆增强神经网络（Memory-Augmented Neural Networks）十年前就有人做，只是一直没在大模型上跑通。DeepSeek的贡献更多是工程实现，而不是理论突破。第二，论文里测的都是知识密集型benchmark，对于推理、代码生成这些任务，这套机制的收益可能没那么明显。第三，也是最实际的——他们没开源模型权重，只放了paper和一些实验代码。所以现在还没法验证在真实生产环境里这东西到底能不能打。

谁该关注？如果你在做需要处理海量领域知识的agent或者chatbot，这个方向值得跟。但如果你的场景主要是reasoning或者代码生成，现在就all in这个技术路线还为时过早。更现实的做法是继续用成熟的RAG方案，等Engram这类技术真正落地再说。

有意思的是，这篇paper发出来的timing。就在各家都在卷reasoning能力、卷o1-style的思维链时，DeepSeek突然拐了个弯去搞记忆系统。这要么是他们判断reasoning这条路已经卷不动了，要么是在为下一代agent架构提前布局。毕竟真正有用的AI助手，光会推理不够，还得记得住你上周说过什么。

所以这到底算不算"解决了AI最大的问题"？见仁见智。但至少，它提醒我们一件事：模型越来越大不是唯一的路，有时候架构上的小手术，可能比暴力堆参数更有效。

Read original source →

DeepSeek Just Fixed One Of The Biggest Problems With AI

相关文章