How AI Gets Data Wrong (and how to fix it)

Matt Wolfe Youtube

你的AI模型可能没问题，问题出在数据管道上。

最近CData做了个benchmark，发现了一个挺狠的事实：同一个model，因为底层数据连接方式不同，accuracy能差25%。这不是什么边缘case，而是在企业场景里普遍存在的现象。

大家现在对AI的理解有个误区，觉得模型就是一切。GPT-4好还是Claude好？参数多少？context window多大？这些当然重要，但在实际落地时，很多时候瓶颈根本不在model本身，而在你怎么把内部数据喂给它。

CData这次测的是MCP server的不同实现方式。MCP（Model Context Protocol）本质上是管AI怎么访问外部数据源的协议。你可能在做一个连CRM的AI agent，或者接project management系统的copilot，表面上用的都是同一个LLM，但因为MCP server的架构设计不同，最终给用户的答案质量能天差地别。

这个25%的gap意味着什么？假设你的AI助手在回答销售问题时，A方案能答对80道题，B方案只能答对60道。用户感知会非常明显，这不是微调能解决的问题，因为model压根没变，是data plumbing出了问题。

为什么会这样？因为企业数据本身就是个烂摊子。不同系统之间的schema不统一，有些字段缺失，有些更新不及时，权限控制还特别复杂。当你的AI agent要跨多个数据源拼答案时，怎么query、怎么join、怎么处理冲突，这些看起来很工程的问题，直接决定了最终的accuracy。

国内做AI应用的团队，现在大部分精力还在prompt engineering和model selection上，但真正上生产环境后会发现，卡住你的往往是数据接入这一层。尤其是那些要对接老旧系统的场景，光是把数据拉出来就够喝一壶，更别说保证质量了。

CData这个benchmark的价值在于，它把一个大家都知道但说不清的问题量化了。以前你跟老板说"数据质量影响AI效果"，他可能觉得这是借口。现在你可以说，这事能让accuracy掉25%，是可以被measure的硬伤。

如果你正在搞internal AI tools，建议先别急着换model或者堆RAG，先看看你的data pipeline是不是真的靠谱。有时候问题没那么sexy，但解决了收益最直接。

Read original source →

How AI Gets Data Wrong (and how to fix it)

相关文章