How AI Gets Data Wrong (and how to fix it)
你的AI模型可能没问题,问题出在数据管道上。
最近CData做了个benchmark,发现了一个挺狠的事实:同一个model,因为底层数据连接方式不同,accuracy能差25%。这不是什么边缘case,而是在企业场景里普遍存在的现象。
大家现在对AI的理解有个误区,觉得模型就是一切。GPT-4好还是Claude好?参数多少?context window多大?这些当然重要,但在实际落地时,很多时候瓶颈根本不在model本身,而在你怎么把内部数据喂给它。
CData这次测的是MCP server的不同实现方式。MCP(Model Context Protocol)本质上是管AI怎么访问外部数据源的协议。你可能在做一个连CRM的AI agent,或者接project management系统的copilot,表面上用的都是同一个LLM,但因为MCP server的架构设计不同,最终给用户的答案质量能天差地别。
这个25%的gap意味着什么?假设你的AI助手在回答销售问题时,A方案能答对80道题,B方案只能答对60道。用户感知会非常明显,这不是微调能解决的问题,因为model压根没变,是data plumbing出了问题。
为什么会这样?因为企业数据本身就是个烂摊子。不同系统之间的schema不统一,有些字段缺失,有些更新不及时,权限控制还特别复杂。当你的AI agent要跨多个数据源拼答案时,怎么query、怎么join、怎么处理冲突,这些看起来很工程的问题,直接决定了最终的accuracy。
国内做AI应用的团队,现在大部分精力还在prompt engineering和model selection上,但真正上生产环境后会发现,卡住你的往往是数据接入这一层。尤其是那些要对接老旧系统的场景,光是把数据拉出来就够喝一壶,更别说保证质量了。
CData这个benchmark的价值在于,它把一个大家都知道但说不清的问题量化了。以前你跟老板说"数据质量影响AI效果",他可能觉得这是借口。现在你可以说,这事能让accuracy掉25%,是可以被measure的硬伤。
如果你正在搞internal AI tools,建议先别急着换model或者堆RAG,先看看你的data pipeline是不是真的靠谱。有时候问题没那么sexy,但解决了收益最直接。