🔬Why There Is No "AlphaFold for Materials" — AI for Materials Discovery with Heather Kulik
AlphaFold 给整个科学界打了一针鸡血,但如果你以为材料科学也能复制这套路子,MIT 的 Heather Kulik 教授会告诉你:醒醒,这事儿没那么简单。
她的理由很直接:AlphaFold 面对的是 20 种氨基酸的排列组合,设计空间虽然大但有边界。材料科学呢?每个元素都是一套新的化学规则,几乎没有可迁移性。更要命的是数据问题——生物学有 PDB 这种黄金标准数据库,材料科学最接近 ground truth 的是 DFT 计算结果,但那本质上只是近似值。Heather 的原话更扎心:"我们只有无聊化学的高质量数据集。"真正有意思的材料,数据要么没有,要么是需要解读的实验结构,根本不够喂 model。
但这不意味着 AI 在材料科学没戏。Heather 的团队最近用 AI 设计出了强度提升四倍的新聚合物,而且是那种让实验室科学家都惊讶的设计——AI 发现了某些构建块能以新方式断裂,这是个纯量子力学效应。关键是他们真的合成出来了,在实验室里验证了。这才是 AI for science 该有的样子:不是发 paper 刷 benchmark,是在实验室里做出东西来。
有个细节特别有意思。Heather 每次 LLM 更新都会问它同一个问题:设计一个恰好包含 22 个重原子的配体。这对任何化学专家来说是秒答的事,但 LLM 到现在都做不到。这是不是材料科学版的"strawberry 有几个 r"?三个月后的测试更有意思:Claude 和 ChatGPT 给激酶蛋白设计配体都能答对,但一到 MOF(金属有机框架),两个模型都开始胡来,生成 21、23、24 个原子的,就是不给你 22 个。是不是说明 LLM 在材料和生物领域的推理能力根本不在一个水平线上?
Heather 团队还在用 LLM 从文献里挖数据,发现了个尴尬的事实:论文里报告的数值经常和图表对不上。这提醒我们,LLM 挖文献数据确实有价值,但别无脑信任。几千个数据点就能指导研究方向,前提是你得有判断力。
现在 AI for science 赛道热钱涌动,创业公司动辄融资上亿美元,大厂和药企都在砸钱。Heather 的态度很清醒:学术界的价值恰恰在于去追那些还没进入资本雷达的问题。化学工程和材料科学仍然需要好奇心驱动的人,去问那些短期看不到钱的问题。
如果你在做 AI for science,别指望有个通用的 playbook。生物学的成功经验搬到材料科学可能完全不适用,反之亦然。真正的突破来自深度整合领域专业知识和 AI 技术,而不是追热点套模板。Nature 不在乎你的 model 有多火,只在乎你在实验室里能不能做出来。