
推理成本砍掉一半以上,OpenAI摸着DeepSeek过河(本文作者为 字母AI,钛媒体经授权发布)> 文 | 字母AI在控制成本这方面,OpenAI如今正准备走DeepSeek走过的老路。外媒报道称,OpenAI找到了一种新的系统优化方案,能把模型推理成本砍掉一半以上。原文中是这样描述的,说过去几万张GPU才能满足的需求,现在几百张就足够了。其实AI公司现在最头疼的,不是模型能不能再聪明一点,而是聪明一次到底要花多少钱。过去,行业的主线一直是把模型的性能做强、把上下文的窗口拉大。可结果呢?能力是上去了,然而账单也上去了。尤其是OpenAI这种月活8亿的公司,推理成本是他们商业运作的根基。当所有人都在把AI编程、Agent当作核心叙事的时候,OpenAI准备去讲一个新故事。OPENAI从很久之前,就在想办法降低推理成本OpenAI虽然到现在也没公开这个方案的具体技术细节,但外媒援引知情人士的说法,称推理优化方向,主要来自于KV cache上的优化。啥是KV cache?一句话概括,KV cache就是模型读完前文后留下的“笔记”。大模型生成一句话,不是一次性写完的,而是一个token一个token地往外蹦。每蹦一个新token,它都要回头看前面已经出现过的内容,判断下一个该说什么。如果没有KV cache,模型每生成一个新token,都要把前面整段话重新读一遍、重新算一遍。比如你问了1万字材料,它生成第1个字要读一遍,生成第2个字还要再读一遍,生成到第10000个字还要再读一遍的话,那成本就炸了。海外科技博主安德鲁·库兰(Andrew Curran)表示,OpenAI在架构上出现了一个重大突破,尤其是在内存效率方面。最关键的是,开发了这个新架构的团队,是一个从OpenAI剥离出去的团队,并且这个新团队大概很快就会公布结果。其实OpenAI盯上KV cache已经不是一两天的事情了。早在2024年10月的一次开发者文档更新中,OpenAI就加入了Prompt Caching(提示词缓存)机制。Prompt Caching本质上就是对KV cache的复用,模型...字母AI | tmtpost.com • Jul 2, 2026













