阿里主动公布了AI收入,但吴泳铭没有展开谈。百度被问及AI的回报节奏,李彦宏说“全球都还在早期”。Meta被问千亿美金资本开支何时回本,扎克伯格说“我们想确保自己没有投资不足”。 二来,它不是上市公司,没有季报年报、没有股东大会、没有分析师追问——能力到底有多强?成本到底是多少?收入到底真不真?字节完全可以不说,也可以选择性地说。 不去打个榜,好像就out了。MMLU、CEval、SuperCLUE、Chatbot Arena、AGIEval、MATH、HumanEval、GSM8K、MMMU、CMMLU……综合的、中文的、推理的、代码的、长文本的、多模态的、Agent的,每一个细分维度都能拉出一张榜,每一张榜上都能找到一个“第一”。 其实打榜手法,业内人都门儿清:测试集泄漏一点(contamination)、cherry-pick自家擅长的几个benchmark发、避开弱项不发、同一道题不同prompt调到分最高的那次发……一套组合拳下来,“全球第一”就新鲜出炉了。 斯坦福基础模型研究中心(CRFM)和加州伯克利大学这两年发过几篇论文,专门讨论“benchmark contamination”,结论是:主流大模型的公开benchmark分数,普遍含水分,水多水少而已。 过去一年,豆包一路从Chatbot Arena的中游冲到前列,每一次模型迭代,发布会上都要刷新一组“第一”。火山引擎的营销口径里,“日均调用量第一”“中文综合能力第一”“多模态第一”轮番出现,某遥遥领先的大佬看到都得直呼内行。 跑得快当然是好事。问题是这些“第一”,到底是模型真的更强了,还是工程团队把“用户偏好”摸得更准了?Chatbot Arena这种盲测榜单,最近也被质疑——更长、更礼貌、更结构化的回答更容易赢,但赢了Arena,不等于真的更聪明。 不过,当用户口碑积累出来、当真正的差异化场景显现,纸面上的“第一”,迟早会和实际口碑出现劈叉。那个时刻,跑得最快、声量最大、“第一”刷得最密的那一家,预期回调最猛,这一点meta早有先例。 这逼得所有国产大模型价格集体跳水。阿里云迅速跟进,千问主力模型价格直降97%,1元可兑换200万Token,相当于5本《新华字典》的文字量。腾讯、百度也都只能跟进降价。 对大厂来说,Token经济学最关键要算一道题:你卖一个Token收多少钱,背后的算力、电费、芯片折旧、人力分摊加起来花你多少钱,差额是多少。差额为负只能是阶段性补贴,差额为正才能持续。外卖大战已经说明一切。这道题到了AI这里,去年之前没什么人算清楚过,今年算的人开始多了。 硅谷最硬核的芯片分析机构SemiAnalysis发过一份测算:以GPT-4级别的模型推理,单位Token的全成本(含芯片折旧、电费、机房、运维),按当前H100算力成本,大致在2-4元/百万Token区间。每家的模型大小、推理优化、批处理效率都不一样,但量级是差不多的。 这不是字节一家。阿里千问、百度文心、腾讯混元,主力API价格都在1-3元/百万Token区间,全部贴着或低于成本线。整个国内大模型API市场,目前是个集体亏损的市场。 OpenAI诚实一点。Sam Altman公开承认过“ChatGPT Pro 200美元/月订阅是亏钱的”——一个月200美元、用户重度使用,OpenAI还要倒贴。国内同行的账没明牌,但讲的是同一件事:当下的Token定价,普遍抹不平成本。 所有人还在降价,是因为这是一场赌未来的牌局——赌算力成本会随芯片迭代和推理优化继续下降,赌用户规模涨上去之后单位成本能被摊薄,赌竞争对手先撑不住、自己活到拐点。 从目前看,纯免费的C端AI产品,在算力成本面前没有商业模式。豆包App月活3.45亿,按行业平均推理成本算,光算力账单一年就是几十亿级别,这还不算训练分摊、硬件折旧,更不算人力和营销成本——字节有独步天下的广告能力,这个窟窿能补上,但总不能一直补。 900亿的AI算力投入,对着一个单位经济性为负的API市场、一个刚开始转付费的C端产品——这道题如果算得过来,字节就赢了世纪豪赌。算不过来,这可能就是国内AI最大的吞金黑洞。 OpenAI靠微软的财务接盘,亏损至少能从Azure毛利率变化里间接看到。Anthropic靠亚马逊和Google的接盘,亏损在两家的Cloud Capex里有迹可循。字节背后没有上市公司接盘,它的Token账单、推理亏损、AI单位经济性,都混进集团那口大焖锅,外界看不到。 微软抛出的是Azure FY25年收入750亿美元,阿里晒的是AI年化收入(ARR)达358亿元,Google讲的是云backlog一季度新增490亿美元冲到1550亿。腾讯、Meta不单列AI收入,给的是另一种数字:腾讯说“广告增量一半来自AI驱动”,Meta把2026年Capex指引拉到1000亿美元。 阿里披露的“AI相关产品收入”,包含了通义千问API、模型训练算力、向量数据库、AI推理服务——也包括所有“用了AI技术的传统云服务”。一台云服务器如果客户拿来跑AI训练,算AI收入。一个对象存储如果存的是训练数据集,算AI收入。一个数据库如果配了向量插件,也算AI收入。 一是PoC项目。大量企业客户买AI是为了试一下、看看效果,一个PoC合同跑三个月、五十万、技术验证之后,大概率不续约。很多这类钱被算进ARR,但明年就没了。 二是关联交易。微软给OpenAI的Azure积分、火山引擎给豆包的算力支持、千问给自己电商和钉钉团队的内部API调用——集团内部转账,会计上可以确认收入,业务上不是“市场需求”。 三是价格未来要降。AI业务现在的高单价是因为竞争还不充分,等到几家开源模型逼近Claude和ChatGPT水平、推理芯片国产替代、价格战进一步打——同样的调用量,明年的收入可能只有今年的一半。 微软今年一季度公布的AI ARR是370亿美元,已有多家媒体在拆这个ARR的“纯度”:370亿美元里到底多少是Copilot订阅、多少是Azure OpenAI算力转售、多少是原IT预算的“AI标签化”——微软至今没有公开拆分披露。 互联网的DAU、电商的GMV、云计算的云收入,每一次新指标出现,都伴随着一波估值狂欢。到了AI时代,这个被重新定义的指标,叫“AI收入”和“AI ARR”—— 不管这个口径的“纯度”有多高,现在先拼命往上喊,才能支撑起新的叙事。那些谨慎的、不愿大鸣大放的公司,会被认为是叙事失败者,会在估值上被狠狠惩罚。 这既是字节的优势,也是字节的隐患:现在没有一份财报需要把AI收入单拎出来接受市场拷问,估值故事可以一直按“国内AI老大”讲下去。一旦情绪降温、IPO预期重启,所有积压的"不披露",会在那一刻一次性兑现。 到那时,市场会用对待阿里、对待腾讯、对待微软和谷歌的同一把尺子来拆字节的“AI收入”——纯度多少、关联交易多少、PoC占比多少、ARR的R有多少能Recurring。 模型榜单的水分、算力成本的窟窿、ARR的纯度——无需披露,是不上市的红利,甚至可能是字节AI的核心竞争力,可以无视市场先生的噪音,专注发展。







trap
trap
-->