本周聚焦:文心 5.1 登顶搜索榜,DeepSeek 融资创纪录,Google Veo 3 跨越视听鸿沟
从海量 AI 资讯中提取真正有价值的信号
这一周的信息量挺大。国内国外各忙各的:国内这边百度把文心 5.1 端上来了,DeepSeek 融资创纪录的消息传得满天飞;国外 Google 的 Veo 3 让 AI 视频又往上跨了一大步,英伟达的 Jim Fan 则公开宣布 VLA 架构”已死”。
挑几条值得看的,挨个聊聊。
文心 5.1 发布
5 月 9 日,百度正式发布了文心大模型 5.1。
核心亮点有两个。一个是”多维弹性预训练”技术——一次训练能生成多种规模的模型,把总参数压缩到约 1/3,激活参数压到约 1/2,预训练成本只有同规模模型的 6%。这个成本控制确实有点东西。
另一个是效果。LMArena 最新排名显示,文心 5.1 以 1223 分登上搜索榜国内第一、全球第四,是唯一上榜的国产模型。Agent 能力提升比较明显,超过了 DeepSeek-V4-Pro,创意写作跟 Gemini 3.1 Pro 打平,推理能力也逼近了头部闭源模型。
4 月底放出来的 Preview 版在文本榜上就已经以 1476 分超过 GPT-5.5 和 DeepSeek-V4-Pro,拿过国内第一。正式版的实际表现,值得等更详细的 benchmark 数据。
百度还预告了 5 月 13-14 日的 Create 2026 开发者大会,估计会有一波应用层面的东西要公布。
DeepSeek 500 亿融资
量子位传出消息,DeepSeek 完成了首轮创纪录的 500 亿元融资,其中梁文锋个人出资 200 亿。V4.1 版本已经定档 6 月发布。
如果这个消息属实,那这大概是今年 AI 行业最大的一笔融资了。DeepSeek 从年初的 DeepSeek-R1 开始就在模型圈掀起了不小的波澜,低推理成本加上不错的效果,让很多实验室开始重新审视自己的训练策略。
美国研究员的中国之行
艾伦研究所(Ai2)的研究员 Nathan Lambert 最近跑了趟中国,36 小时密集拜访了月之暗面、智谱、清华、美团、小米、阿里千问……回来写了一篇长文。
他的结论挺有意思:中国实验室的追赶能力之所以强,不是因为某一个天才研究者的灵光一闪,而是因为从数据到架构到 RL 算法,全栈每个细节都能榨出一点提升,然后把这些零散的改进拼成一个多目标优化的整体方案。
他还提到一句话:“所有实验室都怕字节跳动。“字节的工程化能力和资源投入,在国内确实是一个特殊存在。
AI 联合数学家
这个挺酷的。Google DeepMind 发布了一个叫”AI Co-Mathematician”的异步工作空间系统,专门用来辅助数学研究。
牛津大学的 Marc Lackenby 用这个系统解答了群论领域 Kourovka Notebook 里几十年没解开的第 21.10 号问题。过程也挺有意思——AI 第一次给出的证明有漏洞,被系统里的审查 Agent 揪出来了。Lackenby 看了之后反而受到启发,意识到怎么填补这个漏洞,最终和 AI 配合完成了证明。
在最难的数学 AI 基准 FrontierMath Tier 4 上,这套系统拿到 48%,刷新了 SOTA,超过了 GPT-5.5 Pro 的 39.6%。
AI 辅助数学研究正在从概念走向实用。最近几个月好几个 Erdős 问题也是被 GPT 解出来的。
Jim Fan:VLA 已死
红杉 AI Ascent 2026 上,英伟达机器人负责人 Jim Fan 花了 20 分钟给两个方向办了”葬礼”:VLA(Vision-Language-Action 模型)和遥操作。
他提出的新范式叫”世界动作模型”,思路是抄 LLM 的作业:
- 预训练模拟下一个世界状态(对应 next token prediction)
- 动作微调校准真实机器人有价值的部分(对应 supervised finetuning)
- 强化学习优化策略(对应 RLHF)
英伟达之前已经陆续放出了 EgoScale、DreamDojo、Dream Zero 等一系列工作。Jim Fan 这场演讲基本把具身智能 2026 年的走向框了出来。
Google Veo 3
Google 上周发布了 Veo 3,新一代视频生成模型,能生成 8 秒 720p 的视频,带同步音效和音频对话——这是 Google AI 工具第一次做到这点。
同时推出的还有一个叫 Flow 的在线 AI 电影制作工具,把 Veo 3 和 Imagen 4 图像生成器以及 Gemini 语言模型整合在一起,可以用自然语言描述场景,在网页里管理角色、地点和视觉风格。
Ars Technica 跑了几组测试,发现 Veo 3 生成的视频在人物动作和表情上的真实感确实又上了一个台阶。TikTok 上已经有人在冒充 Veo 3 生成的内容为真人视频来博眼球了。
价格方面,Google AI Ultra 订阅(每月 250 美元)包含 12,500 积分,每条 Veo 3 视频消耗 150 积分,大概 1.5 美元一条。
Hugging Face 的开源机器人
Hugging Face 公布了两个人形机器人产品。一个叫 HopeJR,售价约 3000 美元,有 66 个自由度,能走路和操控物体。跟法国机器人公司 The Robot Studio 联合设计,开源。
另一个叫 Reachy Mini,长得像 Wall-E 的小半身雕像,能转头和说话,主要给 AI 开发者做测试用,卖 250-300 美元。
Hugging Face CEO Clem Delangue 说得很直白:机器人不能只被几个大玩家用黑箱系统垄断,得让任何人都能组装、理解、重建。
千问 AI 眼镜升级
千问给 AI 眼镜 S1 做了一波大升级,行业首创了空间 3D 显示——导航提示、信息卡片能展示纵深感,“平面变 3D”。
功能上新增了主动提醒(带伞、抬头放松颈椎之类的),本月还会上线打车、闪购、拍题答疑。AI 眼镜这个赛道,拼到最后看的还是大模型能力。
其他值得关注的
- Cloudflare 公开承认 AI 让 1100 个岗位变得多余,但公司营收创了新高。这种话一般公司不会说。
- OpenAI 在 API 里上线了新的语音智能功能,开发者可以在应用里集成更自然的语音交互。
- Chrome 内置 4GB AI 模型,虽然不是什么新技术,但用户确实容易困惑——到底跑在本地还是云端?
- Wired 报道了 Nick Bostrom 关于人类”大退休”的规划,一如既往的争议性观点。
- 数千个”vibe-coded”应用暴露了企业和个人数据,AI 辅助编程的副作用开始显现。
- Anthropic 提高了 Claude Code 的使用限额,据说是跟 SpaceX 签了新合作协议。
一句话总结
国内卷成本和效果,国外卷视频、机器人和具身智能。两边的方向不太一样,但都在加速。这个月的 Create 2026 和 6 月的 DeepSeek V4.1 值得期待。
AI Pulse - 不做信息搬运工,只做有价值的筛选和分析