AI Pulse 周报 | 2026-W19

本周聚焦：文心 5.1 登顶搜索榜，DeepSeek 融资创纪录，Google Veo 3 跨越视听鸿沟

从海量 AI 资讯中提取真正有价值的信号

这一周的信息量挺大。国内国外各忙各的：国内这边百度把文心 5.1 端上来了，DeepSeek 融资创纪录的消息传得满天飞；国外 Google 的 Veo 3 让 AI 视频又往上跨了一大步，英伟达的 Jim Fan 则公开宣布 VLA 架构”已死”。

挑几条值得看的，挨个聊聊。

文心 5.1 发布

5 月 9 日，百度正式发布了文心大模型 5.1。

核心亮点有两个。一个是”多维弹性预训练”技术——一次训练能生成多种规模的模型，把总参数压缩到约 1/3，激活参数压到约 1/2，预训练成本只有同规模模型的 6%。这个成本控制确实有点东西。

另一个是效果。LMArena 最新排名显示，文心 5.1 以 1223 分登上搜索榜国内第一、全球第四，是唯一上榜的国产模型。Agent 能力提升比较明显，超过了 DeepSeek-V4-Pro，创意写作跟 Gemini 3.1 Pro 打平，推理能力也逼近了头部闭源模型。

4 月底放出来的 Preview 版在文本榜上就已经以 1476 分超过 GPT-5.5 和 DeepSeek-V4-Pro，拿过国内第一。正式版的实际表现，值得等更详细的 benchmark 数据。

百度还预告了 5 月 13-14 日的 Create 2026 开发者大会，估计会有一波应用层面的东西要公布。

DeepSeek 500 亿融资

量子位传出消息，DeepSeek 完成了首轮创纪录的 500 亿元融资，其中梁文锋个人出资 200 亿。V4.1 版本已经定档 6 月发布。

如果这个消息属实，那这大概是今年 AI 行业最大的一笔融资了。DeepSeek 从年初的 DeepSeek-R1 开始就在模型圈掀起了不小的波澜，低推理成本加上不错的效果，让很多实验室开始重新审视自己的训练策略。

美国研究员的中国之行

艾伦研究所（Ai2）的研究员 Nathan Lambert 最近跑了趟中国，36 小时密集拜访了月之暗面、智谱、清华、美团、小米、阿里千问……回来写了一篇长文。

他的结论挺有意思：中国实验室的追赶能力之所以强，不是因为某一个天才研究者的灵光一闪，而是因为从数据到架构到 RL 算法，全栈每个细节都能榨出一点提升，然后把这些零散的改进拼成一个多目标优化的整体方案。

他还提到一句话：“所有实验室都怕字节跳动。“字节的工程化能力和资源投入，在国内确实是一个特殊存在。

AI 联合数学家

这个挺酷的。Google DeepMind 发布了一个叫”AI Co-Mathematician”的异步工作空间系统，专门用来辅助数学研究。

牛津大学的 Marc Lackenby 用这个系统解答了群论领域 Kourovka Notebook 里几十年没解开的第 21.10 号问题。过程也挺有意思——AI 第一次给出的证明有漏洞，被系统里的审查 Agent 揪出来了。Lackenby 看了之后反而受到启发，意识到怎么填补这个漏洞，最终和 AI 配合完成了证明。

在最难的数学 AI 基准 FrontierMath Tier 4 上，这套系统拿到 48%，刷新了 SOTA，超过了 GPT-5.5 Pro 的 39.6%。

AI 辅助数学研究正在从概念走向实用。最近几个月好几个 Erdős 问题也是被 GPT 解出来的。

Jim Fan：VLA 已死

红杉 AI Ascent 2026 上，英伟达机器人负责人 Jim Fan 花了 20 分钟给两个方向办了”葬礼”：VLA（Vision-Language-Action 模型）和遥操作。

他提出的新范式叫”世界动作模型”，思路是抄 LLM 的作业：

预训练模拟下一个世界状态（对应 next token prediction）
动作微调校准真实机器人有价值的部分（对应 supervised finetuning）
强化学习优化策略（对应 RLHF）

英伟达之前已经陆续放出了 EgoScale、DreamDojo、Dream Zero 等一系列工作。Jim Fan 这场演讲基本把具身智能 2026 年的走向框了出来。

Google Veo 3

Google 上周发布了 Veo 3，新一代视频生成模型，能生成 8 秒 720p 的视频，带同步音效和音频对话——这是 Google AI 工具第一次做到这点。

同时推出的还有一个叫 Flow 的在线 AI 电影制作工具，把 Veo 3 和 Imagen 4 图像生成器以及 Gemini 语言模型整合在一起，可以用自然语言描述场景，在网页里管理角色、地点和视觉风格。

Ars Technica 跑了几组测试，发现 Veo 3 生成的视频在人物动作和表情上的真实感确实又上了一个台阶。TikTok 上已经有人在冒充 Veo 3 生成的内容为真人视频来博眼球了。

价格方面，Google AI Ultra 订阅（每月 250 美元）包含 12,500 积分，每条 Veo 3 视频消耗 150 积分，大概 1.5 美元一条。

Hugging Face 的开源机器人

Hugging Face 公布了两个人形机器人产品。一个叫 HopeJR，售价约 3000 美元，有 66 个自由度，能走路和操控物体。跟法国机器人公司 The Robot Studio 联合设计，开源。

另一个叫 Reachy Mini，长得像 Wall-E 的小半身雕像，能转头和说话，主要给 AI 开发者做测试用，卖 250-300 美元。

Hugging Face CEO Clem Delangue 说得很直白：机器人不能只被几个大玩家用黑箱系统垄断，得让任何人都能组装、理解、重建。

千问 AI 眼镜升级

千问给 AI 眼镜 S1 做了一波大升级，行业首创了空间 3D 显示——导航提示、信息卡片能展示纵深感，“平面变 3D”。

功能上新增了主动提醒（带伞、抬头放松颈椎之类的），本月还会上线打车、闪购、拍题答疑。AI 眼镜这个赛道，拼到最后看的还是大模型能力。

其他值得关注的

Cloudflare 公开承认 AI 让 1100 个岗位变得多余，但公司营收创了新高。这种话一般公司不会说。
OpenAI 在 API 里上线了新的语音智能功能，开发者可以在应用里集成更自然的语音交互。
Chrome 内置 4GB AI 模型，虽然不是什么新技术，但用户确实容易困惑——到底跑在本地还是云端？
Wired 报道了 Nick Bostrom 关于人类”大退休”的规划，一如既往的争议性观点。
数千个”vibe-coded”应用暴露了企业和个人数据，AI 辅助编程的副作用开始显现。
Anthropic 提高了 Claude Code 的使用限额，据说是跟 SpaceX 签了新合作协议。

一句话总结

国内卷成本和效果，国外卷视频、机器人和具身智能。两边的方向不太一样，但都在加速。这个月的 Create 2026 和 6 月的 DeepSeek V4.1 值得期待。

AI Pulse - 不做信息搬运工，只做有价值的筛选和分析