AI 技术日报：基础模型、AI 基础设施、研究论文（2026-05-26）

2026年5月26日星期二 · 共 10 篇精选

AI 技术日报封面 2026-05-26

编辑视角

2026年5月26日的科技头条向我们揭示了一个残酷而又令人兴奋的真相：AI竞争的主战场已经从“逻辑博弈”全面转向“世界模拟”。安德烈·卡帕斯（Andrej Karpathy）加盟Anthropic的消息（见《Karpathy Joins Anthropic Amid Pre-training Focus and Musk’s Massive GPU Expansion》）标志着大模型行业正在集体回归“预训练优先”的教条。面对马斯克那令人畏惧的22万片H100算力集群，硅谷的天才们意识到，仅仅靠后期对齐（Post-training）已经无法拉开代差，未来的胜负手在于对物理世界的深度模拟和合成数据的主权。

Google 在 5 月 19 日推出的 Gemini 3.5，以及更早已经发布并持续演进的 Genie 世界模型线，今天在本期来源中再次被放到同一条技术脉络里；再加上蚂蚁集团在 RSS 2026 亮相的 LingBot-VA（见《LingBot-VA: Ant Group’s Causal World Model for Robotics》），共同定义了“具身智能”的共识：AI必须学会像人类一样感知物理因果。正如今日Hacker News热帖中Geohot所批评的，LLM如果只是概率拟合而无世界模型，将永远无法真正替代程序员。而LingBot-VA通过视频-动作自回归框架实现的92%成功率，正是对这一质疑的强力回应。这意味着，开发者们必须开始关注如何将传统的控制算法与这种大规模因果世界模型集成，这不再是科幻，而是正在发生的工程实践。

然而，在大厂进行“暴力美学”式算力竞赛的同时，我们也看到了另一种极具生命力的路径。面壁智能（Model Best）发布的BitCPM-CANN三值模型（见《Model Best Unveils BitCPM-CANN》），通过1.58-bit量化实现了惊人的6倍显存优化。这告诉我们，AGI的终局绝不是少数巨头的垄断，而是“高精度模拟”与“极致轻量化”的二元论。对于工程师而言，未来的机会隐藏在分布式向量架构（如CockroachDB的C-SPANN）与边缘侧高性能模型的结合点上。与其感叹Anthropic那9000亿美元的估值，不如思考如何利用这种极致的内存效率，在有限的硬件上部署属于你的“具身智能”。2026年下半年的主旋律已经定调：谁能最先在物理世界中完成“感知-行动”的闭环，谁就掌握了通往通用人工智能的门票。

基础模型

基础模型领域近期迎来多项重大进展，谷歌发布 Gemini 3.5 进一步提升多模态能力，Anthropic 估值攀升彰显了顶尖模型研发的巨大商业价值。与此同时，面壁智能推出的 BitCPM-CANN 实现了昇腾算力平台上的 8B 三值模型高效压缩，内存效率提升达 6 倍。这些动态展示了从模型迭代到硬件适配优化的全方位演进，持续推动大模型的大规模落地与效率突破。

LWiAI播客#246：回顾Gemini 3.5、马斯克起诉OpenAI败诉与Anthropic 9000亿美元估值

谷歌发布AI模型Gemini 3.5和AI智能体Gemini Spark，Omni将图像、音频和文本转化为视频

埃隆·马斯克因诉讼时效问题输掉了针对OpenAI的法律诉讼

谷歌在I/O 2026大会上推出了Gemini 3.5系列模型、Gemini Spark智能体以及支持多模态视频生成的Gemini Omni。法律与商业方面，法院以诉讼时效已过为由驳回了埃隆·马斯克对OpenAI的起诉，与此同时Anthropic在300亿美元融资中估值达到了9000亿美元。在研究领域，OpenAI成功解决了一个困扰数学界80年的“埃尔多斯几何问题”。此外，AI芯片制造商Cerebras在IPO后股价飙升90%，反映了市场对AI基础设施持续强劲的需求。编程助手领域也迎来了更新，Cursor与xAI分别发布了Composer 2.5和Grok Build，进一步加剧了行业竞争。

来源: Last Week in AI

LWiAI #246 Recaps Gemini 3.5, Musk's OpenAI Lawsuit Loss, and Anthropic's $900B Valuation

面壁智能发布 BitCPM-CANN：基于昇腾算力实现 8B 大模型 6 倍显存压缩

BitCPM-CANN 是面壁智能联合清华大学、OpenBMB 开源社区发布的三值大模型系列。

相比 BF16 全精度模型，BitCPM-CANN 节省约 6 倍显存，这个数字开发者最能直接感知：一个 8B 参数的全精度模型需要约 16GB 显存，BitCPM-CANN 三值版本不到 3GB

面壁智能联合清华大学发布了 BitCPM-CANN 三值大模型系列，在华为昇腾算力上首次实现了端到端的三值大模型训练，涵盖从 0.5B 到 8B 的参数规模。该系列模型采用 1.58-bit 量化技术，相比 BF16 全精度模型可节省约 6 倍显存，使 8B 规模模型的显存占用从 16GB 降至 3GB 以下。评测显示，BitCPM-CANN 在常识和数学推理等任务中保留了 95.7% 至 97.2% 的模型能力，证明了极低比特量化在国产算力平台上的可行性。这一成果打通了“框架-芯片-模型-方法论”的全闭环，为 600 亿参数模型进入 8GB 内存手机提供了明确的技术路径。目前该系列模型已全面开源，为端侧 AI 的普及和国产 AI 生态建设提供了重要的基础设施支撑。

来源: 爱范儿

Model Best Unveils BitCPM-CANN: 8B Ternary Models with 6x Memory Efficiency on Ascend

AI 基础设施

AI 基础设施涵盖了支持现代机器学习工作负载所需的底层系统和硬件。本类别重点关注高性能计算、分布式数据库和专用加速器的最新进展。随着 CockroachDB 推出 C-SPANN 等分布式向量索引架构，业界正加速构建更具扩展性的数据基础，以支撑日益增长的生成式 AI 需求并优化数据检索效率。

CockroachDB 推出 C-SPANN：一种可扩展的分布式向量索引架构

团队的应对方案是构建一种名为 C-SPANN 的新事物，通过将索引视为 CockroachDB 内部的普通表数据来满足每个约束

向量索引通过放弃精确答案来解决这个问题。它们寻找近似最近邻

CockroachDB 为其分布式数据库开发了名为 C-SPANN 的新型向量索引架构，旨在不依赖中央协调器的前提下支持大规模语义搜索。该工程团队在评估现有算法后，确立了实时更新、支持分片以及拒绝大型内存缓存等关键架构需求。C-SPANN 通过将索引视为数据库内的普通表数据而非独立系统，解决了分布式环境中的热点问题并确保了系统稳定性。由于高维向量缺乏自然排序，传统的 B 树索引无法适用，因此系统采用近似最近邻搜索来平衡查询精度与响应速度。这种设计使数据库能够高效处理数十亿个向量，为生产环境中的语义搜索和检索增强生成（RAG）应用提供了坚实的基础设施支撑。

来源: ByteByteGo Newsletter

CockroachDB Introduces C-SPANN: A Scalable Distributed Vector Indexing Architecture

研究论文

本栏目聚焦全球前沿学术突破，涵盖人工智能与机器人领域的最新研究成果。近期，蚂蚁集团LingBot-VA入选RSS 2026，其推演与行动协同的因果模型展现了具身智能的巨大潜力。通过解析顶尖学术论文，我们旨在揭示理论创新如何驱动产业变革，呈现科技演进的核心逻辑与未来趋势。

蚂蚁灵波LingBot-VA论文入选RSS 2026：推演与行动协同的因果世界模型

LingBot-VA 在 Easy 和 Hard 设置下分别取得 92.0% 和 91.1% 的平均成功率；在 LIBERO 基准上达到 98.5%。

整体成功率较业界基线 π0.5 提升超过 20 个百分点，展现出良好的数据效率和泛化能力。

蚂蚁灵波与香港科技大学合作的论文《Causal World Modeling for Robot Control》被机器人顶级会议 RSS 2026 接收，推出了全球首个开源自回归视频-动作世界模型 LingBot-VA。该模型采用 Mixture-of-Transformers (MoT) 架构，将视频预测与动作生成统一在自回归扩散框架下，实现了“边观察、边判断、边行动”的闭环推演。在 RoboTwin 2.0 双臂操作任务中，LingBot-VA 取得了最高 92.0% 的成功率，并在真实世界评测中比 π0.5 基线提升了 20 个百分点以上。该研究通过因果建模使机器人具备预测动作后果的能力，仅需 50 条真实示范数据即可高效适配复杂任务。蚂蚁灵波已全面开源模型权重和代码，旨在推动具身智能基础模型从依赖指令执行向自主决策演进。

来源: 量子位

LingBot-VA: Ant Group’s Causal World Model for Robotics Accepted at RSS 2026

AI 商业

AI商业领域正经历剧烈的人才流动与基建扩张。顶级专家Karpathy入职Anthropic，体现了领军企业对底层预训练技术的持续加注。同时，马斯克22万块显卡的算力集群扩张，标志着大模型竞争已进入资本与算力密集的高壁垒阶段。这些动态共同勾勒出AI行业从技术竞赛向规模化商业落地演进的宏大版图。

Karpathy入职Anthropic：预训练回归硬核与马斯克22万卡助攻

连李飞飞的得意门生、OpenAI联合创始人Karpathy都跟不上现在的AI发展了？

SpaceX变身算力倒爷，马斯克变太空黄仁勋

OpenAI联合创始人Andrej Karpathy正式加入Anthropic，此举标志着预训练技术在后训练时代依然是决定模型生死的核竞争点。Karpathy在合成数据领域的深厚积累被认为是Anthropic加强底层架构能力的关键，尤其是在全球顶级实验室竞逐2026年技术节点的背景下。与此同时，马斯克凭借22万张显卡的算力储备，正通过SpaceX和xAI构建庞大的基础设施优势，试图在算力市场扮演重要角色。业内甚至传出DeepMind掌门人向Anthropic注资的消息，显示出硅谷正在形成“联A抗O”的竞争格局。这场技术大神、算力巨头与顶级实验室之间的博弈，深刻揭示了当前AI行业从商业模式到技术路线的剧烈震荡。

来源: 人民公园说AI

Karpathy Joins Anthropic Amid Pre-training Focus and Musk’s Massive GPU Expansion

新兴技术

深入探索科技最前沿，聚焦家用具身智能机器人及网络安全威胁的最新演变。本板块汇集了全球开发者社区的热门动态，深度剖析人工智能与数字化工具的突破性进展。通过追踪这些具有颠覆性的技术趋势，我们致力于为您解读正在重塑未来生活与工作模式的创新力量。

许华哲再次创业：创立破壳机器人，重塑家用具身智能

从 2026 年 3 月开始，许华哲有了一个新身份：破壳机器人的创始人。之前的两年多里，许华哲是星海图的联创和首席科学家。

他说具身智能不是 robotics、不是自动驾驶，也不是“史前深度学习”。

星海图前联创兼首席科学家许华哲于 2026 年 3 月正式创立破壳机器人，致力于通过家庭机器人路径实现通用机器人的愿景。破壳机器人试图跳出传统的机器人和自动驾驶路径依赖，回归对通用智能的底层探索，并指出强化学习在当前具身智能领域被严重低估。许华哲强调技术应追求简单与一致之美，而非沿袭复杂的“史前深度学习”模式。他预判行业将在 18 至 24 个月后进入重资源竞争阶段，届时大公司将悉数入场。尽管中国被认为是具身智能发展的核心阵地，但创业者必须具备全球视野，以确保不在这场技术竞赛中错过最大的市场红利。

来源: 晚点聊 LateTalk

Xu Huazhe Launches Poke Robot: Redefining Embodied AI for Home Environments

2026年5月26日 Hacker News 热门故事摘要

通过将 Minsky 寄存器机映射到 Jira 自动化，文章证明 Jira 图灵完备

澳洲 15 家企业试行 100:80:100 四天制未见生产力下滑且显著降压

教皇利奥十四世发布通谕《尊贵的人性》，主张人工智能必须受道德与法治约束，并拒绝超人主义以维护人的尊严与社会正义。谷歌强推对话式AI搜索引发用户反感，带动了 Kagi、DuckDuckGo 和 Startpage 等注重隐私且无广告的替代搜索引擎受到关注。在软件开发领域，geohot 认为 LLM 仅是分布拟合而缺乏世界模型，将 AI 代理视为程序员是错误的选择。技术研究证明了 Jira 自动化通过映射 Minsky 寄存器机具有图灵完备性，尽管受限于云端执行环境。此外，澳洲 15 家企业试行四天工作制的结果显示，通过精简会议和自动化，在不降低生产力的前提下显著减轻了员工压力。

来源: SuperTechFans

中文钓鱼即服务 (PhaaS) 生态系统演进分析

GTIG 观察到攻击方式已从静态密码收集转向实时拦截和令牌化。

这些服务不仅降低了中国网络罪犯的准入门槛，还揭示了社交工程演变的更广泛模式。

Google 威胁情报小组发现，中文钓鱼即服务（PhaaS）正从静态密码收集转向实时拦截一次性密码和令牌化攻击。攻击者利用实时管理面板与受害者互动，从而绕过多因素身份验证并直接控制财务账户。该生态系统不仅提供钓鱼工具，还涵盖个人信息贩卖、域名注册及洗钱等全套黑产服务。为规避运营商拦截，攻击者普遍采用 RCS 和 iMessage 等加密渠道发送钓鱼信息。与俄罗斯黑产不同，中文 PhaaS 运营者通常在 Telegram 上公开活动，且主要针对非中国实体。Google 已对相关供应商采取法律行动，并持续加强技术防护措施。

来源: Google Cloud Blog

The Evolution of Chinese-language Phishing-as-a-Service (PhaaS)

编程技术

聚焦软件开发前沿与性能优化实践，深入探讨如何利用 ffmpeg 等工具实现高效视频交互与移动端 3D 体验优化。本栏目旨在分享从大幅缩减资源体积到提升渲染性能的实战经验，为开发者提供极具价值的技术洞察，助力打造平衡视觉效果与响应速度的轻量化现代应用。

从15MB减至800KB：利用ffmpeg优化移动端3D交互体验

美术导出的高精度 glTF 模型起码 150MB 往上。加载这么大文件，海外用户的首屏白屏时间你来负责？

最终，我毙掉了他的 WebGL 方案，转而采用了一套极其克制、性能极佳的视频帧平滑控制（Video Scrubbing）方案。

高精度glTF模型文件通常超过150MB，在移动端进行360度商品预览时会导致严重的加载延迟及设备发热卡顿。通过采用“视频帧平滑控制”方案替代WebGL渲染，开发者可以利用离线渲染的视频实现电影级视觉效果，同时大幅降低硬件性能开销。尽管视频方案体积更小，但传统的帧间压缩技术在手动拖动画面时会产生明显的延迟和抖动。通过使用ffmpeg对视频编码进行针对性优化，可以解决移动端拖拽不流畅的问题，将资源体积从15MB压缩至约800KB。该方案在完美保留材质细节的同时，彻底解决了前端架构中的3D交互性能瓶颈，非常适合对首屏加载要求严苛的跨境电商场景。

来源: 掘金本周最热

开发工具

开发工具是现代软件工程的核心，助力开发者更高效地构建、测试和部署应用程序。本板块聚焦版本控制系统和集成开发环境，探索如何通过工具优化工作流并提升协作效率。从 VS Code 的 Git 深度集成到环境配置的最佳实践，我们为您提供前沿的技术洞察，帮助您掌握提升生产力的核心利器。

GitHub 初学者指南：在 VS Code 中高效使用 Git 和 GitHub

在 VS Code 中使用 GitHub 可以减少上下文切换，简化工作流程并提高生产力。

在 VS Code 中使用 Git 的第一步是初始化一个文件夹，以反映您在 GitHub 上的仓库。

Visual Studio Code 内置了强大的 GitHub 集成功能，能够显著减少上下文切换并优化开发工作流。用户只需通过编辑器侧边栏的“源代码管理”图标并点击“初始化仓库”按钮，即可将本地文件夹转换为 Git 仓库。初始化后，界面左下角会显示当前分支名称，开发者可通过命令面板快速执行分支重命名等操作。文件旁显示的“U”标签代表未跟踪状态，而将其加入暂存区后标签会变为“A”，标志着已准备好进行提交。这种原生集成支持开发者在不离开编辑器的情况下完成代码管理、暂存和推送等核心任务，只需安装 Git 和 VS Code 即可开始使用。

来源: The GitHub Blog

Beginners Guide: Integrating Git and GitHub with VS Code

本报告由 WindFlash AI 自动生成，内容基于过去 48 小时内的公开 AI 资讯。