AI 技术日报：AI 商业、基础模型、AI 智能体（2026-06-24）

2026年6月24日星期三 · 共 10 篇精选

AI 技术日报封面 2026-06-24

编辑视角

人工智能领域的“补贴幻觉”正在破灭。根据今天《AI's Affordability Crisis》的深度分析，OpenAI 在 2025 年录得超过 385 亿美元的净亏损，这种用每 14 美元的成本换取 1 美元收入的“毒贩算法”显然已难以为继。对于开发者和工程师而言，这释放了一个明确的信号：无限廉价计算资源的时代即将结束。我们必须从“模型崇拜”转向“单位经济效益”的极致追求。如果你的业务逻辑依赖于这种被严重扭曲的代币价格，那么当补贴停止、价格回归真实成本时，你的系统将面临灭顶之灾。

正是由于这种经济压力，AI 的发展重心正被迫从单纯的文本生成转向具备自我生存能力的“智能体经济”。《Qwen-AgentWorld》的发布标志着“世界模型”已成为通用智能体的核心认知机制。通过模拟真实环境的交互轨迹，模型不再只是在词林中博弈，而是在尝试理解物理与逻辑世界的运行规律。这种自主性的提升是应对高昂算力成本的唯一出路：只有当智能体能够通过更少的推理步数、更高的成功率完成复杂任务时，昂贵的 Token 投入才能转化为正向的商业收益。从“对话框”到“环境模拟器”的转变，是 AI 从玩具进化为生产力工具的关键一跃。

与此同时，支撑这种“智能体经济”的基础设施正在快速成型。无论是《Bluerails Discovery》为品牌提供的智能体可见性评分，还是 Ampersend 提出的“按智能付费（Pay-Per-Intelligence）”模型，都在为机器对机器（M2M）的商业时代铺设轨道。未来的开发者不仅要编写代码，更要构建能够“自负盈亏”的经济实体。我们需要像 Bluerails 那样建立让智能体能够相互识别、交易和结算的规范。2026 年将是一个分水岭：那些只会消耗补贴额度的“实验室产物”将被淘汰，而那些能够在算力成本飙升的背景下，利用类似 NVIDIA Blackwell 硬件加速技术并结合智能支付协议实现自我循环的系统，将成为下一代互联网的真正主人。现在，请停止堆砌参数，开始构建真正能盈利的智能逻辑。

AI 商业

“AI 商业”深入剖析人工智能行业的经济动态与可持续性。近期重点关注代币补贴背后的巨额亏损，探讨企业在追求增长时面临的负担能力危机。本栏目为您揭示运营成本与市场定价之间的经济鸿沟，分析 AI 产业在规模化过程中的商业逻辑与财务挑战。

AI 负担能力危机：令牌补贴背后的巨额亏损与经济鸿沟

每月支付 200 美元，你可以在 Anthropic 消耗价值 8000 美元的令牌，或在 OpenAI 消耗 14000 美元的令牌

OpenAI 的收入为 130.7 亿美元，成本和费用为 340 亿美元，亏损为 209.2 亿美元

AI 平台目前正在为企业客户提供高达订阅费用 70 倍的补贴，每月 200 美元的订阅者可消耗价值 1.4 万美元的令牌。这种大规模补贴制造了虚假的需求激增，导致平台每产生 1 美元收入需花费 8 到 14 美元。2025 年财务数据显示，OpenAI 收入为 130.7 亿美元，成本支出为 340 亿美元，净亏损达 385.3 亿美元。尽管 Anthropic 的补贴力度较小，其企业采用率却在飙升，而补贴力度更大的 OpenAI 业务增长则趋于平缓。分析师警告称，这种通过廉价获取昂贵算力的模式难以为继，未来必须大幅提价才能实现盈利。这种财政赤字凸显了基础 AI 模型在经济可行性上正面临严重的危机。

来源: Hacker News

AI's Affordability Crisis: The Massive Economic Gap in Token Subsidies

基础模型

基础模型作为人工智能的基石，通过在大规模数据上进行预训练，为各类下游应用提供了强大的通用能力。当前的研究正致力于将这些模型演进为能够模拟复杂环境的“世界模型”，从而显著提升智能体在现实与虚拟场景中的自主决策水平。这些技术突破不仅增强了模型的多模态理解力，也为通向通用人工智能奠定了坚实的基础。

Qwen-AgentWorld：为通用智能体构建基础语言世界模型

我们推出了 Qwen-AgentWorld-35B-A3B 和 Qwen-AgentWorld-397B-A17B，这是首个能够通过长链思维推理模拟覆盖 7 个领域的智能体环境的语言世界模型

利用现实环境中 7 个领域的超过 1000 万条环境交互轨迹，我们通过三阶段训练流水线开发了 Qwen-AgentWorld

Qwen-AgentWorld 推出了首批语言世界模型 Qwen-AgentWorld-35B-A3B 和 Qwen-AgentWorld-397B-A17B，能够通过长链条思维导图模拟覆盖 7 个领域的智能体环境。该模型通过包含持续预训练、指令微调和强化学习的三阶段流水线开发，利用了超过 1000 万条真实环境交互轨迹。研究团队同步推出了 AgentWorldBench 评测基准，实验证明该模型在模拟保真度上显著超越现有前沿模型。作为解耦的环境模拟器，它支持数千个真实环境的大规模可控模拟，为智能体强化学习带来的增益超过了纯真实环境训练。此外，世界模型训练被证明是极佳的预热方式，能有效提升 7 个智能体基准测试的下游任务表现，为提升通用智能体性能开辟了新路径。

来源: HuggingFace Papers

Qwen-AgentWorld: Building Foundation Language World Models for General Agents

AI 智能体

AI 智能体正从简单的交互工具演变为具备自主决策能力的系统，能够胜任移动端 GUI 适配与电信网络自动化等复杂任务。通过分层反馈优化等技术，智能体正实现免标注的自我进化。与此同时，按需计费等商业模式的创新，标志着智能体生态正迈向成熟的产业化应用阶段。

MobileForge：基于分层反馈优化的移动 GUI 智能体免标注适配系统

MobileForge 将 Qwen3-VL-8B 在 AndroidWorld 上的 Pass@3 适配至 67.2%

经 MobileForge 适配的 ForgeOwl-8B 在 AndroidWorld 上进一步达到了 77.6% 的 Pass@3

MobileForge 系统通过自动生成的免标注数据，使 Qwen3-VL-8B 模型在 AndroidWorld 测试中达到了 67.2% 的 Pass@3 成功率。该系统集成了 MobileGym 环境与分层反馈引导策略优化（HiFPO），有效解决了移动 App 适配中人工标注成本高、更新频繁的问题。MobileGym 负责在真实 App 交互中生成任务并评估执行情况，而 HiFPO 则将轨迹结果、步骤级反馈和纠错提示转化为强化学习更新信号。经过适配的 ForgeOwl-8B 模型在 AndroidWorld 上的 Pass@3 进一步提升至 77.6%，并在 MobileWorld 域外测试中取得 41.0% 的成功率。这一研究成果为开发无需人类演示或奖励标签的开源移动 GUI 智能体提供了统一的底层架构。

来源: HuggingFace Papers

MobileForge: Annotation-Free Adaptation for Mobile GUI Agents via HiFPO

电信运营商利用智能体 AI 构建自动驾驶网络

自动化通常处于 TM Forum 自动驾驶网络等级分类的第 2-3 级范围

在特定的网络领域中简化预定义解决方案的执行

电信运营商目前正处于 TM Forum 自动驾驶网络标准的 L2-L3 阶段，主要在特定领域执行预定义自动化方案。行业正致力于通过引入智能体 AI 来跨越到 L4-L5 高级自治阶段，以实现更复杂的决策能力。这些自主系统旨在重塑网络运营、客户服务及后台工作流，减少人工干预。通过集成生成式 AI 智能体，运营商能从简单执行转变为主动式网络管理。这一转变标志着电信基础设施向完全自管理环境演进的关键一步，最终将提升全球通信网络的运行效率。

来源: NVIDIA Generative AI Blog

Building Autonomous Telecom Networks with Agentic AI

Ampersend 利用 Amazon Bedrock 实现 AI 智能体按需计费

AI 智能体自主将任务路由至最有效的模型，按请求付费，并在支出预算内运行。

Ampersend 在 Amazon Bedrock AgentCore Payments 之上构建了一个按智能付费的路由层。

AI 智能体现在能够自主将任务路由至最有效的模型，并在预设预算内按请求进行支付。该架构通过 Amazon Bedrock AgentCore Payments 构建了一个按智能付费的路由层，实现了分布式智能的按需支付。系统采用双跳支付模式，确保智能体与模型提供商之间的交易安全高效。这种框架使开发者无需人工干预即可扩展智能体工作流，同时实现精细化的成本控制。通过将任务复杂度与模型能力精准匹配，该方案显著提升了 AI 业务的商业可行性。

来源: AWS Machine Learning Blog

Ampersend's Pay-Per-Intelligence Model Using Amazon Bedrock AgentCore Payments

AI 基础设施

本类别聚焦驱动 AI 演进的底层技术，涵盖硬件加速及智能体协同架构。近期，NVIDIA Blackwell 利用 DFlash 投机采样技术显著提升了推理效率，为大模型应用提供强大算力支撑。同时，Bluerails Discovery 等新兴平台正致力于构建 AI Agent 的发现与支付基础设施，助力自主数字生态的商业化落地。

NVIDIA Blackwell 利用 DFlash 投机采样将推理性能提升高达 15 倍

投机采样通过使用轻量级模型草拟未来的 Token 来帮助缓解这一瓶颈

自回归大语言模型按顺序生成 Token，这可能会限制 GPU 利用率

NVIDIA Blackwell GPU 通过 DFlash 投机采样技术实现了高达 15 倍的推理性能提升。该方案有效解决了自回归大语言模型顺序生成 Token 导致的 GPU 利用率低和吞吐量受限的问题。通过引入轻量级草拟模型预测后续 Token，系统显著降低了复杂 AI 工作流的延迟。随着 AI 系统向多智能体协作转型，低延迟推理已成为实时响应的关键需求。这一技术突破在不牺牲模型准确性的前提下，充分释放了 Blackwell 架构的硬件潜力。DFlash 为延迟敏感型应用提供了更高效的资源调度支持。

来源: NVIDIA Generative AI Blog

Accelerating LLM Inference on NVIDIA Blackwell via DFlash Speculative Decoding

Bluerails Discovery：为 AI Agent 构建发现与支付基础设施

发现：提供基于 400 个样本的同行评审 AI 可见性分数，而非一次性猜测。

我们让您能被 AI 智能体发现并准备好接受它们的支付

Bluerails Discovery 通过 400 个样本提供同行评审的 AI 可见性评分，衡量品牌在 AI 智能体中的曝光度。该平台构建了专门的基础设施，使企业能被 AI 智能体发现并直接完成支付。其集成了 Agent 专用结账、全球结算及内置合规功能，旨在打通机器对机器的商业闭环。用户现可获取免费的发现报告，而 Agent 支付功能即将推出。该工具为品牌在智能体经济中建立标准化的交互与支付“轨道”，推动了 AI 商务的基础设施建设。

来源: Product Hunt

AI 应用

AI 应用领域聚焦于将前沿算法转化为实际生产力，涵盖了从地理空间分析到内容创作的广泛场景。通过多模态搜索和自然语言交互，AI 正在重塑专业领域的工作流，显著提升了处理复杂数据的效率。本栏目带您深入了解这些技术如何赋能行业，实现更智能、直观的数字化转型。

基于多模态 AI 的大规模航空影像语义搜索

Amazon Nova 多模态嵌入模型在评估的两个基准查询中均获得了最高的 F1 分数。

此处描述的工作已演化为 Vexcel Intelligence，这是一款可搜索的影像产品。

Amazon Nova 多模态嵌入模型在地理空间语义搜索的基准查询评估中获得了最高的 F1 分数。该系统架构采用 Amazon Bedrock 和 Amazon OpenSearch Serverless，基于 OpenStreetMap 真值建立了严谨的评估方法。研究通过四项实验深入对比了嵌入模型、融合策略、图像描述和搜索方法，验证了不同设计方案对检索精度的实际影响。这些技术选择最终演化为 Vexcel Intelligence 这一商业化可搜索影像产品。相关研究结果为构建大规模航空影像语义搜索系统提供了关键的技术路径参考与实践指南。

来源: AWS Machine Learning Blog

Multimodal AI for Scalable Semantic Search in Aerial Imagery

OpenArt Director：通过聊天指令导演电影级视频

OpenArt 让您有能力在几分钟内将任何想法转化为迷人的视觉故事。

通过聊天导演电影级视频

OpenArt Director 允许用户通过聊天界面生成电影级品质的视频和视觉故事。该平台能够在几分钟内将抽象创意转化为高水准的短片、社交媒体内容和品牌广告。这是 OpenArt AI 的第六次产品发布，其平台在 Product Hunt 上已获得 4.2 星评分和超过 4300 名关注者。该工具专注于降低创作门槛，让制作者无需复杂的专业技术即可产出高端视觉效果。通过利用生成式媒体技术，用户可以通过对话互动来解释概念或构建视频营销活动。此次发布旨在简化电影制作人、营销人员和社交媒体达人的创意工作流程。

来源: Product Hunt

OpenArt Director: Directing Cinematic Videos via Chat Interface

研究论文

本栏目汇集全球顶级学术机构的研究成果，涵盖人工智能、机器人学及前沿技术理论。近期重点关注 InSight 框架，该技术通过可控的视觉-语言-动作（VLA）模型，显著提升了机器人的自主技能获取能力。这些深入的论文探讨不仅为行业提供了创新的技术方案，更为未来智能系统的进化奠定了坚实的理论基础。

InSight 框架：通过可控 VLA 实现自主机器人技能获取

InSight 是一种通过使 VLA 在基元动作级别具备可控性，从而解锁自主技能获取的框架

InSight 由两个主要阶段组成：(1) 一个自动分割流水线，通过 VLM 计划分解将演示划分为带标签的基元

视觉-语言-动作 (VLA) 模型的操控能力通常受限于其训练数据中的既定技能。InSight 框架通过使 VLA 在基元动作级别（如“将抓手移至碗部”或“向上提起”）具备可控性，解锁了自主技能获取能力。该框架包含一个自动分割流水线，利用 VLM 计划分解和末端执行器位姿将演示数据划分为带标签的基元动作，从而实现 VLA 基元的可控性。这种方法使机器人能够超越固定演示数据的限制，实现更灵活的技能扩展。通过将高层任务规划与底层动作执行相结合，InSight 为提升机器人系统的自主化水平和环境适应能力提供了新的技术路径。

来源: ArXiv

本报告由 WindFlash AI 自动生成，内容基于过去 48 小时内的公开 AI 资讯。