新模型、开源权重与评测。
Moonshot AI发布Kimi K2.7 Code,一款拥有1万亿参数的开源权重编程模型。在编程基准测试上仍落后于GPT-5.5和Claude Opus 4.8,但每个token的价格比竞争对手低最多12倍。核心问题在于:同等预算下额外获得的运行次数能否弥补质量差距。
LLM Council 的想法从未被充分探索,但我认为鉴于当今的状况,它可能有巨大的应用。LLM 路由与之密切相关,但我真的相信,适当地集成不同智能体的智能和知识是值得深入探索的。
情况检测到:里约热内卢市后训练了一个模型。 基于 Qwen 7/2,Rio 3.5 Open 397B 在基础 Qwen 模型之上添加了 SwiReasoning--一个在标准链式推理与隐空间推理之间动态切换的框架,由基于熵的置信信号引导,使模型仅在必要时"出声思考",其余时间在隐藏空间内静默推理,以提高 token 效率。
长期运行编码智能体核心从提示转向控制系统。Elvis Saravia在DAIR.AI Academy session中详解Claude Code的/goal模式:人类指定最终状态、成功证据、约束与预算,目标作为"合同"而非长提示。评估器成为第一类组件--明确任务用确定性检查(测试、lint、基准),模糊任务用智能体评估器(判断报告、UI设计),两者结合降低幻觉。验证器定义信任边界:外部检查(测试套件、类型检查、浏览器运行、截图对比)提供不可绕过的证据。
值得关注的产品发布与更新。
OpenRouter 发布 Fusion API,号称"市场上最智能的复合模型",能以一半的价格达到 Fable 级别的智能。主推文作者 Elvis Saravia 借此观点指出,模型智能与人类专业知识的组合具有惊人的复合效应,不同模型各有独特优势,而非通用大模型能一统天下。工程团队应将"组合调用不同模型"作为战略方向,尤其在前沿模型选择性开放的趋势下,理解如何协同利用它们将是巨大的解锁。
该教程演示如何构建并测试QwenPaw智能体工作区。步骤包括:安装与初始化QwenPaw、配置工作目录、设置身份认证、通过Colab secrets连接可选模型提供商、创建包含自定义技能与本地知识文件的结构化工作区,以及启动控制台访问与流式API测试。
GLM-5.2作为智谱新旗舰模型,主打编码能力,支持可用的1M上下文,并在长任务上表现强劲。目前已面向所有GLM Coding Plan用户(包括Lite、Pro、Max、Team)开放,API和Chatbot服务将于下周上线。同时,该模型将于下周在MIT许可证下正式开源。
智谱(Zhipu AI)推出新旗舰模型GLM-5.2,已对GLM Coding Plan所有用户(Lite/Pro/Max/Team)开放。该模型具备强大编码能力,支持1M上下文窗口,在长周期任务中表现持续优秀。API和Chatbot服务将于下周上线,模型也将于下周以MIT许可证正式开源。智谱在声明中强调"前沿智能不应只属于少数人",并暗讽大洋彼岸某厂商和政府,称未来AI属于开放和大众。
GLM-5.2作为智谱新旗舰模型,今晚已向所有Coding Plan用户(Lite/Pro/Max/Team)开放,支持1M可用的上下文窗口,具备强大的编码能力。API和Chatbot服务将于下周推出,模型也将在下周以MIT许可证正式开源。
融资、政策与市场动向。
再次证明,AI作为信息来源在描述AI方面不可靠。
模型参数量只有1B
一起构建下一代物理世界的智能系统
安德鲁·杨列出了美国人支付过高的所有东西——住房、食物、无线网络——他认为下一个创业黄金时代是把这笔钱还回去。
大厂与平台今天的关键动作。
Anthropic 的 Claude Fable 5 在 FrontierMath 最困难级别上达到 88% 准确率,远超 OpenAI 的 GPT-5.5(约 75%),领先 13 个百分点。相较于 2026 年初 Opus 4.5 不到 10% 的表现,实现巨大飞跃。AI 数学推理能力的进步速度持续加快。
Meta向6000名员工发送内部备忘录,计划通过AI Gateway平台统一管理AI使用,各团队可查看用量数据,Token支出异常增长时自动触发警报。备忘录指出内部AI使用量快速增长,今年内可能花费数百亿美元。Meta已停止运营以Anthropic Claude命名的"Claudeonomics"排行榜,未来几周将进一步限制员工使用外部AI工具,推荐自家编程助手MetaCode。此外,Meta预计2028年将投入6000亿美元建设AI基础设施。
因美国政府指令,Anthropic暂停所有用户对Claude Fable 5的访问。新产品会话将运行默认模型或Opus 4.8,已有Fable 5会话报错,平台请求也返回错误。DAIR.AI的Elvis Saravia评论称不必恐慌,认为Fable 5对大多数任务不值,且成本高、性能被削弱;规划任务用Opus 4.8、执行任务用GPT-5.5仍是当前最佳组合。
据报道,亚马逊CEO安迪·贾西可能是导致Anthropic周五切断对两款模型全球访问的安全部分问题的来源。
尚不清楚具体是哪些州,但他们询问了从 OpenAI 的广告政策到其对健康数据的处理等一切问题。