新模型、开源权重与评测。
非常期待 GPT-5.6。无需任何辅助框架,一次性生成《模拟人生》模拟,太疯狂了。
GLM-5.2(MIT开源,753B参数,约40B活跃)在AA Intelligence Index上仅比GPT-5.5低4分、比Claude Fable 5低9分,但其幻觉率仅28%,远低于GPT-5.5的86%和DeepSeek V4 Pro(1.6T参数,49B活跃)的94%。后者在AA-Omniscience基准上仅6%的问题会承认不知道。实际代码测试中,GLM-5.2用12秒和800个推理token识别出技术悖论,而DeepSeek V4 Pro耗费3分26秒和近10倍推理token后仍给出错误答案。模型规模增长正导致幻觉率飙升而非智力提升。
使用 GLM-5.2 一天后,我惊讶于它经常感觉接近 Opus 4.8/GPT-5.5 的水平。 我将它与 Opus 4.8 进行了并排比较,有时我甚至更喜欢 GLM-5.2 的结果。 开源大语言模型令人印象深刻,尤其是考虑到它们训练的 GPU 数量少得多。
Signal总裁Meredith Whittaker在接受Bloomberg采访时警告,ChatGPT、Claude等AI聊天机器人"不是你的朋友、有意识的生物或有感知的对话者"。她坦言自己会用AI工具"格式化文档",但不会向它们提问,因为不想让思考过程被"平均已有内容"的系统答案取代。针对微软AI CEO Mustafa Suleyman预测用户可让Copilot处理全部圣诞购物,Whittaker指出,这需要Copilot监听家庭群聊、获取信用卡、浏览器、Signal、代发消息、家庭地址和日历等权限,相当于在Signal中"开了一个后门"。
Fable 仍未回归(遗憾)。与此同时,GLM-5.2 变得非常出色。 如果 Fable 或 GPT-5.6 因安全风险无法发布,而 Kimi K3 或 GLM-5.3 率先推出,那么开源大语言模型或许有机会击败公开的闭源模型。
值得关注的产品发布与更新。
LandingAI Agentic Document Extraction(ADE)现支持在 Parse 或 Parse Jobs 调用中传入 password 参数,同一请求完成解密、解析及结构化输出。该功能要求启用 Zero Data Retention(ZDR)模式,文档仅在内存处理,不持久化,适用于 HIPAA/PHI/PII 合规场景。支持 PDF、DOC、DOCX、ODT、PPT、PPTX、XLSX 格式。集成成本低:单一可选参数,非加密文件不受影响;缺密码返回 422 错误。密码经 HTTPS 传输,ZDR 下服务端不持久化,建议配合最小权限 API Key 与审计日志。REST API 及 Python/TypeScript 库均可用。
宝玉认为处理错误应先恢复生产(回滚或打补丁,保留日志),再找根因(逻辑错误、边界条件、需求理解偏差),最后根据根因决定如何避免。仅当根因是AI对项目特有约定缺乏了解时(如命名规范、API隐含限制、团队测试规范),才应更新AGENTS.md。其他情况应分别用新增测试用例、重构架构、改进Code Review等方式解决。将一切塞入AGENTS.md会导致文件臃肿、规则繁多,AI反而忽略关键规则。
融资、政策与市场动向。
“这些不是你的朋友。它们不是有意识的生物,也不是有感知的对话者。”
那么……你的 In the Weights 分数是多少?
为了让你烧token,英伟达已经卷到机器人身上了
全球最聪明的人之一,成了AI最狂热的布道者
速度快7倍,成本只有Veo 3的1/2000
大厂与平台今天的关键动作。
我预感 GPT-5.6 会是一个巨大的正面惊喜。让我们回忆一下关于 GPT-5.6 的信息: "该公司正单独准备发布一款新的 AI 模型,代号为 5.6,它将是当前旗舰模型 GPT-5.5 的'有意义的改进',OpenAI 首席科学家 Jakub Pachocki 在一份给员工的备忘录中写道。"
GPT-5.6 Pro 预计下周四发布,泄露信息显示其三项关键能力:视觉复刻已近乎能完全复刻设计;SVG 3D 生成表现超越 Fable 5,支持浏览器内旋转缩放;Playwright 浏览器自动化可真实操作网页(点击、输入、跳转、抓取)。这三项能力表明 OpenAI 正将 GPT 从语言模型进化为能执行物理操作的 Agent--不仅能"思考",还能打开浏览器、移动鼠标、复制设计并保存到桌面。
科技媒体 testingcatalog 报道,OpenAI 有望下周推出 GPT-5.6 系列,涵盖 mini、标准版和 Pro 版。部分 Pro 订阅用户已可访问 GPT-5.6 Pro,理解力增强,前端/Web 开发认知有进步。性能方面,上下文窗口从 100 万 tokens 扩展至 150 万 tokens,优化了长周期编码能力和 Codex 响应速度。消息称在智能体编码中,GPT-5.6 已优于 Anthropic 的 Mythos 系列。定价上,OpenAI 当前 token 价格仅为 Anthropic 一半左右,计划进一步降价。
詹普尔并不是唯一一位离开谷歌DeepMind的大牌人物。
Gemini 3.5 Pro呢?