新模型、开源权重与评测。
threepointone 使用 Fable 处理一个约 10k 行代码的大 PR,花费 $250,认为不值,更倾向小步骤。Elvis Saravia 认同,表示自己用 Opus 4.8 做规划、GPT-5.5 做执行,并将任务拆解成更小步骤能显著提升质量。他认为动态工作流(dynamic workflows)的重要性被大多数人低估了。其日常仍使用 Cursor AI。
Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。
聪明人总能花最少的钱办最好的事,AI也一样。
Claude刚刚发布的新模型Fable 5,很多人可能压根就用不上!
值得关注的产品发布与更新。
Pool 的新应用可自动将截图整理为个性化图集,追踪保存内容背后的原始链接,并帮助你重新发现产品、食谱、旅行创意和其他你本想重温的事物。
这款名为 Ask DoorDash 的新聊天机器人允许用户用自己的话在应用中搜索所需内容,而无需滚动浏览餐厅和商店来添加购物车。
Grok Build 插件市场现已进入 Beta 阶段。您可以在终端中使用 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件进行开发。详情请见 https://x.ai/news/grok-plugin-marketplace
融资、政策与市场动向。
随着正式股票定价公告的发布,SpaceX 的 IPO 已经开始。
SpaceX 公开上市后,底层 SPV 投资者将面临隐藏费用、漫长的回款延迟以及 outright fraud 的风险。
前期做了40万AI考生压测
Meshy发布全球首个3D AI Agent
用扩散模型生成文字
值得一读的研究与论文。
了解天体物理学家 Chi-kwan Chan 如何使用 Codex 构建黑洞模拟,帮助科学家研究极端物理现象并验证爱因斯坦的广义相对论。
Perplexity Deep Research 现以原生技能形式集成至 Perplexity Computer 平台。Computer 负责将复杂问题分解为子任务,路由至20多个前沿模型,并返回报告、演示文稿和仪表板。Deep Research 基于 Search as Code 架构构建,模型编写代码自行组装搜索,并行执行数千次检索步骤,在所有基准测试上均超越旧版 Deep Research。该功能已面向 Pro 和 Max 订阅用户开放。
一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。
我们正在将 Deep Research 作为原生技能集成到 Computer 中。 它现在连接到驱动 Computer 的智能体框架,可访问搜索即代码生成、长运行沙箱、连接器、工具和授权数据。 Pro 和 Max 订阅者现已可用。
我们高性能MSA内核库现已开源。M3权重预计本周五发布。感谢等待! Github: https://github.com/MiniMax-AI/MSA Paper:https://github.com/MiniMax-AI/MSA/blob/main/docs/MiniMaxSparseAttention.pdf 主推文:权重周五发布🫶
大厂与平台今天的关键动作。
OpenAI 支持欧盟人工智能内容透明度行为准则,推动来源标准和工具的发展,以帮助人们理解人工智能生成的内容。

我们正在帮助打造该州的下一代劳动力,并投资能源项目。
Claude Fable 5 到目前为止感觉不错,但我还不认为它相比 GPT-5.5 或 Opus 4.8 有巨大飞跃。 我最大的不满:旧的AI研究论文/博客 + 基本问题常常触发自动降级到 Opus 4.8。 Anthropic 昨晚表示不会再有无声模型切换(很好),但请不要削弱基本的AI研究或生物问题。
OpenAI 研究员 Noam Brown 表示,GPT-5.5 在 Agents' Last Exam(ALE)基准中排名第一,且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建,是一个滚动基准,包含超过 1500 个专家任务、覆盖 55 个职业,测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示:当前智能体能解决部分专业任务,但在需要持续推理和深度专业知识的最难层级,所有被测前沿智能体(包括 Fable 5)成功率为 0%。
OpenAI CEO 萨姆·奥尔特曼本周在致员工内部邮件中预估公司"明年内"上市,此前已向美国证券交易委员会秘密提交 IPO 申请。奥尔特曼表示,技术发展速度可能影响 IPO 时间,尤其指出递归自我改进(RSI)若加速,推迟 IPO 会更有利。OpenAI 同时正筹备全新模型,代号 5.6,据首席科学家 Jakub Pachocki 称,该模型将比当前旗舰系统 GPT-5.5 有"显著改进"。