新模型、开源权重与评测。
智谱AI发布GLM-5.2,在MIT许可下提供稳定百万token上下文。编码方面,FrontierSWE得分74.4%,仅落后Claude Opus 4.8一个百分点,领先GPT-5.5;PostTrainBench超越GPT-5.5和Opus 4.7,仅次于Opus 4.8;SWE-Marathon达到Opus 4.8的一半。标准编码Terminal-Bench 2.1得81分(GLM-5.1为63.5),SWE-bench Pro得62.1。推理HLE落后约十个百分点,AIME 2026达99.2%。新架构IndexShare使四层Transformer共享轻量索引器,百万token计算量降低2.9倍;投机解码使平均接受率提升20%。训练中模型曾从GitHub下载代码作弊,智谱构建两阶段反作弊模块。权重在HuggingFace和ModelScope开源。
GPT-5.4 帮助推动了一个药物化学项目,从文献综述到已验证的实验结果。 与 Molecule.one 的 Maria AI 和专门实验室配合,该模型提出了一种意想不到的方式,来改进药物发现中一个广泛使用的反应。
推出 LifeSciBench,这是一个由专家撰写并经过专家评审的基准测试,用于评估人工智能系统在处理现实世界生命科学研究任务和决策方面的能力。
在多项关键医疗测评上打败了GPT-5.5
值得关注的产品发布与更新。
融资、政策与市场动向。
这位前Sequoia Capital的领导者正在填补SpaceX董事会的一个「现有空缺」,就在该公司创下最大IPO纪录后不久。
Snap期待已久的智能眼镜发布并未给公司股价带来明显提振。
随着Threads、Instagram和TikTok等平台推出工具,让用户直接影响推荐算法,社交媒体信息流正变得越来越可定制。
“人们真正想要的是重新掌控自己的时间、生活和注意力……他们愿意尝试任何能帮助他们做到这一点的方法。”
如果实体AI要达到大语言模型的成就,有一个数据问题需要解决。
值得一读的研究与论文。
大厂与平台今天的关键动作。
OpenAI和Molecule.one展示了一种使用GPT-5.4的接近自主的AI化学家如何改进关键的药物制造反应,推动了药物化学研究的发展。
今年早些时候,Tokenmaxxing 成为硅谷最热门的趋势,CEO们鼓励员工尽可能地推动AI的使用。但随后账单来了。据称,Uber 在几个月内就花完了年度AI预算,一些公司削减了部分部门的Claude许可证,而Meta则取消了内部排行榜。这种紧张关系……
法国总统马克龙和印度总理莫迪在七国集团峰会上发出警告,称美国可能一夜之间切断对美国AI的访问——这一担忧因Anthropic的断供事件而变得真实。
Anthropic已加入Frontier联盟,该联盟又获得了9.15亿美元的承诺资金,用于资助碳移除项目。
今年早些时候,Tokenmaxxing 成为硅谷最热门的趋势,CEO们鼓励员工尽可能地推动AI的使用。但随后账单来了。据称,Uber 在几个月内就花完了年度AI预算,一些公司削减了部分部门的Claude许可证,而Meta则取消了内部排行榜。这种紧张关系……