AI 每日简报 · 2026-06-12

模型

新模型、开源权重与评测。

作者谈模型编程能力取决于"代码直觉"--以GPT-5.5-pro-xhigh修复路网断裂bug为例

作者认为模型编程能力取决于"代码直觉"，由海量开发经验堆出，极难训练。他以路网断裂bug为例：GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile，实际需2个tile，多模态截图也无法纠正。作者费4小时，让模型给tile编ID并质问"两个tile之间能容纳几个tile"才暴露缺陷，随后告知每个tile对应单位长度并应用规则，修复变简单。不同模型表现：有的开始不犯错，有的迭代修复，有的怎么都修不好。

TechCrunch AIRSS·12 天前71

Mistral 据传以 200 亿美元估值融资 30 亿欧元

此轮融资将使该公司估值达到约 200 亿美元（约合 231.5 亿美元），几乎是其 C 轮融资估值 117 亿美元的两倍。

融资

TechCrunch AIRSS·13 天前71

更便宜、更快且具备文化意识，Avataar 的视频 AI 专为印度规模打造

Avataar AI 的精简视频模型每秒生成成本仅为 0.005 美元

多模态

Hugging FaceRSS·12 天前70

olmo-eval：模型开发循环的评估工作台

AI HotRSS·12 天前69

Mistral 被曝以 200 亿欧元估值融资 30 亿欧元

Mistral 正进行新一轮融资，传闻金额为 30 亿欧元，投后估值约 200 亿欧元（约 231.5 亿美元），较其 C 轮估值 117 亿欧元接近翻倍。

产品

值得关注的产品发布与更新。

掘金 AI 热榜Forum·12 天前76

老板：“你是怎么使用 AI 的，真能做到不手写代码？为什么 Codex 在我手里感觉是个智障。。”我：“这样，然后再这样。。”老板直接跪了。

AI HotRSS·12 天前69

Kimi K2.7 Code 开源发布，编码与智能体性能提升

KIMI AI🔥：一个新的开源"Kimi K2.7 Code"模型已在 API 和 Huggingface 上发布！ > 相比 K2.6，编码与智能体性能提升 > 推理效率 > 长时域编码测试时间 👀

编程

AI HotRSS·12 天前69

Kimi K2.6 Code 开源，改编码与智能体性能

KIMI AI🔥：全新开源 "Kimi K2.6 Code" 模型已在 API 及 HuggingFace 发布！ > 较 K2.6 改进编码与智能体性能 > 推理效率 > 长时编码测试时间 👀

编程

AI HotRSS·12 天前69

Moonshot 发布并开源 Kimi-K2.7-Code 编程模型

Moonshot 发布并开源 Kimi-K2.7-Code 编程模型，相比 K2.6 在多个基准上大幅提升：Kimi Code Bench v2 提高 21.8%，Program Bench 提高 11.0%，MLS Bench Lite 提高 31.5%。推理效率优化，推理 token 使用量降低 30%，指令遵循与长时编码任务成功率提升。即将推出 6 倍高速模式。模型现已通过 Kimi API 和 Kimi Code 开放使用。

编程

AI HotRSS·12 天前69

月之暗面开源 Kimi K2.7 Code 编程模型，预告 6 倍速高速版

月之暗面发布并开源 Kimi K2.7 Code 编程模型。相比 K2.6，长上下文编程指令遵循和长程任务性能提升，过度思考倾向改善，平均 token 消耗减少 30%。Kimi Code Bench v2 提升 21.8%、Program-Bench 提升 11%、MLS Bench Lite 提升 31.5%；Agent 基准提升约 10%。即日起通过 Kimi API 调用，输入 6.5 元/百万 token、输出 27 元、缓存输入 1.3 元。非编程任务仍推荐 K2.6，模型需开启思考模式。预告高速版（输出约 180 Token/s），6 月 15 日可调用，6x 速度仅需 2x 价格。

智能体编程

行业

融资、政策与市场动向。

TechCrunch AIRSS·12 天前71

SpaceX 首次公开募股：了解所有你需要知道的信息

TechCrunch 从早期开始就关注了 SpaceX 的起步、挣扎与成功。我们同样关注接下来会发生什么。这份关于 SpaceX 首次公开募股的报道包括谁可能获益（以及可能不会获益的人），上市前的交易，以及其 S-1 注册文件中隐藏的内容。

量子位RSS·12 天前71

神了，世界杯第一天真按千问剧本踢了

比分、红牌、绝杀全押中

TechCrunch AIRSS·12 天前71

SpaceX上市：你需要知道的一切

TechCrunch从早期就关注了SpaceX的起步、挣扎与成功。我们也将继续关注接下来的发展。这份关于SpaceX上市的报道内容包括谁可能受益（以及可能不会受益的人），上市前的交易，以及其S-1注册文件中的细节。

量子位RSS·12 天前71

千里收购了一家毫米波雷达公司

布局全栈闭环

量子位RSS·12 天前71

耐心资本护航创新，2026SuperLink开启创投价值共生新时代

助力LP与GP高效合

论文

值得一读的研究与论文。

AI HotRSS·12 天前69

Maxproof 论文发布

6月12日，名为 Maxproof 的论文在 arXiv 上发布，并在 Hacker News 上获得 100 点热度。

AI HotRSS·12 天前69

AI 养马更省心：Hermes Agent 上线 Profile Builder，5 步配置 AI 智能体

Nous Research 于 6 月 11 日发布 Hermes Agent 的 Profile Builder，将分散的命令行配置整合到网页端。用户通过 Dashboard 可在五步内完成智能体角色创建：设置身份名称与描述、选择模型与服务商、开关内置技能、从 Skills Hub 安装技能、配置 MCP 服务器，最后检查预览。技能以 SKILL.md 形式存储，智能体先读取短描述，命中任务再加载全文。MCP 服务器支持 HTTP URL 和本地 stdio 命令，Nous 批准的目录可一键安装并内联提示输入密钥。Hermes Agent 为开源智能体，主打记忆用户习惯并自动构建技能库。

智能体

Simon WillisonRSS·12 天前64

引用安德鲁·辛格顿

Jenny owns a crematorium. John’s propane company gives her a $20 billion investment in return for 5 percent of her operation. Jenny throws $10 billion into the incinerator, then pays John $10 billion to buy propane to burn that money to ashes. John reports that his AI investments have generated $10 billion in revenue this quarter and that he owns 5 percent of a $100 billion business. A reporter from Forbes is assigned to profile John and Jenny, and over the course of his research, he becomes embroiled in a passionate but confusing three-way love affair with them, which eventually turns into a polyamorous common-law marriage. His profile is glowing, but light on financial details. — Andrew Singleton, AI Economics for Dummies Tags: ai

arXiv cs.AIPaper·13 天前61

ToolSense：用于审计LLM中参数化工具知识的诊断框架

arXiv:2606.12451v1 Announce Type: new Abstract: Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck. As embedding-based retrieval approaches rely on compact encoders that may under-capture specialized tool semantics, parametric tool retrieval addresses this by encoding each tool as a virtual token appended to the LLM vocabulary, fine-tuned in two stages (memorization then retrieval SFT) to use the LLM as a retriever, achieving strong performance on standard ToolBench retrieval benchmarks. Yet these benchmarks use verbose, fully-specified queries, and their evaluation applies constrained decoding that restricts outputs to valid token paths, neither reveals whether the model actually understands its tools. We introduce \textbf{ToolSense}, an open-source LLM-powered diagnostic framework that takes any tool catalog as input and automatically generates three benchmarks: a Realistic Retrieval Benchmark (RRB) with queries at three ambig

开源

arXiv cs.AIPaper·13 天前61

Arbor：自主代理的认知层树搜索

arXiv:2606.12563v1 Announce Type: new Abstract: Arbor is a multi-agent framework that introduces structured tree search as a cognition layer for autonomous agents operating in large, stateful action spaces. Prior autonomous optimization systems operate on isolated targets with stateless evaluation. Arbor instead maintains an explicit search tree of scored hypotheses that serves as the shared working memory across agents, evolving with every measurement, treating failures as diagnostic signal that reshapes subsequent exploration, and expanding as prior successes shift the bottleneck distribution. We validate Arbor on full-stack LLM inference optimization, a domain where achieving peak performance has historically required coordinated effort from engineering teams across the application, framework, compiler, kernel, and hardware stack. Arbor pairs an Orchestrator agent, which drives optimization by delegating to Domain Specialists across the inference stack, with a Critic agent that s

推理智能体

大厂

大厂与平台今天的关键动作。

OpenAI BlogRSS·12 天前79

面向工作新纪元的 OpenAI 学院课程

OpenAI 推出三门学院课程，帮助人们构建实用的 AI 技能，创建可重复的工作流程，并在日常工作中应用智能代理。

OpenAI BlogRSS·13 天前79

Preply 如何结合 AI 与真人教师实现个性化学习

Preply 使用 OpenAI 推出 AI 生成的课程总结，提供个性化的反馈和语言学习练习。

掘金 AI 热榜Forum·13 天前75

Anthropic 为何限制中国大陆使用 Claude？

AI HotRSS·12 天前74

Google DeepMind发布60页论文：从AGI到超级智能的路线图

Google DeepMind发表60页论文，由Hutter、Legg、Genewein撰写，定义AGI（多数认知任务达平均人类水平）、ASI（超越大量专家协作）和不可计算的AIXI三个层级。实现路径包括规模扩展、算法突破、递归自我改进和多智能体协调，瓶颈在于能源与硬件。六种阻碍：高质量数据可能本十年内耗尽、资源需求过快、神经范式天花板、研究难度激增（维持摩尔定律需18倍于1970年代的研究者）、模型无法创造全新概念、人为放缓。作者认为这是对AGI后果的严肃反思呼吁。

TechCrunch AIRSS·12 天前71

谷歌起诉中国网络犯罪活动，该活动利用AI欺骗‘数十万受害者’

这家科技巨头表示，一个名为“Outsider Enterprise”的团体使用AI欺骗了数十万名受害者，在两周内发送了250万条短信。

AI Hot 每日简报 · 2026-06-12

模型

作者谈模型编程能力取决于"代码直觉"--以GPT-5.5-pro-xhigh修复路网断裂bug为例

Mistral 据传以 200 亿美元估值融资 30 亿欧元

更便宜、更快且具备文化意识，Avataar 的视频 AI 专为印度规模打造

olmo-eval：模型开发循环的评估工作台

Mistral 被曝以 200 亿欧元估值融资 30 亿欧元

产品

老板：“你是怎么使用 AI 的，真能做到不手写代码？为什么 Codex 在我手里感觉是个智障。。”我：“这样，然后再这样。。”老板直接跪了。

Kimi K2.7 Code 开源发布，编码与智能体性能提升

Kimi K2.6 Code 开源，改编码与智能体性能

Moonshot 发布并开源 Kimi-K2.7-Code 编程模型

月之暗面开源 Kimi K2.7 Code 编程模型，预告 6 倍速高速版

行业

SpaceX 首次公开募股：了解所有你需要知道的信息

神了，世界杯第一天真按千问剧本踢了

SpaceX上市：你需要知道的一切

千里收购了一家毫米波雷达公司

耐心资本护航创新，2026SuperLink开启创投价值共生新时代

论文

Maxproof 论文发布

AI 养马更省心：Hermes Agent 上线 Profile Builder，5 步配置 AI 智能体

引用安德鲁·辛格顿

ToolSense：用于审计LLM中参数化工具知识的诊断框架

Arbor：自主代理的认知层树搜索

大厂

面向工作新纪元的 OpenAI 学院课程

Preply 如何结合 AI 与真人教师实现个性化学习

Anthropic 为何限制中国大陆使用 Claude？

Google DeepMind发布60页论文：从AGI到超级智能的路线图

谷歌起诉中国网络犯罪活动，该活动利用AI欺骗‘数十万受害者’