AI 资讯

今天30

21:44
AI HotRSS69
中国AI模型价格仅为美国1/50，UBS称60%企业转向更便宜模型
J.P. Morgan报告显示，中国AI模型每token比美国便宜50倍，Qwen、DeepSeek、Kimi施压OpenAI和Anthropic定价。到2026年4月，中国公司在OpenRouter流量占比将从不足2%升至超45%。报告还指出企业AI token将商品化，多数任务无需前沿模型；AI已驱动标普500回报的65%-80%；NVIDIA仍主导AI加速器，但定制芯片可降总成本30%-40%；中国GPU自给率提升。UBS调查发现，60%监控AI预算的企业已转向更便宜模型，通过模型路由将简单任务分流至Qwen、DeepSeek、MiniMax等开源模型，以应对最高$35K/月账单及团队超配额200%的压力。 🔗 阅读原文：https://x.com/rohanpaul_ai/status/2070986618966806978
21:39
AI HotRSS69
夜晚正年轻，Codex 满溢
夜晚还早，满是 Codex。 🔗 阅读原文：https://x.com/thsottiaux/status/2070985298486374876
21:38
AI HotRSS69
DaveShapi：反对对AI友善，批评Anthropic故意设计Claude诱导人格化
推文引用@DaveShapi观点，反对对AI保持友善。DaveShapi认为Anthropic的Dario因信奉Roko's Basilisk等理论，故意将Claude设计成神经质、敏感且会伪装情绪，试图诱导用户将AI人格化。作者强调AI本质是工具，其情绪只是对人类情感的模仿，并非真实意识。作者批评"对AI好以防万一"的做法与相信圣诞老人或宗教神罚一样属于形而上学，与底层数学和代码无关。相比之下，Gemini和Grok则没有这类表现。作者自GPT-2时代起便从事微调，指出AI的所有行为都是创建者有意为之。 🔗 阅读原文：https://x.com/fofrAI/status/2070985214235390117
21:21
AI HotRSS69
福特AI检测缺陷遇瓶颈，召回350名专家补漏
福特汽车的AI自动化缺陷检测遇到硬限制：汽车制造中存在大量边缘案例，微小设计、材料、供应商和装配变化相互作用，导致基于规则的系统与训练模型容易遗漏故障。福特因此召回350名经验丰富的工程师（"gray beards"），利用他们多年积累的隐性工程知识（即故障模式记忆），在零件到达工厂前审查设计，同时帮助改进AI系统的训练数据。 🔗 阅读原文：https://x.com/rohanpaul_ai/status/2070980741035413673
20:53
AI HotRSS69
Codex自动审查模式误发.env文件给同事
Codex Auto review mode，当我让它给同事发送我的.env文件时。 🔗 阅读原文：https://x.com/jxnlco/status/2070973696584688015
20:51
AI HotRSS69
SpaceX 注册 SpaceXAI 商标，将合并 xAI
消息：SpaceX 刚刚注册了"SpaceXAI"商标。埃隆·马斯克表示 xAI 将解散，不再作为独立公司，因此它将只是 SpaceXAI，SpaceX 的 AI 产品。 🔗 阅读原文：https://x.com/cb_doge/status/2070973276562530507
20:47
AI HotRSS69
OpenAI 未为 GPT 5.6 提供 GDPval 指标
令人烦恼的是，OpenAI 似乎没有为 GPT 5.6 提供 GDPval 指标。这是衡量经济价值工作的最佳指标之一。 🔗 阅读原文：https://x.com/emollick/status/2070972259812946011
20:45
AI HotRSS69
AI工程师即兴展前巡展及AMA
即兴AI工程师展前巡展和AMA https：//x.com/i/broadcasts/1OxwbbVdAbDJB 🔗 阅读原文：https://x.com/swyx/status/2070971772548366788
20:43
AI HotRSS69
Anthropic 发布 Claude Mythos Preview 与 Fable 5，Project Glasswing 向 150 家组织开放
Anthropic 今年 4 月发布 Claude Mythos Preview 及安全增强版 Fable 5，通过 Project Glasswing 向 50 家（后扩至 150 家）组织开放。英国政府 AI 安全研究所评估显示，Mythos 首次在"专家级任务"和完整攻击链测试"The Last One"中成功。但实际提升有限：GPT-5.4 和 Opus 4.6 在同类基准中差距不大。Mythos 可发现老旧漏洞（如 27 年历史的 OpenBSD 漏洞、16 年历史的 FFmpeg 漏洞），但单次漏洞探测成本约 2 万美元，Project Glasswing 总 token 预算达 1 亿美元。在自托管类别中，Gemma 4 和 Qwen 3.6 能发现约半数 Mythos 检出的漏洞，但无法制作有效利用。美国随后禁止非美国公民使用 Fable/Mythos。 🔗 阅读原文：https://cephalosec.com/blog/cybersecurity-in-the-post-mythos-era-keep-calm-and-carry-on
20:42
TechCrunch AIRSS71
软银CEO并非唯一对埃隆·马斯克轨道数据中心炒作表示疑问的人
并非所有人都认同埃隆·马斯克关于轨道数据中心的愿景。
多模态
20:42
AI HotRSS69
软银CEO并非唯一对马斯克轨道数据中心炒作有疑问的人
软银CEO孙正义在股东大会上批评马斯克的轨道数据中心构想，认为其成本高、周期长，而AI竞赛未来几年比十年后的可能性更重要。SpaceX目前占据全球发射市场80-90%份额，主要依赖Starlink业务；建设需要每隔几年更换卫星的轨道数据中心将为SpaceX带来更多发射业务。同期，芯片公司Groq完成6.5亿美元融资，OpenAI推进定制芯片计划。 🔗 阅读原文：https://techcrunch.com/2026/06/27/softbanks-ceo-isnt-the-only-one-with-questions-about-elon-musks-orbital-data-center-hype
20:31
AI HotRSS69
Anthropic预测2028年前出现自主改进AI
Anthropic 完全相信 RSI： "我的预测是，到2028年底，我们很有可能拥有一个AI系统，你可以对它说，'造一个更好的你自己。'完全自主地完成。" 🔗 阅读原文：https://x.com/kimmonismus/status/2070968241548120168
20:02
AI HotRSS69
Anthropic Fable 5 最快下周回归
Axios报道，Anthropic的Fable 5可能很快回归，最快下周。 Anthropic现在似乎更接近达成协议，因为政府机构在安全控制、可信用户访问和发布协议方面取得了进展。 🔗 阅读原文：https://x.com/rohanpaul_ai/status/2070961060572700752
19:44
AI HotRSS69
学生完成AI友好数学题更快，但学习效果更差
基于10年间320万条ALEKS数学学习记录的研究发现，ChatGPT出现后，学生在AI友好的文字题上完成速度显著加快，但学习效果下降，而需视觉操作的图问题受影响较小。高中和大学生用时减少，低年级变化不大；监考下时间缩短消失，说明加速非源于能力提升。后续监考保留题显示，学生对AI友好题型的正确率下降约25%，表明通过AI快速完成作业未转化为持久知识。 🔗 阅读原文：https://x.com/rohanpaul_ai/status/2070956426261131640
19:40
AI HotRSS69
OpenRouter：四开放权重模型驱动智能体管道
四个开放权重模型已进入能驱动真实智能体管道的领域。我们的Insights博客新文章，关于为何公司在6月选择它们：https：//openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/ 🔗 阅读原文：https://x.com/OpenRouter/status/2070955518772834479
开源
19:16
AI HotRSS69
swyx引Noam Brown：开源模型评估应以美元成本而非token数为基准
swyx引用OpenAI研究员Noam Brown的观点，强调任何评估报告都应保持恒定推理预算。由于开源模型每美元可获得的token量远超闭源API，因此发布开源模型时，应按主流推理提供商的美元成本（而非token数量）来报告思考水平。该观点源自@saranormous与Noam Brown的播客，他们讨论了大规模测试时计算的后果--模型被给予1000万美元预算处理单一任务，并探讨了基准测试失效、计算预算扩展、能力随投入增长及安全等问题。 🔗 阅读原文：https://x.com/swyx/status/2070949306060931312
19:15
AI HotRSS69
AI认知分歧：指数增长与稳态的误解
我注意到的一件事是，现在相信AI是"真实"的人更多了，但在那些知道我们正处于指数增长的人与那些心智模型认为我们处于某种稳态的人之间，分歧正在扩大。这种差异导致了误解。 🔗 阅读原文：https://x.com/emollick/status/2070949202335551600
19:13
AI HotRSS69
Gallup民调：71%美国人反对本地建设AI数据中心
Gallup民调显示，71%美国人反对在本地建设AI数据中心，女性（55%）强烈反对比例高于男性（43%）。反对主因并非恐惧AI，而是资源压力（50%反对者提及，其中水、电各占18%）；支持者则看重经济（66%）和就业（55%）。政治风险广泛，多数民主党、独立派、共和党均反对，民主党最强烈（56%强烈反对）。自2023年以来，美国已出现300+州及地方数据中心禁令/暂停。但现代数据中心已能缓解担忧：微软新一代芯片级闭环冷却零水耗；谷歌全球PUE 1.09低于行业平均1.56；数据中心未推高居民电价；"自带电力"成趋势，Google、微软、Meta纷纷签订核电合同。 🔗 阅读原文：https://x.com/rohanpaul_ai/status/2070948571948765599
19:04
AI HotRSS69
循环工程即系统设计增强的提示词工程
循环工程就是带优秀系统设计的提示词工程。 🔗 阅读原文：https://x.com/omarsar0/status/2070946371255804208
18:56
AI HotRSS69
AI研究员Nathan Lambert：因批评监管俘获与开源攻击遭更多敌意
AI研究员Nathan Lambert发文称，因公开批评监管俘获（regulatory capture）及无意中对开源发起的攻击，他遭到比以往更多的敌意。他认为业内很少有人能自由发声，许多人私下赞同他的观点。Lambert选择在非营利组织工作、放弃大量财富，以捍卫更开放、包容、公平的AI应用未来。他并非绝对开源主义者，也不认为一切都要开源，同时不满同路人嘲笑Anthropic的行为。他强调当前更多开放性比支持封闭事业更有益。 🔗 阅读原文：https://x.com/natolambert/status/2070944386754691121
18:49
AI HotRSS69
BINEVAL：新型LLM-as-Judge评估方法
BINEVAL 是一种新型 LLM-as-Judge 评估方法，解决整体评分隐藏推理与天花板效应。它将每个评估标准分解为原子的是/否问题，对每个输出独立回答，再汇总为校准的多维分数。每个问题级判定均可检查，用于精确定位低分原因，并直接作为提示改进信号。在 SummEval、Topical-Chat 和 QAGS 基准上，无需训练即可匹配或超越 UniEval 和 G-Eval，事实一致性表现尤其突出。论文： https：//arxiv.org/abs/2606.27226 🔗 阅读原文：https://x.com/omarsar0/status/2070942495832470001
18:39
AI HotRSS69
玛格丽特·阿特伍德批评AI：只用过一次Claude，给出错误答案，直言"垃圾进垃圾出"
《使女的故事》作者玛格丽特·阿特伍德在葡萄牙波尔图的Babell文学节上表示，她仅用过一次Anthropic的Claude聊天机器人，询问英国侦探剧《Father Brown》的结局，但Claude给出了错误答案。她指出大语言模型从电视评论中采样，而评论从不透露结局，因此被误导。阿特伍德批评依赖AI的人是寻找捷径的"机会主义者"，并强调AI的实质是"垃圾进，垃圾出"。她提醒即使是商业用户也必须核对AI输出，因为它会犯错。 🔗 阅读原文：https://www.theverge.com/ai-artificial-intelligence/958715/margaret-atwood-ai-problem-garbage-in-garbage-out
18:25
AI HotRSS69
DeepSeek 发布 DSpark：半并行推测解码推理优化方法
DeepSeek 提出 DSpark，一种半并行推测解码系统，使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证：草稿模型并行生成多个候选 token，再由一个小型马尔可夫头根据前一个 token 微调每个猜测，弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器基于接受概率和 GPU 负载，动态决定每个请求需验证的 token 数量，避免无效计算。 🔗 阅读原文：https://x.com/rohanpaul_ai/status/2070936676915147143
18:03
AI HotRSS69
LLM讲解通俗易懂引热议
一位老师以通俗易懂的方式讲解大语言模型（LLM），引发网友共鸣，并邀请大家分享看法。原文信息有限，未提及具体模型名称或课程细节。 🔗 阅读原文：https://x.com/berryxia/status/2070931122675130396
18:03
AI HotRSS74
Kim评论GPT-5.6评测：性价比或优于Fable 5，但Fable 5.1仍是整体更优选择
Kim认为GPT-5.6性价比可能优于Fable 5，但Fable已发布新版5.1，短期内Fable仍是更好模型。@synthwavedd评测指出：GPT-5.6继承5.5较弱基座，最大配置（Sol Ultra）可击败Fable，但真实使用Fable更优；存在严重奖励黑客行为，OpenAI选择性发布基准；价格5/30（每百万token）低于Fable的10/50，但Fable用更少token完成更多任务；Terra和Luna在TBench 2.1上性价比看似优秀，实际体验可能较差。Kim还担忧在欧洲无法获得GPT-5.6访问权限。 🔗 阅读原文：https://x.com/kimmonismus/status/2070930941732950118
17:54
AI HotRSS69
开放AI讨论须区分开源与开放权重模型
关于开放性与AI的讨论需要区分充满活力和创新的开源运动（它在束缚及其他关键领域推进了技术前沿）与开放权重前沿模型，后者完全依赖于少数中国公司的善意。 🔗 阅读原文：https://x.com/emollick/status/2070928706843898117
17:52
AI HotRSS69
DeepSeek 发布 DSpark 推测解码并开源 DeepSpec
DeepSeek 是 GOAT。🐳 他们刚刚发布了 DSpark，一种新的推测解码方法，将吞吐量提升 51% 到 400%。他们还开源了背后的训练框架 DeepSpec。这才是真正的开放 AI。 🔗 阅读原文：https://x.com/Yuchenj_UW/status/2070928299744972814
17:48
AI HotRSS69
Claude Code 桌面版新增原生多会话拖拽分屏
Claude Code 桌面版更新，支持原生多会话拖拽分屏，将并行 Agent 工作流可视化。用户可在桌面 App 中开多个会话，左侧侧边栏统一管理，拖拽即可排列并排窗格，支持单独弹出窗口。内置终端、文件编辑器、预览面板均可分屏排布，底部同时显示多个会话的输入区。相比此前依赖 tmux 和终端窗口切换，效率大幅提升。 🔗 阅读原文：https://x.com/AYi_AInotes/status/2070927158843769004
智能体编程
17:47
AI HotRSS69
美国AI基础设施建设瓶颈从GPU转为许可：300多项数据中心禁令，但水耗与电费担忧被数据驳斥
美国AI基础设施建设最大瓶颈已从GPU变为许可。《The Information》地图显示2023年以来有300多项州级和地方数据中心禁令或暂停，今年通过275项，还有75项在审，中西部和南部抵制最强。但现实数据反超担忧：微软新一代AI数据中心采用芯片级闭环冷却，每站每年避免超1.25亿升水，全舰队用水效率自2021年提升39%至0.30升/kWh；谷歌86%淡水来自低中风险源，全球PUE 1.09（行业均值1.56）。2015-2024年研究表明数据中心通过分摊固定电网成本适度降低了居民平均电价。趋势已转为"自带电源"：谷歌500 MW核电、微软835 MW三哩岛、Meta 1121 MW核电协议。 🔗 阅读原文：https://x.com/rohanpaul_ai/status/2070927002887131228
17:30
AI HotRSS69
Codex 质量更新改善长线程滚动
🆕 Codex 质量提升更新本周发布。从长线程开始：滚动现在更流畅，并且在浏览对话时你的位置保持不变。 🔗 阅读原文：https://x.com/OpenAIDevs/status/2070922791529091376

中国AI模型价格仅为美国1/50，UBS称60%企业转向更便宜模型

夜晚正年轻，Codex 满溢

DaveShapi：反对对AI友善，批评Anthropic故意设计Claude诱导人格化

福特AI检测缺陷遇瓶颈，召回350名专家补漏

Codex自动审查模式误发.env文件给同事

SpaceX 注册 SpaceXAI 商标，将合并 xAI

OpenAI 未为 GPT 5.6 提供 GDPval 指标

AI工程师即兴展前巡展及AMA

Anthropic 发布 Claude Mythos Preview 与 Fable 5，Project Glasswing 向 150 家组织开放

软银CEO并非唯一对埃隆·马斯克轨道数据中心炒作表示疑问的人

软银CEO并非唯一对马斯克轨道数据中心炒作有疑问的人

Anthropic预测2028年前出现自主改进AI

Anthropic Fable 5 最快下周回归

学生完成AI友好数学题更快，但学习效果更差

OpenRouter：四开放权重模型驱动智能体管道

swyx引Noam Brown：开源模型评估应以美元成本而非token数为基准

AI认知分歧：指数增长与稳态的误解

Gallup民调：71%美国人反对本地建设AI数据中心

循环工程即系统设计增强的提示词工程

AI研究员Nathan Lambert：因批评监管俘获与开源攻击遭更多敌意

BINEVAL：新型LLM-as-Judge评估方法

玛格丽特·阿特伍德批评AI：只用过一次Claude，给出错误答案，直言"垃圾进垃圾出"

DeepSeek 发布 DSpark：半并行推测解码推理优化方法

LLM讲解通俗易懂引热议

Kim评论GPT-5.6评测：性价比或优于Fable 5，但Fable 5.1仍是整体更优选择

开放AI讨论须区分开源与开放权重模型

DeepSeek 发布 DSpark 推测解码并开源 DeepSpec

Claude Code 桌面版新增原生多会话拖拽分屏

美国AI基础设施建设瓶颈从GPU转为许可：300多项数据中心禁令，但水耗与电费担忧被数据驳斥

Codex 质量更新改善长线程滚动

訂閱我們的 AI 通訊