阿里 AI 条线再现人事传闻。周靖人被曝已提交离职申请,距离阿里宣布其出任首席科学家、牵头 AI 未来研究院仅约 6 天。 周靖人曾参与通义大模型团队搭建,被视为 Qwen 系列模型的重要技术人物。阿里近期还将通义大模型事业部与未来生活实验室合并为 Token Foundry 事业部,由集团 CEO 吴泳铭直接负责。 截至原报道发稿,阿里尚未回应相关消息。来源:新浪科技
分类: AI
-
Anthropic放出最强公开Claude:编程测试80.3%,部分危险能力被上锁
Anthropic发布 Claude Fable 5,称这是公司迄今能力最强的公开模型。按照Anthropic的说法,Fable 5属于“Mythos级”模型,但经过安全限制后向普通用户和企业开放;同一天发布的 Claude Mythos 5 使用同一底座,但只面向少数网络防御和关键基础设施合作方开放。 几个普通读者更容易理解的成绩是:Fable 5在编程能力测试 SWE-Bench Pro 中拿到 80.3%,在电脑操作测试 OSWorld-Verified 中拿到 85.0%;在综合难题测试 Humanity’s Last Exam 中,无工具得分为 59.0%,使用工具后为 64.5%;……
-
旧榜单看不出差距?长程软件工程测试把中美 AI 模型拉开了
近日,X 平台上围绕 AI 模型基准测试的一组对比图引发讨论。Kyle Chan 转述称,中国 AI 模型在较旧的基准测试上似乎已经接近美国模型水平,但在更新、更复杂、需要更长时程推理和执行的软件工程任务上,差距会变得更明显。 这条讨论引用了账号 Lisan al Gaib 的说法,后者把这种现象称为“狭窄能力差距”,意思是只看传统短任务或较旧测试,模型之间的差异可能被压缩;一旦进入 SWE-Marathon、DeepSWE 这类更接近真实软件工程场景的长程任务,模型需要持续理解代码库、规划步骤、修复问题并通过验证,能力分层就会重新显现。 图中对比显示,GPT-5.5、Claude Opus……
-
Anthropic向全人类发出警告:AI自我改进逼近,必须准备停止开发
Anthropic 在最新政策文章中警告,前沿 AI 模型正在接近“递归自我改进”门槛,也就是模型可能通过编写和改进自身代码来继续提升能力。公司认为,这还没有真正发生,也并非必然发生,但一旦临界点到来,人类对模型进展的直接监督和干预空间可能迅速变小,因此全球主要 AI 实验室需要提前准备协调机制。Anthropic 提出的核心不是立刻关闭所有 AI 研究,而是在风险明显升高时,保留暂停或放缓前沿模型开发的选项,给监管、企业和社会留下调整时间。文章由 Anthropic 内部研究负责人 Marina Favaro 和政策负责人 Jack Clark 撰写,重点指向最强模型的开发节奏,而不是普通应……
-
黄仁勋把 AI PC 推向本地智能时代:RTX Spark 为什么重要,谁会受影响?
NVIDIA 与 Microsoft 最新推出的 RTX Spark 相关 AI PC 方案,表面上是一款面向 Windows PC 的新芯片和生态合作,真正重要的地方却不只是“PC 又多了一颗 AI 芯片”。它指向的是一个更大的变化:AI 计算正在从云端大模型服务,开始回到用户身边的本地设备。过去两年,AI 行业的主叙事几乎都围绕数据中心、GPU 集群、云 API 和大模型订阅展开;而这一次,黄仁勋把 NVIDIA 的算力叙事进一步推进到个人电脑,等于是在告诉市场:未来的 AI 不只在云上,也会在每一台电脑里运行。这个方向一旦成立,AI 的使用成本、部署方式、硬件产业链和企业 IT 架构都会……
-
xAI推出Grok 1.5视频模型,AI视频生成竞争继续升温
xAI 旗下 Grok 1.5 视频模型已经发布,意味着 Grok 产品线从文本、图像和实时问答进一步延伸到视频生成能力。相比单纯聊天助手,视频模型更直接面向内容创作、社交平台传播和多模态应用场景,也会让 xAI 与 OpenAI、Google、Runway、快手 Kling 等 AI 视频产品形成更直接竞争。目前外界最关注的仍是模型可生成的视频长度、稳定性、人物一致性、开放范围、定价和安全限制等细节,这些信息还需要等待更多官方说明或实际体验验证。这次发布的关键意义在于,Grok 正在从 X 平台上的 AI 助手扩展为更完整的多模态创作入口。若视频能力与 X 的内容分发、实时热点和 Grok……
-
英伟达发布 RTX Spark 平台,黄仁勋押注本地 AI Agent 电脑
英伟达在台北 Computex 2026 上把 PC 战略推到了一个新阶段。黄仁勋公布面向笔记本和桌面小型机的 RTX Spark 平台,核心是面向本地 AI Agent、创作和游戏场景的新一代 Arm 架构 PC 芯片。与过去主要向 PC 厂商提供独立 GPU 不同,英伟达这次要把 CPU、GPU、统一内存和本地 AI 运行能力一起打包进完整电脑平台,直接进入消费级 PC 主芯片市场。 这条新闻的关键不只是“英伟达又发布了一颗芯片”,而是它试图重新定义 AI PC 的形态。过去两年,AI PC 多数还是围绕 NPU、Copilot 快捷键、端侧小模型和视频会议增强功能展开,实际体验往往更像传……
-
美国市值前十已无传统经营公司,AI与平台公司占据核心榜单
截至本周五收盘后,美国市值前十公司如下: 排名公司市值 1NVIDIA NVDA$5.114 T 2Apple AAPL$4.583 T 3Alphabet (Google) GOOG$4.560 T 4Microsoft MSFT$3.344 T 5Amazon AMZN$2.911 T 6Broadcom AVGO$2.115 T 7Tesla TSLA$1.636 T 8Meta Platforms (Facebook) META$1.605 T 9Micron Technology MU$1.095 T 10Berkshire Hathaway BRK-B$1.023 T 这份榜单说明……
-
Anthropic 完成 650 亿美元融资,投后估值升至 9650 亿美元
Anthropic 已完成 650 亿美元 Series H 融资,投后估值达到 9650 亿美元,接近 1 万亿美元。按公开报道,这一估值已高于 OpenAI 最近一轮约 7300 亿美元估值,也让 Claude 背后的公司成为当前估值最高的 AI 创业公司之一。这轮融资与 Claude 需求增长、企业级 AI 市场扩张和 IPO 预期直接相关。Anthropic 同日还推出 Claude Opus 4.8,继续强化编码和专业工作能力,显示资本市场押注的不只是聊天机器人流量,而是企业 API、云平台分发和开发者工具生态。风险在于,近万亿美元估值意味着 Anthropic 需要持续证明收入增长……
-
Grok 5传闻升温:xAI被称在Colossus 2上训练多款模型
围绕 xAI 下一代模型 Grok 5 的消息继续升温。MindStudio 称,xAI 正在 Colossus 2 上同时训练 7 个模型,路线图中包括 6 万亿和 10 万亿参数级别的 Grok 5 变体,Grok 4.4、Grok 4.5 可能先于 Grok 5 推出。Fello AI 则提醒,目前 xAI 尚未发布 Grok 5 的正式产品公告,具体发布时间、参数规模和开放权限仍应视为传闻与观察。若相关路线属实,Grok 5 的竞争重点将从普通聊天扩展到多智能体、长上下文、实时搜索和复杂工具调用。 来源:MindStudio、Fello AI 原始发布时间:2026-05
-
阿里千问3.7-Max登上Code Arena编程榜第二
阿里最新旗舰模型千问3.7-Max在编程能力榜单上继续抬升位置。Edgen 报道称,该模型 5 月 26 日在 Code Arena 编程排行榜拿到 1541 分,位列全球第二,超过部分 OpenAI 和 Google 模型;BenchLM 数据也显示,千问3.7-Max 在编程与程序设计分类中位列 117 个模型第 4,平均分 92.2,整体得分 92/100,临时总榜第 3。这些排名不等于所有真实开发场景都领先,但说明阿里模型正在从通用问答扩展到代码代理、工具调用和企业自动化等更高价值场景。据 Edgen、BenchLM 报道。
-
Claude Sonnet 4.8传闻升温,泄露代码指向Anthropic下一代中端模型
Claude Sonnet 4.8 的传闻正在 AI 开发者社区升温。多家第三方追踪文章将线索指向此前 Claude Code 相关文件中出现的模型名称引用,称其中包含 Sonnet 4.8、Opus 4.7、Mythos、Kairos 等内部代号或版本信息。这意味着 Anthropic 的 Sonnet 产品线可能正在准备下一次中端模型升级。 目前,Anthropic 官方页面显示的最新 Sonnet 模型仍是 Claude Sonnet 4.6,发布时间为 2026 年 2 月 17 日;最新 Opus 模型为 Claude Opus 4.7,发布时间为 2026 年 4 月 16 日。官……
-
Anthropic预计二季度首次实现营业利润,营收将增至109亿美元
Anthropic预计2026年第二季度营收将从一季度48亿美元增至超过109亿美元,并首次实现5.59亿美元营业利润;这才是本条新闻的核心变化,意味着其商业化节奏比此前预计至少提前约两年。
-
Google I/O 2026详解:Gemini 3.5 Flash、Spark智能体、AI搜索和Android XR成主线
Google 在北京时间 5 月 20 日凌晨结束 I/O 2026 主 Keynote 后,把今年的主线明确放在“agentic Gemini era”上:模型从回答问题继续转向执行任务,Search、Gemini 应用、Android、Workspace、开发者工具和创作产品都围绕 24/7 智能体展开。根据 Google 官方博客、The Keyword、Android Developers Blog 以及 Engadget、Wired、TechRadar 等英文媒体的同步汇总,本次大会没有只发布单一模型,而是一次覆盖模型、搜索入口、系统级 AI、视频生成、办公套件和 AI 基础设施的大……
-
Qwen3.7 Preview登陆Arena,Max文本榜第13、Plus视觉榜第16
Qwen3.7 Preview 已出现在 Arena 官方榜单中。Arena Leaderboard 页面显示,阿里巴巴的 qwen3.7-max-preview 进入文本榜,qwen3.7-plus-preview 进入视觉榜;Qwen 官方 X 账号也确认,Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 已登陆 Arena。 在 Arena 文本总榜中,qwen3.7-max-preview 当前排名第13,评分为 1475.21,投票数为 3740。榜单同时显示,该模型所属组织为 Alibaba,模型入口指向 Qwen 官方聊天页面。 从 Arena……
-
OpenAI赢下马斯克诉讼,陪审团认定起诉已超过时效
美国加州奥克兰的一个陪审团周一作出裁定,埃隆·马斯克在针对 OpenAI、萨姆·奥特曼和格雷格·布洛克曼的诉讼中败诉。陪审团认为,马斯克提出相关指控的时间已经超过法定诉讼时效,因此 OpenAI 及其高管无需就这些指控承担责任。 多家英文媒体报道称,这场案件的核心并不是陪审团重新审理 OpenAI 是否已经背离早期使命,而是马斯克是否在法律允许的期限内提出诉讼。陪审团最终认定,他“等得太久”才起诉,相关主张已被诉讼时效挡下。 马斯克此前指控 OpenAI 和奥特曼等人背离了创建 OpenAI 时服务公共利益、以非营利方式推动人工智能发展的初衷,转而围绕营利性业务和微软投资建立新的商业结构。Op……
-
首次全场景、全产业融入AI的京东618来了:5月30日晚8点开启!
从智能制造到智慧生活,AI正加速渗透每一个行业与日常场景。今年的京东618也将是首次全场景、全产业融入AI的一届618。凭借京东在技术研发的持续投入,以及超级供应链深度嵌入零售、物流、健康、工业等数千个细分场景,今年京东618,将实现AI技术推动产业成本效率的重大革新,消费者将感受到AI技术在购物体验的全面进化。 京东618从5月30日晚8点盛大开启 官方直降、低至五折 今年京东618主打“官方直降 低至5折”,并全新推出“低价热卖”玩法,精选极具性价比的热卖商品,以最简单、直接的方式兑现真低价承诺;更有海量“特惠爆款”,超低折扣天天抢。 秒杀频道,每天都有爆款大牌真低价,优惠力度不止5折;特……
-
DeepSeek 被曝重大漏洞:输入 think 可看到他人提问内容
近日,有用户在社交平台发文称,DeepSeek 疑似出现严重漏洞:在新开对话中输入 <think> 或类似内容后,页面会返回与当前用户无关的对话文本,爆料者称这些内容像是“随机别人的提问内容”。 从爆料截图看,发帖者明确表示“输入 <think> 即可看到其他用户的对话内容”,并补充称新开对话输入 <think> 或 <think 都可能触发异常,撞到的内容是随机别人的提问内容。这一说法随后引发对 DeepSeek 会话隔离、上下文管理和隐私保护机制的讨论。 我们根据相同思路进行了测试。从测试截图看,在输入 <think> 后,DeepSeek 确实出现异常输出:一次返回了“大学生文明出行”主……
-
GPT-5.6最快6月底发布,Codex速度提升2到3倍
GPT-5.6正在成为OpenAI下一轮大模型更新的主角,发布时间窗口已经指向6月底前。英文科技媒体和开发者社区的消息显示,GPT-5.6已进入测试节奏,市场预测平台 Polymarket 对6月30日前发布给出很高预期,也有消息称它可能在下个月正式亮相。性能方面,这次升级重点会落在Codex和AI编程场景:OpenAI正在推进的 ultrafast 模式预计可让响应速度提升2到3倍,开发者在代码生成、调试、长任务代理和工具调用上的等待时间会明显缩短。相比GPT-5.5,GPT-5.6更像是一次面向高频生产力场景的加速升级,目标是让AI从“能完成复杂任务”进一步走向“更快完成复杂任务”。这也意……
-

李彦宏在 Create 2026 提出 DAA:日活智能体数比 Token 消耗更能衡量 AI 价值
在今日开幕的 Create 2026 百度 AI 开发者大会上,百度创始人李彦宏提出,AI 应用价值的衡量方式正在发生变化。相比单纯统计 Token 消耗量,他认为“日活智能体数”更能反映 AI 是否真正被使用、是否创造了实际价值。 Create 2026 百度 AI 开发者大会于 5 月 13 日至 14 日在北京举行,主题为“万物一体”。本届大会整合了 Create 百度 AI 开发者大会与云智大会,重点聚焦智能体、AI 原生应用和企业级 AI 落地。 李彦宏在演讲中表示,Token 消耗量更多体现模型调用和计算规模,但并不直接等同于用户获得的价值。随着智能体开始在搜索、办公、创作、生活服……