每 6 小时自动刷新,聚合主流中外媒体公开信息,仅作阅读参考。
Google Research开源200M参数时序基础模型TimesFM 2.5,支持长上下文和分位数预测。
微软开源VibeVoice语音AI,含ASR和TTS前沿模型。
OpenAI开源Whisper语音识别模型,支持多语言识别与翻译。
NVIDIA开源Cosmos 3世界模型,支持文本、图像、视频、音频和动作的联合处理与生成。
VoxCPM2是OpenBMB推出的2B参数免分词多语言TTS,支持声音设计与克隆。
Biohub开源蛋白质世界模型,含ESMC、ESMFold2和ESM Atlas。
谷歌开源DiffusionGemma,速度快4倍,但自评差。
JetBrains 开源 Mellum2,挑战 Claude Code 未覆盖的编程场景。
谷歌为Android开发者提供模型选择,GPT-5.5暂时领先
Subquadratic 推出 1200 万 Token 上下文窗口,创下新纪录。
GPT-5.5 Instant让ChatGPT的健康回答更准确、清晰。
ABot-Earth0.5模型登顶Hugging Face三榜,获陈宝权好评。
智源大会宣布全新世界模型“悟界·Physis”将开源,由22岁北大本科生负责。
Grok 4.3上线Amazon Bedrock,xAI成为AWS模型供应商。
文远知行WRD 3.0端到端智驾方案六连冠,展示车位到车位全链路能力。
三篇ICML论文分别提出高效蒸馏、推理ICL新发现和视频生成方法。
智谱发布GLM-5.2模型,支持1M长上下文并开源;支付宝晓政服务破亿。
它石智航发布AWE 3.0、DexHand灵巧手及触觉模型,推进具身智能2.0时代。
PP-OCRv6 以 1.5MB 尺寸实现浏览器端毫秒级 OCR。
魔法原子发布Magic-VLA K02,长序任务自主规划与执行突破。
GPT-5.5 与 Codex 登陆 Amazon Bedrock。
魔法原子发布Magic-VLA K02与Magic-Mix世界模型。
OpenAI降价,阿里云Meoo CLI发布,谷歌开源DiffusionGemma。
Anthropic发布双旗舰模型Fable、Mythos,性能屠榜但价格不菲。
DiffusionGemma将文本生成提速4倍,保持输出质量。
HiDream-O1-Image-1.5商用版在榜单上获中国第一,能力覆盖文字、排版、分镜等复杂场景。
Anthropic新模型Fable因护栏过严遭网络安全研究员批评。
HiDream-O1-Image-1.5获文生图榜单中国第一、全球第二。
Anthropic发布Claude Fable 5和Mythos 5,前者为公开最强。
高德发布3D原生场景生成模型ABot-Earth0.5,开放内测。
GuidedVLA通过显式分工提升VLA动作生成的可控可解释能力。
OpenAI拟升级ChatGPT为超级应用,整合编程与智能体。
Gemma 4 12B去掉独立编码器,以更小参数量对标更大模型
Transformer模型具有内在简洁性,获AI顶会ICLR 2026杰出论文奖。
中科闻歌发布Decitron决策机,实现复杂事件推演与动态追踪。
阶跃Step 3.7 Flash获AA榜速度/性价比/端到端第一
朱玉可提出数据金字塔与世界模型策略,发布多个开源人形机器人模型。
英伟达开源推理模型 Nemotron 3 Ultra 上线 Vercel AI Gateway,支持百万 token。
Step 3.7 Flash以409 tokens/s速度位列主流模型输出速度第一。
微软推出自研MAI-Thinking-1模型,性能对标Claude Opus 4.6。
OneModel 1.7用隐式通路实现感知到动作的潜在空间传导
动态Gaussian SLAM与可变形地图推动机器人适应真实动态环境。
英伟达开源物理AI全模态模型Cosmos 3并发布Agent Toolkit。
PaddleOCR-VL-1.6发布,文档解析准确率96.33%创新高。
PaddleOCR-VL-1.6准确率96.33%,刷新文档解析SOTA。
英伟达推出Alpamayo 2 Super,开放推理版自动驾驶模型。
开源36自由度双臂灵巧VLA模型Dexora,性能领先,可跨形态泛化。
阿里Qwen3.7-Plus多模态模型发布,视觉榜中国第一,可复刻复杂软件。
阶跃Step 3.7 Flash速度400 tokens/秒,成本低至Claude九分之一。
VAST完成近2亿美元融资,发布世界模型Project Eden。
SLIM让智能体动态决定外部技能的去留,避免技能过多或过少。
无需全局重建的像素级相对3D导航框架 MASt3R-Nav 开源。
材料AI新模型40项工业任务全面SOTA,融合LLM习得物理直觉
复旦与通义提出全新CUA训练范式,解决Agent工具选择难题。
商汤开源8B参数去VAE原生统一多模态模型SenseNova U1。
Qwen3.7-Max在推理和编程Agent上达到全球领先水平。
最大规模开源具身世界模型τ0-WM发布,基于17800小时真机数据。
MiniMax M3模型(百万上下文)上线Vercel AI Gateway。
DeepSeek V4中文和代码能力强,但存在编造梗的问题。
Gamma-World实现多智能体共处与交互的世界模型仿真。
Claude Opus 4.8以零错误率主打可靠,挑战AI性能竞赛。
Liquid AI推出8B-A1B MoE模型,训练数据38T。
3B参数VLM在未知场景跑出94%成功率,超越GPT-4o。
Opus 4.8发布,DHH称其编码能力接近GPT-5.5。
OSCAR 实现2-bit KV Cache量化,提升推理效率。
15kg开源人形机器人Mini Pi plus发布,轻量化+全栈工具链降低科研门槛。
Claude Opus 4.8性能封神但价格昂贵,口碑两极。
Opus 4.8发布,Agent编程性能超越GPT-5.5。
Anthropic发布Opus 4.8,新增动态工作流工具。
RAPID将RMA框架扩展至变形物体操作,零样本迁移成功率超80%。
Bi-Adapt用视觉基础模型实现少样本双臂操作跨类别泛化。
Claude Opus 4.8 发布,强化长周期代理与复杂编码能力。
阿里语音大模型在ASR、TTS、Chat三项评测中均获国产第一。
阿里语音大模型登顶Speech Arena国产第一,全球第五。
北大团队提出Imagine2Act,让机器人先想象再动手,提升精细家务操作精度。
普渡发布PuduFM 1.0和PuduAgent,推动具身智能商业化。
天工AI推出高性能Agent模型SkyClaw,限时免费试用。
MindVLA-U1让语言真正进入自动驾驶决策,轨迹质量超人类。
OpenAI 公开低延迟语音 AI 的 WebRTC 架构细节。
DeepSeek V4降价并获多家企业合作,梁文锋重申开源。
越疆发布空弈-VLA具身大模型和“一脑多体”平台,推进具身智能在工业场景落地。
大华发布星汉大模型系列,CV×Agent赋能行业静默看护与自主决策。
智象未来发布两千亿参数图像大模型HiDream-O1-Image-Pro。
阿里发布Qwen3.7-Max,盲测国产第一,支持超长程智能体任务。
谷歌发布多模态模型Gemini Omni,统一处理文本、图像、音频和视频。
谷歌发布Gemini 3.5 Flash,主打速度和效率提升。
OpenAI将GPT-5级推理能力集成到语音模型,大幅降低同传翻译成本。
华人15人团队推出AI生图模型,成为香蕉和GPT Image之外的第三条路径。
新一代具身智能仿真框架开源,通过高吞吐并行高保真渲染突破视觉仿真算力瓶颈,助力规模化训练。
DeepSeek推出V4 API,提供Flash和Pro双版本,均支持百万级上下文窗口。
第 3 页 · 已显示 90 条
每周一早 9 点,AI 圈本周 5 件大事 + 1 个新工具 + 1 个对比页。