每 6 小时自动刷新,聚合主流中外媒体公开信息,仅作阅读参考。
Google Research开源200M参数时序基础模型TimesFM 2.5,支持长上下文和分位数预测。
微软开源VibeVoice语音AI,含ASR和TTS前沿模型。
OpenAI开源Whisper语音识别模型,支持多语言识别与翻译。
NVIDIA开源Cosmos 3世界模型,支持文本、图像、视频、音频和动作的联合处理与生成。
VoxCPM2是OpenBMB推出的2B参数免分词多语言TTS,支持声音设计与克隆。
Biohub开源蛋白质世界模型,含ESMC、ESMFold2和ESM Atlas。
谷歌开源DiffusionGemma,速度快4倍,但自评差。
JetBrains 开源 Mellum2,挑战 Claude Code 未覆盖的编程场景。
谷歌为Android开发者提供模型选择,GPT-5.5暂时领先
Subquadratic 推出 1200 万 Token 上下文窗口,创下新纪录。
GPT-5.5 Instant让ChatGPT的健康回答更准确、清晰。
ABot-Earth0.5模型登顶Hugging Face三榜,获陈宝权好评。
智源大会宣布全新世界模型“悟界·Physis”将开源,由22岁北大本科生负责。
Grok 4.3上线Amazon Bedrock,xAI成为AWS模型供应商。
文远知行WRD 3.0端到端智驾方案六连冠,展示车位到车位全链路能力。
三篇ICML论文分别提出高效蒸馏、推理ICL新发现和视频生成方法。
智谱发布GLM-5.2模型,支持1M长上下文并开源;支付宝晓政服务破亿。
它石智航发布AWE 3.0、DexHand灵巧手及触觉模型,推进具身智能2.0时代。
PP-OCRv6 以 1.5MB 尺寸实现浏览器端毫秒级 OCR。
魔法原子发布Magic-VLA K02,长序任务自主规划与执行突破。
GPT-5.5 与 Codex 登陆 Amazon Bedrock。
魔法原子发布Magic-VLA K02与Magic-Mix世界模型。
OpenAI降价,阿里云Meoo CLI发布,谷歌开源DiffusionGemma。
Anthropic发布双旗舰模型Fable、Mythos,性能屠榜但价格不菲。
DiffusionGemma将文本生成提速4倍,保持输出质量。
HiDream-O1-Image-1.5商用版在榜单上获中国第一,能力覆盖文字、排版、分镜等复杂场景。
Anthropic新模型Fable因护栏过严遭网络安全研究员批评。
HiDream-O1-Image-1.5获文生图榜单中国第一、全球第二。
Anthropic发布Claude Fable 5和Mythos 5,前者为公开最强。
高德发布3D原生场景生成模型ABot-Earth0.5,开放内测。
第 1 页 · 已显示 30 条
每周一早 9 点,AI 圈本周 5 件大事 + 1 个新工具 + 1 个对比页。