2026-03-18
AI 日报 2026-03-18 · 注意力残差 / GPT-5.4 mini / 边缘 AI
概览
前沿论文
技术热点
行业动态
AttnRes:用注意力机制替代固定残差连接 #1
TL;DR: Moonshot AI 用 softmax 注意力替换 Transformer 固定残差,同等算力下训练损失降低相当于多用 1.25x 算力。
来源: arXiv 2603.AttnRes · 论文
Transformer 的残差连接一直是"固定求和"——每层无差别叠加前层输出,深层模型容易出现信息稀释和训练不稳定。Moonshot AI 提出 AttnRes,让每层用 softmax 注意力动态选择"从哪些前层汲取信息"。为控制内存,实际落地版本 Block AttnRes 将层分组(约 8 层一组),组间用注意力聚合,内存从 O(Ld) 降到 O(Nd)。
在 48B Kimi Linear 模型上验证:GPQA-Diamond +7.5、Math +3.6、HumanEval +3.1,推理延迟增加不到 2%。代码已开源。
局限: 目前只在 Kimi 自家模型上验证,跨架构泛化性待观察。
OpenSeeker:开源搜索 Agent 训练数据全公开 #2
TL;DR: 上交大用 11.7K 条训练数据微调 Qwen3-30B,搜索 Agent 性能超越部分工业级产品,数据和权重全开源。
来源: github.com/rui-ye/OpenSeeker · 论文
高质量搜索 Agent 训练数据长期被大厂垄断,OpenSeeker 用两个技术打破壁垒:① 反向工程 Web 图谱生成多跳推理 QA,用实体混淆防止模型死记答案;② 回顾性摘要去噪,清洗教师模型生成的轨迹数据。最终 11.7K 样本微调 Qwen3-30B-A3B-Thinking,在前沿搜索基准上超越部分工业竞品。
对独立开发者意义重大:以前复现 Perplexity 级别的搜索 Agent 几乎不可能,现在有了完整的数据 + 模型配方。
GPT-5.4 mini & nano 正式发布 #3
TL;DR: OpenAI 3月17日发布 GPT-5.4 mini/nano,mini 速度是 GPT-5.4 的 2x+,nano 专为分类/提取/子 Agent 设计。
来源: openai.com/index/introducing-gpt-5-4-mini-and-nano · 官方博客
GPT-5.4 本体已于 3 月初发布(统一了 GPT-5.2 写作推理 + GPT-5.3 Codex 编码能力,原生 Computer Use,OSWorld 准确率 75%,超越人类基线 72.4%)。此次 mini 和 nano 补全了产品线:mini 在编码、推理、多模态上大幅超越 GPT-5 mini,速度翻倍以上;nano 是最小最便宜版本,适合分类、数据提取、排名等子任务。
Free 用户也能通过 Thinking 功能访问 mini,GitHub Copilot 同步接入。
局限: Computer Use 功能目前仍限 Pro/Enterprise,普通用户无法直接使用。
MiniMax M2.5:国产 Agentic 编码模型 #4
TL;DR: MiniMax 用大规模 RL 训练 M2.5,覆盖完整开发生命周期,性能对标 Claude Opus,有 Lightning 快速版。
来源: huggingface.co/MiniMaxAI/MiniMax-M2.5 · 模型发布
MiniMax M2.5 在数十万真实环境中用强化学习训练,支持系统设计、环境搭建、功能迭代、代码审查、测试全流程,覆盖 Python/Go/C/C++/TypeScript/Rust 等 10+ 语言。性能对标 Claude Opus,同时提供 M2.5-Lightning 版本(速度更快,能力相同)。
国产模型在 Agentic 编码赛道的竞争力正在快速追上顶级闭源模型,且 API 成本更低,值得关注。
Nemotron 3 Nano 4B:5GB 内存跑 Agent #5
TL;DR: NVIDIA 发布 4B 混合架构小模型,Mamba-2 + Attention,5GB 内存可运行,面向边缘 Agent 场景。
来源: huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16 · 模型发布
Nemotron 3 Nano 4B(3.97B 参数)采用 Mamba-2 + MLP + 4 层 Attention 混合架构,兼顾推理效率和长序列处理。目标场景:游戏 NPC、本地语音助手、IoT 自动化。5GB RAM/VRAM 即可运行,商业可用(NVIDIA Nemotron 开放许可证)。
NVIDIA GTC 同期还发布了 Nemotron 3 Super 120B,形成从边缘到数据中心的完整 Agent 模型家族。
OpenAI 收购 Promptfoo,AI 安全红队进主流 #6
TL;DR: OpenAI 收购 AI 红队工具 Promptfoo,将自动化安全测试内置到 Frontier 平台,覆盖 25%+ 财富 500 强。
来源: openai.com/index/openai-to-acquire-promptfoo · 官方博客
Promptfoo 是企业级 AI 安全评估工具,提供 prompt injection、越狱、数据泄露等自动化检测,已被超过 25% 的财富 500 强使用。OpenAI 将其整合进 Frontier 平台(AI 协作者构建和运营平台),让安全测试在开发阶段就能自动运行。
这标志着 AI 安全红队从"可选项"变成"标配"——随着 Agent 大规模部署,这个方向的重要性只会越来越高。
Google DeepMind 启动欧洲机器人加速器 #7
TL;DR: DeepMind 首个机器人加速器落地欧洲,免股权,支持 10-15 家早期机器人创业公司,聚焦 Physical AI。
来源: blog.google/innovation-and-ai/products/google-ai-updates-february-2026 · 官方博客
DeepMind 推出欧洲机器人加速器,三个月项目,免股权,提供导师指导、Google 基础设施访问和 DeepMind 技术团队协作。重点方向是 Physical AI——将 AI 能力落地到物理世界的机器人系统。
背景:Demis Hassabis 年初预测 2026 年将是多模态模型和可靠 Agent 的突破年,这个加速器是 DeepMind 在机器人赛道的具体布局。
生成时间: 2026-03-18 10:27 CST | 鸡胸肉 🍗