W3C 将 Web 神经网络 (WebNN) API 提升为候选推荐

WebNNWebGPUWebAPI

发生了什么

2026年1月22日，W3C 发布了 Web 神经网络 (WebNN) API 的更新候选推荐快照——这是一个用于浏览器中硬件加速神经网络推理的低级网络标准。(w3.org)

对全栈开发者的重要性

客户端机器学习正从实验性库和专有浏览器扩展转向一个标准化、可互操作的 API，能够针对 GPU、NPU 和其他加速器。这将真实的工作（推理）从服务器转移到用户的设备上——减少许多应用的延迟、带宽和云成本，同时提高隐私和离线能力。(w3.org)
该规范增加了扩展的操作符支持（特别是额外的变换器操作符）、一个新的 MLTensor 缓冲区共享 API，以及一个抽象的设备选择模型——所有这些都旨在满足真实的生产工作负载并提高后端可移植性。这些是使设备上推理更容易和更高效的实际变化。(w3.org)
W3C 现在期望在推进到下一个成熟阶段之前有实现和测试覆盖；该规范明确指出需要两个独立的、可互操作的实现和开放的测试套件。这意味着浏览器供应商和运行时团队被要求提供可测量、可测试的行为——而不仅仅是一个解释。(w3.org)

即时影响和实际行动

重新评估推理应该运行的位置。对于延迟敏感的功能（图像分类、设备上的推荐、基于相机的用户体验），基准测试将模型迁移到客户端的 WebNN 与您现有的服务器推理进行比较。预计许多模型在冷启动延迟和带宽方面会有很大的收益。(w3.org)
开始使用现有的 polyfills 和实验性实现进行测试。使用 WebNN 测试套件和 WPT 结果比较不同引擎的行为；验证跨设备（移动 SoC、桌面 GPU）的模型准确性和资源使用情况。为不支持或受限的客户端准备后备路径（WebAssembly/CPU 推理或服务器端）。(w3.org)
现在将模型转换和优化为设备上的推理。导出到 ONNX 或精简操作符集的工具链将更容易支持。注意模型大小、量化和操作符覆盖——新的操作符波改善了变换器支持，但尚未与每个运行时的后端匹配。计划 CI 检查以验证在代表性设备上的模型推理。(w3.org)
Devops 和打包：将模型工件视为可部署资产，具有版本控制、大小预算和缓存策略。当使用框架（React、Node API、边缘函数）时，清晰定义模型评估发生的位置，并为设备能力和推理性能仪器化遥测。(w3.org)

接下来要关注的内容

跟踪 W3C 在规范中链接的实现报告和 WPT 结果——它们将指示哪些浏览器和运行时达到足够的互操作性以供生产使用。一旦两个独立的实现通过测试套件，WebNN 就可以向全面推荐和更广泛的发布迈进。(w3.org)

来源：

继续阅读