W3C 将 Web 神经网络 (WebNN) API 提升为候选推荐

WebNNWebGPUWebAPI

发生了什么

  • 2026年1月22日,W3C 发布了 Web 神经网络 (WebNN) API 的更新候选推荐快照——这是一个用于浏览器中硬件加速神经网络推理的低级网络标准。(w3.org)

对全栈开发者的重要性

  • 客户端机器学习正从实验性库和专有浏览器扩展转向一个标准化、可互操作的 API,能够针对 GPU、NPU 和其他加速器。这将真实的工作(推理)从服务器转移到用户的设备上——减少许多应用的延迟、带宽和云成本,同时提高隐私和离线能力。(w3.org)
  • 该规范增加了扩展的操作符支持(特别是额外的变换器操作符)、一个新的 MLTensor 缓冲区共享 API,以及一个抽象的设备选择模型——所有这些都旨在满足真实的生产工作负载并提高后端可移植性。这些是使设备上推理更容易和更高效的实际变化。(w3.org)
  • W3C 现在期望在推进到下一个成熟阶段之前有实现和测试覆盖;该规范明确指出需要两个独立的、可互操作的实现和开放的测试套件。这意味着浏览器供应商和运行时团队被要求提供可测量、可测试的行为——而不仅仅是一个解释。(w3.org)

即时影响和实际行动

  • 重新评估推理应该运行的位置。对于延迟敏感的功能(图像分类、设备上的推荐、基于相机的用户体验),基准测试将模型迁移到客户端的 WebNN 与您现有的服务器推理进行比较。预计许多模型在冷启动延迟和带宽方面会有很大的收益。(w3.org)
  • 开始使用现有的 polyfills 和实验性实现进行测试。使用 WebNN 测试套件和 WPT 结果比较不同引擎的行为;验证跨设备(移动 SoC、桌面 GPU)的模型准确性和资源使用情况。为不支持或受限的客户端准备后备路径(WebAssembly/CPU 推理或服务器端)。(w3.org)
  • 现在将模型转换和优化为设备上的推理。导出到 ONNX 或精简操作符集的工具链将更容易支持。注意模型大小、量化和操作符覆盖——新的操作符波改善了变换器支持,但尚未与每个运行时的后端匹配。计划 CI 检查以验证在代表性设备上的模型推理。(w3.org)
  • Devops 和打包:将模型工件视为可部署资产,具有版本控制、大小预算和缓存策略。当使用框架(React、Node API、边缘函数)时,清晰定义模型评估发生的位置,并为设备能力和推理性能仪器化遥测。(w3.org)

接下来要关注的内容

  • 跟踪 W3C 在规范中链接的实现报告和 WPT 结果——它们将指示哪些浏览器和运行时达到足够的互操作性以供生产使用。一旦两个独立的实现通过测试套件,WebNN 就可以向全面推荐和更广泛的发布迈进。(w3.org)

来源:

  • W3C — Web 神经网络 (WebNN) API(候选推荐草案,2026年1月26日):

来源

继续阅读