通八洲科技

JavaScript如何实现语音识别_Web Speech API如何工作?

日期:2025-12-27 00:00 / 作者:紅蓮之龍
JavaScript语音识别主要依靠Web Speech API的SpeechRecognition接口,需检查浏览器支持、创建实例、设置属性、绑定事件并调用start()启动;存在HTTPS依赖、移动端兼容性差及无法自定义模型等问题。

JavaScript 实现语音识别主要依靠浏览器原生支持的 Web Speech API,其中核心接口是 SpeechRecognition(目前在 Chrome、Edge 等基于 Chromium 的浏览器中稳定可用,Firefox 有部分支持但需手动启用)。它不是调用第三方服务,而是直接利用系统麦克风和本地/云端语音引擎完成识别,响应快、隐私性较好(语音数据可不离开设备)。

Web Speech API 语音识别的基本流程

整个过程是事件驱动的:开启识别 → 用户说话 → 浏览器处理音频 → 返回文本结果。关键步骤包括:

一个最小可用的语音识别示例

以下代码可直接在支持的浏览器中运行(建议用 HTTPS 环境,HTTP 下部分浏览器会禁用麦克风):

const SpeechRecognition = window.SpeechRecognition || window.webkitSpeechRecognition;
if (!SpeechRecognition) {
  console.error('当前浏览器不支持 Web Speech API');
} else {
  const recognition = new SpeechRecognition();
  recognition.continuous = false;    // 识别一次后停止
  recognition.interimResults = true;  // 返回实时中间结果
  recognition.lang = 'zh-CN';         // 设为中文

  recognition.onresult = (event) => {
    const result = event.results[0][0].transcript;
    const isFinal = event.results[0].isFinal;
    console.log(isFinal ? '最终结果:' + result : '暂定结果:' + result);
  };

  recognition.onstart = () => console.log('开始监听...');
  recognition.onend = () => console.log('识别已结束');

  // 点击按钮触发识别
  document.getElementById('start-btn').onclick = () => recognition.start();
}

常见问题与注意事项

实际使用中容易遇到几个典型问题:

替代方案与增强思路

当 Web Speech API 不满足需求时,可以考虑: