版本配置参数详解¶

这是版本详情中的一些概念和参数说明，方便用户理解和使用。

什么是语音识别？¶

语音识别技术也被称为自动语音识别（Automatic Speech Recognition，ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

语音识别技术常用的方法有如下四种：

基于语言学和声学的方法
随机模型法
利用人工神经网络的方法
概率语法分析

什么是唤醒词？¶

唤醒词是指特定词语或短语，用于唤醒设备并启动语音交互。语音识别唤醒词的设计和选择对于用户体验至关重要。一般来说，唤醒词应该是易于发音、清晰且不易与其他词汇混淆的短语。

唤醒词自定义规则¶

中文唤醒词规则¶

长度要求：
- 一般为 4-6 个字，4 个字最佳
- 过短容易误唤醒，过长不便用户呼叫和记忆
避免使用：
- 敏感词：包含政治、伟人名字、脏话、黄赌毒等
- 口语化词汇：口语词汇日常使用频率很高，容易导致误唤醒，如"你好啊"
- 多音字：避免使用多音字，唤醒词的音节覆盖应尽量多，差异大
- 叠字：避免使用叠字，避免连续使用零声母的词，如"安"
发音要求：
- 唤醒词发音应选择易开口、响度大、发音清晰易分辨的词
设计建议：
- 设计词条时，如果词条之间只有一个字的不同，这个字尽量不要放在最后一个，可以降低误识别率
数量限制：
- 唤醒词加上免唤醒的命令词，总数不能超过 10 条（部分模组可能不同，请以实际平台显示为准）
法律风险：
- 如因使用市面上已存在的唤醒词而产生纠纷，由开发者自行承担，请慎重选择

英文唤醒词规则¶

长度要求：
- 建议由 2-4 个单词（4-6 个音节）组成
- 过短容易误识别，过长不便用户记忆
避免使用：
- 日常用语：如"HI"、"HELLO"
- 相似音节：避免同时使用 TURN-ON 和 TURN-OFF
- 叠词：如"HELLO-HELLO"
格式要求：
- CI 系列：所有单词全部大写，如果一个命令词由多个单词组成，那么单词与单词之间用中横线连接
  - 示例：HELLO-AIR-CONDITIONING
- SU 系列：如果一个命令词由多个单词组成，那么单词与单词之间用空格分开，支持大小写
  - 示例：HELLO AIR CONDITIONING 或 hello air conditioning
发音要求：
- 命令词间音节区分度越大越好
- 符合用户的语言习惯，是常用的说法，内容具体直接
- 词的发音清晰响度要大

什么是命令词？¶

命令词是想要定义的语音话术，用户必须按照定义的话术说出才有效（自然说除外）。如用户可以使用"设置十五度"、"十五度"来实现同一个设置温度 15 度的控制。

命令词和回复语自定义规则¶

命令词规则¶

多条命令词：
- 一个行为的命令词允许填多条，多条命令词之间用"|"隔开
- 当设置多条命令词时，说每个命令词都能触发该行为
- 示例：打开台灯|开灯|亮灯
- 重要：命令词与"|"之间不能有空格，否则会导致"|"后面的命令词无法识别
- ❌ 错误写法：打开台灯 | 开灯 | 亮灯（有空格会导致后面的命令词无法识别）
自然说功能：
- 如果打开自然说功能，则一个行为仅允许设置一个命令词，但是可以设置多个泛化词

回复语规则¶

回复语定义：
- 回复语是针对该条控制指令的设备回复播报
长度限制：
- 单条回复语不得超过 500 个字符
字符支持：
- 支持中英文、逗号、句号、问号
- 不要使用阿拉伯数字，可以用中文数字来代替
- 示例：使用"十五度"而不是"15度"
多音字标注：
- 回复语中支持标签 [=py]，来指定某些多音字播报时的读音
- 格式：[=拼音]，拼音声调范围为 1-5
  - 1-4 对应一声到四声
  - 5 对应轻声
- 示例：已调[=tiao2]至中[=zhong1]风档
  - 播报为：已调(tiao2)至中(zhong1)风档
多条回复语：
- 一个行为的回复语允许填多条，多条回复语之间用"|"隔开
- 当设置多条回复语时，行为被触发后，系统会随机选择一条回复语进行播报
- 示例：已为您打开照明|好的，已打开|照明已开启

什么是免唤醒的命令词？¶

免唤醒的命令词可以在设备未唤醒的情况下直接触发语音交互。用户无需先说唤醒词，直接说出免唤醒的命令词即可触发相应的功能。

注意事项：

唤醒词加上免唤醒的命令词，总数不能超过 20 条（具体限制请以平台实际显示为准）
免唤醒命令词应选择使用频率高、不易误触发的命令

什么是防止误识别的命令词？¶

防止误识别的命令词用于防止生活中高频次发生并且容易诱发唤醒词或命令词误识别的词，用于针对性防误识别和误唤醒。

配置规则：

不能和唤醒词、命令词重复
多条词条之间用"|"隔开
示例：你好|在吗|小美|小爱

使用场景：

日常对话中经常出现的词汇
与唤醒词或命令词发音相似的词汇
容易导致误触发的常见用语
命令词的缩写或部分发音：例如命令词是"打开设备"，但说"打开"或"设备"也被识别，可将"打开|设备"加入防误识别词列表
相似前缀的命令词：例如有多个"打开xxx"的命令词，说"打开"可能误触发，可将"打开"加入防误识别词

配置示例：

如果命令词是"打开灯光"，但用户说"打开"或"灯光"也会被识别，可在防误识别词中添加：

打开|灯光

这样可以防止只说命令词的一部分就被误识别。

注意事项：

精简有效：只添加真正会引起误识别的词汇，避免过度添加
避免过度：过多的防误识别词可能导致正常命令识别率下降
测试验证：添加防误识别词后，务必测试正常命令是否仍能正常识别
平衡考虑：需要在减少误识别和保持正常识别率之间找到平衡

什么是识别灵敏度？¶

识别灵敏度用于调整语音识别的敏感程度，有三档可选：低、中、高。默认为中。

灵敏度说明：

灵敏度	识别效果	误识别率	适用场景
低	较难识别	较低	安静环境，对误识别要求高的场景
中	平衡	中等（推荐）	大多数场景，平衡识别率和误识别率
高	容易识别	较高	嘈杂环境，对识别率要求高的场景

配置建议：

灵敏度越高越容易识别，同时误识别率会增高
灵敏度越低越难识别，误识别率会降低
建议先使用默认的"中"档，根据实际使用效果再调整

产品特性¶

产品特性是指智能语音设备在信号处理、音频处理等方面的高级功能配置。这些特性可以提升设备在不同环境下的识别准确率和用户体验。

降噪¶

降噪功能用于减少环境噪声对语音识别的影响，提高在嘈杂环境下的识别准确率。

功能说明：

通过算法处理，降低背景噪声的干扰
提升在噪声环境下的语音识别准确率
适用于家庭、办公室等存在环境噪声的场景

配置建议：

根据实际使用环境选择合适的降噪等级
过度降噪可能会影响语音质量，需要平衡

降混响¶

降混响功能用于减少声音在空间中的反射和混响效果，提高语音识别的清晰度。

功能说明：

处理声音在封闭空间中的反射和混响
提升在较大空间或回声环境下的识别准确率
适用于客厅、会议室等空间较大的场景

配置建议：

在空间较大、回声明显的环境中建议开启
根据实际空间大小和回声情况调整参数

降人声干扰¶

降人声干扰功能用于减少其他人说话声音对目标语音识别的干扰。

功能说明：

区分目标用户语音和其他人声
在多人在场环境下提高识别准确率
适用于多人使用场景

配置建议：

在多人使用场景下建议开启
配合声源定位功能使用效果更佳

自学习¶

自学习功能允许设备根据用户的使用习惯和语音特点进行自适应优化。

功能说明：

设备会学习用户的发音习惯
逐步提升对特定用户的识别准确率
适用于个人专用设备

配置建议：

需要一定时间的学习周期
建议在稳定使用一段时间后评估效果

声纹识别¶

声纹识别功能通过识别用户的声音特征来区分不同用户，实现个性化服务。

功能说明：

基于声音的生物特征识别
可以区分不同用户并执行个性化操作
适用于多用户家庭场景

配置建议：

需要用户进行声纹注册
建议在安静环境下进行声纹录入

AEC 打断¶

AEC（Acoustic Echo Cancellation）打断功能用于处理设备自身播放声音对语音识别的干扰。

功能说明：

消除设备播放音频产生的回声干扰
允许用户在设备播放时进行语音打断
提升交互体验

配置建议：

在需要语音打断功能的场景下建议开启
需要配合硬件设计进行优化

声源定位¶

声源定位功能可以识别声音来源的方向，用于多麦克风阵列设备。

功能说明：

确定说话人的位置方向
提升多麦克风设备的识别准确率
适用于双 MIC 或多 MIC 配置

配置建议：

需要双 MIC 或更多麦克风支持
麦克风间距和位置会影响定位效果

哭声检测¶

哭声检测功能可以识别婴儿哭声，触发相应的提醒或操作。

功能说明：

专门针对婴儿哭声的识别
可以触发提醒、音乐播放等操作
适用于智能婴儿监护设备

配置建议：

需要针对性的声学模型支持
建议在安静环境下使用以提高准确率

鼾声检测¶

鼾声检测功能可以识别打鼾声音，用于睡眠监测场景。

功能说明：

识别打鼾声音模式
可以触发提醒或记录睡眠数据
适用于智能睡眠监测设备

配置建议：

需要放置在合适的位置以准确检测
建议配合其他传感器使用

文字转语音¶

文字转语音（TTS，Text-to-Speech）功能将文字内容转换为语音播报。

功能说明：

支持多种发音人选择
可以调整语速、音调等参数
用于设备回复和提示音

配置建议：

根据产品定位选择合适的发音人
注意语速和音调的平衡，确保清晰易懂

播报音编号查询：

平台配置的个性化音频（TTS播报音）会分配对应的编号。如需查询编号与音频内容的对应关系：

从平台下载模型包后，解压模型包文件
在模型包中找到 TTS 包文件夹
查看 TTS 包中的配置文件或音频列表，即可获取编号与内容的对应关系

注意：播报音编号是系统自动分配的，用于在代码或串口协议中引用对应的音频内容。

声学模型¶

声学模型是语音识别系统的核心组件，用于将声音信号转换为文字。

功能说明：

不同的声学模型针对不同的应用场景和语言环境
模型大小和识别准确率之间存在权衡
选择合适的声学模型对产品性能至关重要

模型类型：

通用模型：适用于大多数场景，识别准确率平衡
专业模型：针对特定场景优化，如安静环境、嘈杂环境等
多语言模型：支持多种语言的识别

选择建议：

根据产品应用场景选择
考虑存储空间限制
平衡识别准确率和资源消耗

参考来源：智能公元平台帮助文档

自然说¶

自然说功能允许用户使用更自然的语言表达方式，而不必严格按照预定义的命令词格式。

功能说明：

支持命令词的泛化识别
用户可以用不同的表达方式触发同一功能
提升用户体验和交互自然度

配置方式：

系统自动泛化：系统自动识别相似表达
用户指定泛化：用户可以手动添加泛化词
系统自动泛化 + 用户指定泛化：结合两种方式

使用限制：

开启自然说功能后，一个行为仅允许设置一个命令词
但可以设置多个泛化词来扩展识别范围

配置建议：

根据产品定位和用户群体选择是否开启
泛化词应覆盖用户常用的表达方式
注意避免过度泛化导致误识别

参考来源：智能公元平台帮助文档

定时器¶

定时器功能允许设备在指定时间执行预设的操作或提醒。

功能说明：

支持单次定时和循环定时
可以设置定时执行命令或播放提醒
适用于智能家居、提醒设备等场景

配置选项：

定时时间：设置具体的执行时间
重复模式：单次、每天、每周等
执行动作：播放语音、执行命令等
提醒内容：自定义提醒文本或音频

使用场景：

闹钟提醒
定时控制家电
定时播报信息
定时任务执行

参考来源：智能公元平台帮助文档

蓝牙音乐¶

蓝牙音乐功能允许设备通过蓝牙连接播放音乐。

功能说明：

支持蓝牙音频传输
可以作为蓝牙音箱使用
可以与语音控制功能结合

配置选项：

蓝牙配对：设备配对设置
音频输出：音频输出配置
控制命令：语音控制播放、暂停、切换等

使用场景：

智能音箱
蓝牙音响设备
音乐播放器

注意事项：

需要硬件支持蓝牙功能
注意蓝牙版本兼容性
音频质量与蓝牙版本相关

参考来源：智能公元平台帮助文档

烧录¶

烧录是指将固件程序写入到设备芯片中的过程。

功能说明：

将编译好的固件烧录到设备
不同模组有不同的烧录方式
需要专用的烧录工具和软件

烧录方式：

USB 烧录：通过 USB 接口连接设备进行烧录
串口烧录：通过串口进行烧录
OTA 升级：通过无线方式更新固件

注意事项：

确保使用正确的烧录工具和固件版本
烧录过程中不要断电
不同模组的烧录方法可能不同，请参考对应模组的烧录文档

参考文档：

各模组的烧录指引文档
烧录工具使用说明

参考来源：智能公元平台帮助文档

咪头 / 麦克风¶

咪头（麦克风）是语音识别设备的音频输入组件，负责采集环境中的声音信号。

功能说明：

将声音信号转换为电信号
麦克风的质量和配置直接影响识别效果
支持单 MIC 和双 MIC 配置

配置类型：

单 MIC：单个麦克风配置，成本较低
双 MIC：两个麦克风配置，支持降噪和声源定位

选择建议：

单 MIC：适用于成本敏感、环境简单的场景
双 MIC：适用于需要降噪、声源定位等高级功能的场景

算法说明：

双麦算法是固定封装在固件中的，用于降噪和声源定位
平台配置只能选择是否启用双麦功能，无法调整算法参数
如需进一步优化或定制双麦算法参数，需要通过 SDK 进行二次开发

安装注意事项：

麦克风位置要避免遮挡
注意防尘和防水设计
麦克风方向性要与产品设计匹配
避免与扬声器产生反馈

技术参数：

灵敏度
频率响应范围
信噪比
指向性

参考来源：智能公元平台帮助文档

喇叭 / 扬声器¶

喇叭（扬声器）是语音识别设备的音频输出组件，负责播放语音回复和提示音。

功能说明：

将电信号转换为声音信号
播放设备回复、提示音、音乐等
音质影响用户体验

配置选项：

发音人选择：不同声音风格的发音人
音量调节：可调节音量大小
语速调节：可调节语音播报速度
音调调节：可调节语音音调

选择建议：

根据产品定位选择合适的发音人
音量要适中，避免过大或过小
语速要清晰易懂
注意与麦克风的隔离，避免反馈

技术参数：

功率
频率响应范围
阻抗
灵敏度

安装注意事项：

扬声器位置要合理，确保声音清晰
注意与麦克风的隔离设计
考虑防尘和防水需求
避免共振和杂音

参考来源：智能公元平台帮助文档

小语种¶

小语种功能支持除中文和英文外的其他语言识别。

功能说明：

支持多种小语种的语音识别
不同模组支持的语言可能不同
需要选择对应的声学模型

支持语言：

具体支持的语言列表请参考平台配置页面
不同模组和固件版本支持的语言可能不同

配置建议：

根据目标市场选择支持的语言
注意语言模型的存储空间占用
部分语言可能需要额外的模型文件

注意事项：

小语种支持可能影响固件大小
多语言支持可能降低单语言识别准确率
建议根据实际需求选择

参考来源：智能公元平台帮助文档

SDK & 固件¶

SDK（Software Development Kit）和固件是开发智能语音设备的基础。

SDK¶

功能说明：

提供语音识别的软件开发工具包
包含 API 接口和示例代码
支持二次开发和定制

主要内容：

API 接口文档
开发示例代码
配置工具
调试工具

使用建议：

参考 SDK 文档进行开发
使用示例代码作为起点
根据需求进行定制开发

固件¶

功能说明：

设备的系统软件
包含语音识别引擎和功能模块
通过烧录方式安装到设备

固件类型：

标准固件：平台提供的标准功能固件
定制固件：根据需求定制的固件
示例固件：用于学习和测试的示例固件

更新方式：

USB 烧录
串口烧录
OTA 无线升级（部分模组支持）

注意事项：

确保使用正确的固件版本
固件版本要与硬件版本匹配
更新前做好备份

参考来源：智能公元平台帮助文档

其他问题¶

本节收集了其他常见问题和解答。

常见问题分类¶

配置相关问题
- 如何选择合适的配置参数？
- 配置后如何验证效果？
硬件相关问题
- 麦克风和扬声器的选型建议
- 硬件连接和安装注意事项
开发相关问题
- SDK 使用问题
- 固件开发问题
- 调试方法
性能优化问题
- 如何提升识别准确率？
- 如何降低误识别率？
- 如何优化响应速度？
故障排查问题
- 设备无法唤醒
- 识别不准确
- 无声音输出

获取帮助¶

如遇到其他问题，可以通过以下方式获取帮助：

访问智能公元平台帮助中心
查看对应模组的技术文档
联系技术支持

参考来源：智能公元平台帮助文档

参考资料¶

本文档内容整理自智能公元平台帮助文档：

主要来源：常见问题 - 智能公元平台
文档中心：机芯智能文档中心
最后更新：请以官方文档为准

注意：本文档内容仅供参考，具体配置和功能支持情况请以智能公元平台实际显示为准。不同模组和固件版本的功能支持可能有所不同。