首页

技术: 模拟电子; 单片机; 半导体; 电源管理; 嵌入式; 传感器; 最能打国产芯

应用: 汽车电子; 工业控制; 家用电子; 手机便携; 安防电子; 医疗电子; 网络通信; 测试测量; 物联网; 最能打国产芯

大学堂: 首页; 直播; 专题; TI 培训

论坛: 汽车电子; 国产芯片; 电机驱动控制; 电源技术; 单片机; 模拟电子; PCB设计; 电子竞赛; DIY/开源; 嵌入式系统; 医疗电子; 颁奖专区; 【厂商专区】; 【电子技术】; 【创意与实践】; 【行业应用】; 【休息一下】; 最能打国产芯

活动中心: 直播; 发现活动; 颁奖区

电子头条

参考设计

下载中心: 分类资源; 文集; 排行榜; 电路图

Datasheet: 最能打国产芯

玄铁RISC-V活动专区

[问题讨论] 【平头哥RVB2601创意应用开发】七、RVB2601之声音识别初试

kit7828 2022-4-7 09:49 楼主

申请平头哥项目用的是语音识别，也一直尝试做语音识别，但在嵌入式开发板中尝试，还是难度太高。

用的是出ch2601_ft_demo例程，ft_demo实现了声音的录取和回放，程序空间中给语音数据提供48K的空间在ft_demo的例程中，去除了多次回放，然后对录取的48K语音数据进行了分帧处理，为方便操作，用了128个字节作为一帧，大概16ms，因为采样率是8K。

然后对每帧的数据进行中值滤波，滤波后检测其绝对能量和过零率，得到了每帧的能量和过零数据。

printf("\n Frame_Pow: ");
		
		for(i=0;i<384;i++){
			FrameSum = 64;
			for(j=0;j<FrameSize;j++){
				FrameSum += repeater_data_addr[i*FrameSize+j];
			}
			FrameSum =  FrameSum >> 7;
			FramePow = 64;
			for(j=0;j<FrameSize;j++){
				if(repeater_data_addr[i*FrameSize+j] >= FrameSum)
					repeater_data_addr[i*FrameSize+j] -= FrameSum;
				else 
					repeater_data_addr[i*FrameSize+j] = FrameSum - repeater_data_addr[i*FrameSize+j] + 128;
				FramePow += repeater_data_addr[i*FrameSize+j] & 0x7F;
			}
			Frame_Pow[i] = FramePow >> 7;
			if(Frame_Pow[i] > MaxPow) MaxPow = Frame_Pow[i];
			
			Frame_Zero[i] = 0;
			k = repeater_data_addr[i*FrameSize] & 0x80;
			for(j=0;j<FrameSize -1;j++){
				n = repeater_data_addr[i*FrameSize+j+1] & 0x80;
				if(k!=n) {
					k = n;
					Frame_Zero[i] ++;
				}
			}
			printf("[%d,%d],", Frame_Pow[i], Frame_Zero[i]);
		}

具体评测中发现，语音这边，只能测试3次，3次之后就会自动重启，不知道是不是看门狗起了作用？

想简单的对这两组数据进行识别，发现还是太天真了，

差异很大

离线的语音识别，看来难度不小啊。估计很难在评测的时间内完成了，不知道坛友们有啥建议？

点赞

回复评论（14）

沙发 wangerxian

用本地方式进行声音识别不好实现，最好是将声音数据传到服务器让它进行识别，然后再把识别结果发给单片机。

点赞 2022-4-7 11:02

板凳 lugl4313820

发给第三方识别是不是要收费的，能不能自己用开源项目来做？

点赞 2022-4-7 16:01

4楼 wangerxian

引用: lugl4313820 发表于 2022-4-7 16:01 发给第三方识别是不是要收费的，能不能自己用开源项目来做？

之前用过Python的语音识别库，识别结果不忍直视！

点赞 2022-4-7 18:21

5楼吾妻思萌

单纯让小板子进行识别恐怕难度不是一星半点，不如转而让板子把语音发到服务器进行识别和解析，就像输入法那样，发一个语音包然后从服务器回传一个识别好的字符串然后本地进行自然语言处理，拆字语义分析啥的。

点赞 2022-4-7 22:57

6楼 kit7828

引用: 吾妻思萌发表于 2022-4-7 22:57 单纯让小板子进行识别恐怕难度不是一星半点，不如转而让板子把语音发到服务器进行识别和解析，就像输 ...

如果传到服务器识别的话，应该可以直接把结果发给小板子了，语义分析都可以在服务器完成

点赞 (1) 2022-4-8 17:37

7楼 kit7828

引用: wangerxian 发表于 2022-4-7 11:02 用本地方式进行声音识别不好实现，最好是将声音数据传到服务器让它进行识别，然后再把识别结果发给单片机。 ...

应该要用spss或者matlab分析一下相关性等，然后再来实现

点赞 2022-4-8 17:40

8楼吾妻思萌

引用: lugl4313820 发表于 2022-4-7 16:01 发给第三方识别是不是要收费的，能不能自己用开源项目来做？

某度某讯有每月多少条免费的获取token 然后有接口就能每月传语音进去的

点赞 2022-4-8 22:17

9楼 hayden.

可以参考esp32的离线语音识别，开源的

点赞 2022-4-8 22:32

10楼 wangerxian

引用: hayden. 发表于 2022-4-8 22:32 可以参考esp32的离线语音识别，开源的

ESP32的离线语音识别是不是需要官网训练模型？

点赞 2022-4-9 09:41

11楼 wangerxian

引用: kit7828 发表于 2022-4-8 17:40 应该要用spss或者matlab分析一下相关性等，然后再来实现

那如果要本地的话，就需要单片机运行相关算法，那这款单片机算力应该不行。

点赞 2022-4-9 09:42

12楼 kit7828

引用: wangerxian 发表于 2022-4-9 09:42 那如果要本地的话，就需要单片机运行相关算法，那这款单片机算力应该不行。

谢谢提醒，离线的识别感觉应该还有很多应用场合

点赞 2022-4-11 14:48

13楼 kit7828

引用: hayden. 发表于 2022-4-8 22:32 可以参考esp32的离线语音识别，开源的

有地址吗?有的话，辛苦提供一下

点赞 2022-4-11 14:49

14楼 kit7828

引用: 吾妻思萌发表于 2022-4-8 22:17 某度某讯有每月多少条免费的获取token 然后有接口就能每月传语音进去的

好的，以前好像在这个某度看到过

点赞 2022-4-11 14:50

15楼 sipower

https://occ.t-head.cn/community/post/detail?spm=a2c6h.12873639.article-detail.5.41b02ed0x0yJaQ&id=4018742358014234624

这个同学已经实现了，你可以参考一下

点赞 2022-4-15 21:28

最新活动

是德科技有奖直播 | 应对未来高速算力芯片的设计与测试挑战

免费申请 | 上百份MPS MIE模块，免费试用还有礼！

TI 有奖直播 | 使用基于 Arm 的 AM6xA 处理器设计智能化楼宇

Follow me第二季第3期来啦！与得捷一起解锁高性能开发板【EK-RA6M5】超能力！

报名直播赢【双肩包、京东卡、水杯】| 高可靠性IGBT的新选择——安世半导体650V IGBT

30套RV1106 Linux开发板（带摄像头），邀您动手挑战边缘AI~

随便看看

MSP430外设C语言精讲

工程师必懂：pcb layout 前必须考虑的“5种”生产工艺！

WINCE 5.0 待机恢复的问题，最后回不到C中

最后还是折腾出来了

12

Vishay发布业内首款在单片器件内集成了信号探测和处理功能的学习型遥控码IC

MSP430F5529白富美板卡出售或交换

无线通讯技术(华为).pdf

基于Virtex-5FPGA的系统监测器设计

我的TVP5147输出的图象怎么老是偏屏？那些HSYNC，VSYNC，AVID，VBLK参数要怎么设置啊？！不懂配置的原理。

电力设备支持snmp v1是不是落后了，能否跟v3兼容？

为什么我们缺少特立独行的人生态度？

R7F0C802x Easy Start ----计步器的原理

TI的新器件 ----- 大电流双运放ALM2402

发电机输出只有N线？

电机驱动ULN2003能不能两路并联增加输出能力？

视频图像处理

pspice图文教程

电子工程世界版权所有京B2-20211791 京ICP备10001474号-1

京公网安备 11010802033920号

写回复