目前先汇报下项目状况
1.完成声源定位
2.完成基于树莓派5的人脸识别
3.完成基于树莓派5的语音识别,对接chatgpt,语音合成
4.完成STM32控制无刷电机
5.完成STM32和树莓派5和声源定位部分的通信
这篇演示下语音交互部分
主要利用树莓派5配合USB录音器和蓝牙音箱实现语音交互。首先通过按钮的按下为开关,按下就开始录音,录制10s的声音,然后通过语音识别的api,识别成文字,文字再发送到Chatgpt的api接口,获得回复的文字,最后再把文字发送到语音生成的api,最后生成pcm格式的语音文件,再通过蓝牙音箱播放出来。
前面那个屏幕是个眼睛吗?
引用: 秦天qintian0303 发表于 2024-10-22 09:09 交互语音需要机器学习吗?是固定的语句还是智能识别
不用学习,智能识别,我是把录音录制好,然后发api去识别,然后发chatgpt,然后再把回复语音合成
引用: wangerxian 发表于 2024-10-21 15:22 前面那个屏幕是个眼睛吗?
嗯,为了方便看机器人会声源定位跟随方向,会人脸识别,跟随方向。所以专门弄了个屏幕来显示
引用: 4284248 发表于 2024-10-23 00:43 嗯,为了方便看机器人会声源定位跟随方向,会人脸识别,跟随方向。所以专门弄了个屏幕来显示
屏幕是用单片机驱动的吗?
引用: wangerxian 发表于 2024-10-23 09:06 屏幕是用单片机驱动的吗?
是
有用什么GUI框架吗?
引用: wangerxian 发表于 2024-10-23 16:50 有用什么GUI框架吗?
只是简单的显示图片