cat /dev/audio > test0.au
, 按 ctrl + c
停止录音dd if=/dev/audio of=test01.au bs=1m count=1
arecord -Dplughw:1,0 -f cd -d 10 k.wav
技术要点:
语音到文本(STT)引擎: Sphinx: 李开复当年在卡内基梅隆做的语音识别项目,现在已经有很多分支了 PocketSphinx: 微软在Sphinx基础上开发的更适于嵌入式设备的项目 Simon: KDE的项目 HTK: 隐马尔可夫模型(HMM)工具包,用于构建语音合成、识别、训练的基础库
文本到语音(TTS)引擎: Festival/Flite: 著名的语音合成系统 eSpeak: 开源的语音合成 FreeTTS: 卡内基梅隆大学搞的,基于Flite的语音合成 hts_engine: 基于HTK的,以隐马尔可夫模型(HMM)为基础的语音合成、训练的基础库
标签(智能): AIML:人工智能标记语言,例如PyAIML、AIMLBot
有上面这些,加上少量的自己的开发,就可以简单搞出一个类似Siri的系统。
但是Siri这些大部分都是基于云端的,比如语音是通过Speex压缩后扔到服务端解析的,那些可能会有更精确的降噪、识别、语义解析、问答系统、大量的训练数据什么的来支撑,这些才是语音助手的核心,自己一个人搞来玩玩的系统根本赶不上。。。
export LD_LIBRARY_PATH="${LD_LIBRARY_PATH}:/usr/local/lib:/usr/local/lib/mpg123"