Akagi201
1/8/2015 - 4:39 PM

audio.md

tools

book

语义处理

  • https://api.ai/
  • IBM Bluemix Waston.(自然语义这方面绝对领先水平
  • siri

音频可视库

arecord

声波支付原理

python

录音

  • 用 cat 就可以了: cat /dev/audio > test0.au, 按 ctrl + c 停止录音
  • 用dd也可以: dd if=/dev/audio of=test01.au bs=1m count=1
  • arecord -Dplughw:1,0 -f cd -d 10 k.wav

技术要点:

语音到文本(STT)引擎: Sphinx: 李开复当年在卡内基梅隆做的语音识别项目,现在已经有很多分支了 PocketSphinx: 微软在Sphinx基础上开发的更适于嵌入式设备的项目 Simon: KDE的项目 HTK: 隐马尔可夫模型(HMM)工具包,用于构建语音合成、识别、训练的基础库

文本到语音(TTS)引擎: Festival/Flite: 著名的语音合成系统 eSpeak: 开源的语音合成 FreeTTS: 卡内基梅隆大学搞的,基于Flite的语音合成 hts_engine: 基于HTK的,以隐马尔可夫模型(HMM)为基础的语音合成、训练的基础库

标签(智能): AIML:人工智能标记语言,例如PyAIML、AIMLBot

有上面这些,加上少量的自己的开发,就可以简单搞出一个类似Siri的系统。

但是Siri这些大部分都是基于云端的,比如语音是通过Speex压缩后扔到服务端解析的,那些可能会有更精确的降噪、识别、语义解析、问答系统、大量的训练数据什么的来支撑,这些才是语音助手的核心,自己一个人搞来玩玩的系统根本赶不上。。。

linux上音频编程

wav与pcm区别

alsa

mpg123

百度语音

audio tools

Linux的OSS和ALSA声音系统简介及其比较