audio.md

Akagi201

1/8/2015 - 4:39 PM

Rendered
Source

tools

Adobe Audition cc
https://www.ocenaudio.com/
https://sourceforge.net/projects/audacity/

book

https://jan.newmarch.name/LinuxSound/

语义处理

https://api.ai/
IBM Bluemix Waston.（自然语义这方面绝对领先水平
siri

音频可视库

http://www.jcodecraeer.com/a/anzhuokaifa/androidkaifa/2016/0406/4123.html

arecord

声波支付原理

http://v2ex.com/t/227157#reply52

python

https://people.csail.mit.edu/hubert/pyaudio/

录音

用 cat 就可以了: cat /dev/audio > test0.au, 按 ctrl + c 停止录音
用dd也可以: dd if=/dev/audio of=test01.au bs=1m count=1
arecord -Dplughw:1,0 -f cd -d 10 k.wav

库

技术要点：

语音到文本(STT)引擎: Sphinx: 李开复当年在卡内基梅隆做的语音识别项目，现在已经有很多分支了 PocketSphinx: 微软在Sphinx基础上开发的更适于嵌入式设备的项目 Simon: KDE的项目 HTK: 隐马尔可夫模型(HMM)工具包，用于构建语音合成、识别、训练的基础库

文本到语音(TTS)引擎: Festival/Flite: 著名的语音合成系统 eSpeak: 开源的语音合成 FreeTTS: 卡内基梅隆大学搞的，基于Flite的语音合成 hts_engine: 基于HTK的，以隐马尔可夫模型(HMM)为基础的语音合成、训练的基础库

标签(智能): AIML:人工智能标记语言，例如PyAIML、AIMLBot

有上面这些，加上少量的自己的开发，就可以简单搞出一个类似Siri的系统。

但是Siri这些大部分都是基于云端的，比如语音是通过Speex压缩后扔到服务端解析的，那些可能会有更精确的降噪、识别、语义解析、问答系统、大量的训练数据什么的来支撑，这些才是语音助手的核心，自己一个人搞来玩玩的系统根本赶不上。。。

linux上音频编程

wav与pcm区别

http://www.jianshu.com/p/1d1f893e53e9

alsa

http://stackoverflow.com/questions/7088672/pyaudio-working-but-spits-out-error-messages-each-time

mpg123

http://linux.topology.org/mpg123.html
export LD_LIBRARY_PATH="${LD_LIBRARY_PATH}:/usr/local/lib:/usr/local/lib/mpg123"

百度语音

http://bbs.itbookstudy.com/t/242/1/1

audio tools

https://rogueamoeba.com/

Linux的OSS和ALSA声音系统简介及其比较

http://ibillxia.github.io/blog/2013/09/08/brief-introduction-of-alsa-and-oss-and-its-comparision/

Cacher is the code snippet organizer for pro developers

We empower you and your team to get more done, faster