# 聲音特徴辨識
[toc]
## ~~聲音特徴提取~~
## ~~改變聲音特徴~~
## 音頻分類
介紹[YAMNet](https://github.com/tensorflow/models/tree/master/research/audioset/yamnet)及其使用
### 音頻檔格式
- 壓縮格式
.wav .mp3 .alac
- 壓縮率
- 有損失
- 取樣率
- 44100Hz, 20s
![](https://hackmd.mcl.math.ncu.edu.tw/uploads/upload_009abcc3898785cff15c873f7e7787f5.png)
- 16000Hz, 5s
![](https://hackmd.mcl.math.ncu.edu.tw/uploads/upload_1c245e3a2a366a81465568e51391b38c.png)
### 前處理
- #### 調整取樣率
將固定時距之數據量調整一致
- #### 傅立葉變換
- 為什麼使用
在波形圖中 很難視覺化分析其中的特徴
如以下兩圖中 我們幾乎不能區別兩者的差異
而在傅立葉變換後 就可以輕鬆發現女聲在高頻部分的強度較高,男聲則反之
![](https://hackmd.mcl.math.ncu.edu.tw/uploads/upload_85f109478a851cb20ebe08d5b8135606.png)
來源:[圖解傅立葉分析](https://hackmd.io/@sysprog/fourier-transform)
- 原理
傅立葉變換的理念是任一連續函數可以表示為若干個不同頻率的週期函數來表示
![](https://hackmd.mcl.math.ncu.edu.tw/uploads/upload_efa2a85537c4ce0cbc082037caa98619.png)
[(c) P. Strumiłło, M. Strzelecki](http://mstrzel.eletel.p.lodz.pl/mstrzel/pattern_rec/fft_ang.pdf)
- #### 窗函數切割
在傅立葉變換中,頻譜圖所呈現的是整個音頻檔的頻率所佔的強度
但是,當我們考慮某一部分音頻的時候,這些都是干擾的存在
所以需要窗函數來提取特定區間之音頻訊號
![](https://hackmd.mcl.math.ncu.edu.tw/uploads/upload_79ec3279ac226623b40a66ec5377fbb6.png)
- #### 短時距傅立葉變換(STFT)
使用此種分析方法的即為頻譜分析
先使用窗函數將音頻訊號切割成若干等時距的小片段,再將其分別進行傅立葉轉換,即會產出對應頻譜
![](https://codimd.mcl.math.ncu.edu.tw/uploads/upload_06446be61a906e4852fba6b62080d4fd.png)
如圖,橫軸為切割片段,縱軸為頻率音頻,強度以亮度表示
#### 梅爾倒頻譜
其中,梅爾倒頻譜為常被使用的分析方法,使用特定的窗函數使得人聲部分被較大程度的凸顯
### 模型
YAMNet採用了類神經網路作為模型
![](https://hackmd.mcl.math.ncu.edu.tw/uploads/upload_6e0e2b13d044d2049d846836a8922f60.png)