古詩詞大全網 - 成語故事 - 語音識別的過程是什麽?語音識別的方法有哪幾種?

語音識別的過程是什麽?語音識別的方法有哪幾種?

語音識別的過程和方法具體如下:

語音識別過程

1、語音信號采集

語音信號采集是語音信號處理的前提。語音通常通過話筒輸入計算機。話筒將聲波轉換為電壓信號,然後通過A/D裝置(如聲卡)進行采樣,從而將連續的電壓信號轉換為計算機能夠處理的數字信號。

目前多媒體計算機已經非常普及,聲卡、音箱、話筒等已是個人計算機的基本設備。其中聲卡是計算機對語音信進行加工的重要部件,它具有對信號濾波、放大、A/D和D/A轉換等功能。而且,現代操作系統都附帶錄音軟件,通過它可以驅動聲卡采集語音信號並保存為語音文件。

對於現場環境不好,或者空間受到限制,特別是對於許多專用設備,目前廣泛采用基於單片機、DSP芯片的語音信號采集與處理系統。

2、語音信號預處理

語音信號號在采集後首先要進行濾波、A/D變換,預加重(Preemphasis)和端點檢測等預處理,然後才能進入識別、合成、增強等實際應用。

濾波的目的有兩個:壹是抑制輸入信號中頻率超出//2的所有分量(/:為采樣頻率),以防止混疊幹擾;二是抑制50Hz的電源工頻幹擾。因此,濾波器應該是壹個帶通濾波器。

A/D變換是將語音模擬信號轉換為數字信號。A/D變換中要對信號進行量化,量化後的信號值與原信號值之間的差值為量化誤差,又稱為量化噪聲。

預加重處理的目的是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,便於頻譜分析。

端點檢測是從包含語音的壹段信號中確定出語音的起點和終點。有效的端點檢測不僅能減少處理時間,而且能排除無聲段的噪聲幹擾。目前主要有兩類方法:時域特征方法和頻域特征方法。

時域特征方法是利用語音音量和過零率進行端點檢測,計算量小,但對氣音會造成誤判,不同的音量計算也會造成檢測結果不同。頻域特征方法是用聲音的頻譜的變異和熵的檢測進行語音檢測,計算量較大。

3、語音信號的特征參數提取

人說話的頻率在10kHz以下。根據香農采樣定理,為了使語音信號的采樣數據中包含所需單詞的信息,計算機的采樣頻率應是需要記錄的語音信號中包含的最高語音頻率的兩倍以上。

壹般將信號分割成若幹塊,信號的每個塊稱為幀,為了保證可能落在幀邊緣的重要信息不會丟失,應該使幀有重疊。例如,當使用20kH的采樣面率時,標準的壹幀為10ms,包含200個采樣值。

話筒等語音輸入設備可以采集到聲波波形,雖然這些聲音的波形包含了所需單詞的信息,但用肉眼觀察這些波形卻得不到多少信息因此,需要從采樣數據中抽取那些能夠幫助辨別單詞的特征信息。在語音識別中,常用線性預測編碼技術抽取語音特征。

線性預測編碼的基本思想是:語音信號采樣點之間存在相關性,可用過去的若幹采樣點的線性組合預測當前和將來的采樣點值。線性預測系數埽以通過使預測信號和實際信號之間的均方誤差最小來唯壹確定。

語音線性預測系數作為語音信號的壹種特征參數,已經廣泛應用於語音處理各個領域。

4、向置量化

向量量化(Vector Quantization,VQ)技術是20世紀W年代後期發展起來的壹種數據壓縮和編碼技術。經過向量量化的特征向量也可以作為後面隱馬爾可夫模型中的輸入觀察符號。

在標量量化中整個動態範圍被分成若幹個小區間,每個小區間有壹個代表值,對於壹個輸入的標量信號,量化時落入小區間的值就用這個代表值>[戈替。因為這時的信號量是壹維的標量,所以稱為標量量化。

向量量化的概念是用線性空間的觀點,把標量改為壹維的向量,對向量進行量化。和標量量化壹樣,向量量化是把向量空間分成若幹個小區域,每個小區域尋找壹個代表向量,量化時落入小區域的向量就用這個代表向量代替。

向量量化的基本原理是將若幹個標量數據組成壹個向量(或者是從壹幀語音數據中提取的特征向量)在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數據量。

語音識別

1、模板(template)匹配法

在訓練階段,用戶將詞匯表中的每壹個詞依次說壹遍,並且將其特征向量作為模板存入模板庫。在識別階段,將輸入語音的特征向量序列,依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。

2、隨機模型法

隨機模型法是目前語音識別研究的主流。其突出的代表是隱馬爾可夫模型。語音信號在足夠短的時間段上的信號特征近似於穩定,而總的過程可看成是依次相對穩定的某壹特性過渡到另壹特性。隱馬爾可夫模型則用概率統計的方法來描述這樣壹種時變的過程。

3、概率語法分析法

這種方法是用於大長度範圍的連續語音識別。語音學家通過研究不同的語音語譜圖及其變化發現,雖然不同的人說同壹些語音時,相應的語譜及其變化有種種差異,但是總有壹些***同的特點足以使他們區別於其他語音,也即語音學家提出的“區別性特征”。

另壹方面,人類的語言要受詞法、語法、語義等約束,人在識別語音的過程中充分應用了這些約束以及對話環境的有關信息。

於是,將語音識別專家提出的“區別性特征”與來自構詞、句法、語義等語用約束相互結合,就可以構成壹個“自底向上”或“自頂向下”的交互作用的知識系統,不同層次的知識可以用若幹規則來描述。