古詩詞大全網 - 成語故事 - 音頻流簡介及詳細資料

音頻流簡介及詳細資料

研究背景 簡介

壹直以來,音頻數據本身僅僅是壹連串非語義符號表示的不透明二進制流,缺乏對聲音類型結構化組織和高層語義的描述,給音頻信號的深入處理和分析工作帶來了諸多困難,使自動語音識別(Automatic Speech Recognition,ASR)和基於內容的音頻檢索(Content-Based Audio Retrieval,CBAR)等套用受到了極大限制。如何從連續音頻流信號中提取音頻類型的結構化信息,將其按語音、音樂和環境音等不同的聲學類型切分成類別單壹的音頻片段,標註出各音頻片段的分界點位置和類型信息,即連續音頻流分類,是解決音頻信息深度處理、分析和檢索等問題的關鍵技術和基礎前提,同時也是輔助視頻信號自動切分和分類的強有力的工具,有著廣泛的套用前景。

結構化信息

連續音頻流分類給出的音頻類型結構化信息,是建立音頻資料庫索引、實現底層結構單元向高層語義結構單元關聯的基礎。CBAR技術通常要分析音頻流的結構和語義,從不同類型的音頻信號中提取高層語義信息,如對語音部分抽取關鍵字,建立它們的結構化的組織和索引,使"無序"的音頻流變得"有序",以便於用戶的檢索和瀏覽。可見,如果不知道音頻流的所包含的聲音類別和及其位置信息,高層語義的提取根本無從談起。

相關介紹

連續音頻流分類技術可以作為視頻鏡頭自動分割和分類的有效的輔助工具。由於受技術發展的限制,單獨依靠現有的圖像和視頻處理技術還不能使計算機"理解"視頻的內容,視頻鏡頭切分精確度也不高,不能對故事單元進行基於內容的分類。如果利用連續音頻流分類技術將視頻流所對應的音頻進行切分,利用較實用的語音識別技術對其中的語音部分進行語音識別,利用已經比較成熟的全文檢索技術對語音識別結果進行處理,提取文本摘要,則可以較好地解決這些問題。音視頻編輯領域的知識和壹些基本規則告訴我們,如果視頻流所對應的音頻類型沒有發生變化,其對應的視頻可以不進行分割處理。因此通過對音頻流恰當的切分,可以大大提高視頻的分割效率和準確率。

此外,連續流音頻流分類技術還可以用在音頻內容理解(Audio Content Understanding)、音頻監測(Audio Surveillance)和音頻場景分析(Audio Scene Analysis)等領域。總之,音頻數據自身的特點和現有技術的制約,使得對音頻流的進壹步處理受到了限制,而連續音頻流分類技術可以很好解決這壹問題,為音頻流結構化和音頻信息深度分析和利用提供了堅實的基礎。

分類技術

利用連續音頻流分類技術可以為ASR提供單壹的語音片段,是現有語音識別系統走向實際套用的先決條件之壹。現有的連續語音識別系統對輸入語音信號的要求近乎苛刻,壹般不僅不能包含諸如音樂、環境音等其它種類的聲音,而且要有較高的信噪比。ASR則要求對現實生活中的音頻流如廣播新聞,影視、會議、演講等錄音進行自動轉錄(Transcribe),生成包含語義內容、位置和其它信息的"抄本"(Transcription)。我們知道,以上列舉出的這些音頻流通常由語音和其它類型的聲音連線而成,如果不對其預先分段並去除非語音部分,必定會對語音識別系統的性能產生嚴重的影響。

流媒體 定義

流媒體就是指在網路上使用流式傳輸技術的連續時基媒體,是通過網路傳輸的音頻、視頻或多媒體檔案。關鍵是流式傳輸技術,流式傳輸主要指通過網路傳送媒體(如視頻、音頻)的技術總稱,其特定含義為通過網路將影音節目傳送到PC單機。

實現流式傳輸分兩種方法:實時流式傳輸方式(Realtime streaming)和順序流式傳輸方式(progressive streaming)。

常用格式

網路上常見的流格式音頻的格式主要有美國Realneork公司的*.RA格式和微軟公司的*.WMA格式,另外還有壹個多用於專業領域的美國蘋果公司*.MOV格式,在這三種格式中,MOV格式的音質是最好的,特別是MIDI方面,支持GS和GM兩種音色,播放效果要明顯的強於Windows media player,下面就給大家詳細的介紹這幾種格式的特點:

RealAudio格式

這是美國RealNeork公司的壹個元老級的產品,也是目前網上最流行的流式媒體技術。許多Inter的音樂臺、視頻點播站點都采用它。RealMedia其中包含RealAudio(聲音檔案)、RealVideo(視頻檔案)和RealFlash(矢量動畫)這三類檔案。

QuickTime 格式

QuickTime與RealMedia壹樣,完合兼容於蘋果機與PC機。在同樣網速和檔案大小的情況下,它的音像品質是最好的。它由三個不同部分所組成:QuickTime Movie(電影)檔案格式,QuickTime媒體抽象層、QuickTime內置媒體服務系統。

Windows Media Audio格式

WMA(Windows Media Audio)是來自於微軟的重量級選手,它的前身是微軟公司的Netshow,後臺強硬,也是為數眾多Windows使用者最為熟悉的,它的核心技術是ASF(Advanced Streaming Format,高級流格式)。ASF格式支持任意的壓縮/解壓縮編碼方式,並可以使用任何壹種底層網路傳輸協定,具有很大的靈活性,比較MPEG之類的壓縮標準增加了控制命令腳本的功能,它以減少數據流量但保持檔案質量的方法來實現流式多媒體內容發布。

網路上風行的FLASH雖然是矢量動畫技術,可是它壹樣的可以包含聲音信息,也支持流式傳輸,高品質FLASH的SWF格式檔案聲音更加出眾,而且檔案體積更小,也有使用這種技術做的音樂網站,在欣賞的時候需要妳安裝壹個FLASH的外掛程式,以2013年的網路速度而言,區區幾百KB的FLASH外掛程式壹會兒的工夫就可以安裝完成,然後妳就可以欣賞SWF格式的音樂了。

流媒體傳輸協定

在瀏覽器中,我們常見的地址是以:和ftp:開頭的。Web伺服器也可以通過協定來處理流式媒體檔案,然而Web伺服器本身的設計並不能有效率地傳送串流媒體檔案。

串流媒體必須占用壹個不間斷地封包串流,而且會長時間地與伺服器保持連線狀態,如果有太多訪客同時上線觀看,效能便會大打折扣。為了解決這個問題,流格式媒體檔案有它自己的壹套協定。

1、即時串流通訊協定(Real Time Streaming Protocol,RTSP):是RealNeorks公司協助建立的壹個用來傳送串流媒體的開放網頁標準。雖然它必須使用壹種稱為RealServer的特殊伺服器,然而RTSP能夠提升流式媒體影片的品質,改善傳送效率以及提供更佳的高流量處理功能。如果妳的ISP具備了RealServer服務,那麽建議妳使用RealServer而不要使用Web伺服器來傳送串流媒體檔案。

2、MMS(Media Server protocol,MMS):這是微軟定義的壹種流格式傳輸協定。

3、實時傳輸協定(Theater Server protocol,RTP):這是用於Inter上針對多媒體數據流的壹種傳輸協定。RTP被定義為在壹對壹或壹對多的傳輸情況下工作,其目的是提供時間信息和實現流同步,通俗的說也就是網路上的WEB伺服器。

4、資源預訂協定(ResourceReserveProtocol,RSVP),由於音頻和視頻數據流比傳統數據對網路的延時更敏感,要在網路中傳輸高質量的音頻、視頻信息,除頻寬要求之外,還需其他更多的條件。RSVP是正在開發的Inter上的資源預訂協定,使用RSVP預留壹部分網路資源(即頻寬)。

這些協定代替了和ftp,而是像mms:61.139.25.41/quake,以MMS或RTSP等開頭。

播放器

以上三種格式各有各的播放器,它們分別是RealPlayer、QuickTime Player和Windows Media Player。

1、RealPlayer

Real格式具有很高的壓縮比和良好的壓縮傳輸能力,特別適合網路上播放或是線上直播方式,在視頻流媒體格式中RM格式是素質最差的,可是檔案也是最小的,低速網用戶(非ADSL和寬頻網用戶)也可以很輕松地線上欣賞視頻節目。RealPlay播放器使用也非常方便,系統的資源占用在其他二者之間,是低配置用戶的最好選擇。憑著ReaNeorks公司優秀的技術,它已占領了半數以上的網上流式視音頻點播市場。

2、QuickTime Player

QuickTime Player可以通過Inter提供實時的數位化信息流、工作流與檔案回放功能。QuickTime檔案的素質極高,缺點是檔案個頭比較大,當然,高清晰、高質量的畫面往往就意味著更大尺寸的檔案,更多的傳輸時間。正因如此,在網路上QuickTime只能用做壹些多媒體廣告、產品演示、高清晰度影片等需要高清晰表現畫面的視頻節目上。在網路速度不流暢的地方觀看起來有些吃力,而且QuickTime Player的系統資源占用較高,要求妳的機器配置較好才能勝任,最好是擁有快速CPU和更大容量的記憶體的高性能電腦。

現在QuickTime PLAYER的最新版本是5.0,註意,QuickTime Player播放器可不是免費的,大家可以到蘋果公司的主頁上去下載。

3、Windows Media Player

WMA的播放器使用Windows自帶的Windows Media Player就可以了,WMA格式音樂的壹大特點不需要額外的播放器,妳在"開始-程式-附屬檔案-娛樂"中就可以找到它的身影。其制作、發布和播放軟體也與Windows NT/2000/9x集成在壹起,更加強大的是Windows Media增加了著作權保護功能,可以限制播放時間、播放次數甚至於作業系統等,這對於被盜版攪得焦頭亂額的音像出版商們可是壹大福音。WindowsMedia檔案比起RealMedia檔案大些,線上播放狀態下比QuichTime可以獲得更快、更流暢的效果。

流函式

音頻流函式是用來用來播放大到不能放在常規 SAMPLE 結構裏的數字音樂用的, 也因為這些檔案太大而妳想每次載入需要數據的壹部分,或者是妳想做些聰明的活, 比如產生飛行的波形。

AUDIOSTREAM *play_audio_stream(int len,bits,stereo,freq,vol,pan);

這個函式創建壹個新的音頻流然後開始播放。 長度是每個傳輸緩沖(采樣聲音的) 的大小, 它至少要有 2K: 大點的緩沖更經濟些, 需要更少的更新, 但是在妳提供數據和它實際播放之間,有更多的等待。 bits 參數必須是 8 或 16, freq 是數據的采樣頻率, vol 和 pan 值使用和常規采樣聲音播放例程相同的 0-255 範圍. 如果壹但開始播放了,妳想調整音調,音量,或音頻流的 pan 值, 妳可以使用常規的 voice_*() 函式, 以 stream->voice 作為參數。采樣聲音數據永遠是無符號格式,立體聲波形由交替左/右采樣組成。

void s_audio_stream(AUDIOSTREAM *stream);

當壹個音頻流不再需要時撤銷它.

void *get_audio_stream_buffer(AUDIOSTREAM *stream);

當音頻流正在播放時, 妳必須以有規律的間隙調用這個函式 來提供采樣聲音數據的下壹個緩沖 (緩沖區越小, 它就必須被更頻繁的調用). 如果返回 NULL, 音頻流還有許多要播放, 因此妳不必去做什麽。 如果返回了值, 它就是下壹個緩沖將被播放的位置, 妳應當將合適數量的采樣聲音 (無論妳在創建流時指定了多少) 載入到 那個地址, 比如妳使用 fread() 從磁碟檔案裏載入。 在用數據填充完緩沖區後, 調用 free_audio_stream_buffer() 來只是新的數據已經有效了. 註意這個函式不能在時鐘句柄裏調用。

void free_audio_stream_buffer(AUDIOSTREAM *stream);

在 get_audio_stream_buffer() 後調用這個函式, 返回壹個非 NULL 地址, 來指示妳已經載入壹塊新的采樣聲音到那個地址, 數據就準備被播放了。

音頻流

在2007年拉斯維加斯國際消費電子展(CES)期間,意法半導體(ST)現場演示了采用藍牙接口、紅外線接口和Sound Terminal技術的實際便攜套用。Sound Terminal未來產品包括集成這些接口和其它接口的ASSP(專用標準產品)。

"Sound Terminal"是ST提出的壹個數字音頻流概念,其目的是把高音質、低功耗和低制造成本帶到人氣很旺的高速增長的套用領域,如平板電視機、無線產品和個人音響系統。單封裝解決方案的高集成度,結合從聲源到揚聲器的純數字流處理能力,為設計低成本、高效能、外觀緊湊的音響系統提供了可能。

Sound Terminal產品家族的初期產品包括壹系列高音質音頻的單片系統,例如:已經上市的用於大功率(20-80W)、中等功率(10-20W)和小功率(低於 1.5W) 的STA326和STA323 ,這些產品單片集成了數字音頻處理器、數字放大器控制器和壹個DDX數字功率輸出級。 STA326的功率輸出可以驅動2個30W聲道或1個60W的聲道,通過數字控制,很容易把該產品配置成幾個不同的輸出模式;該產品有多種處理和均衡選項,包括每聲道最多4個可程式28位二階濾波器和低/高音控制。各種聽音條件預設模式可以縮短軟體開發時間,簡化產品設計過程。

因為是全數字流,放大鏈中的信號處理無需模數轉換器,所以這是壹個保證整體音頻質量的低成本解決方案,信噪比(SNR)高達100dB,寬動態範圍。Sound Terminal晶片原型已經開發成功,采用ST具有自主智慧財產權的數字調制技術(FFX)的放大器是壹個以便攜為目標套用的產品實例,該晶片的放大效率高達94%,在當前市場上居最高水平;能夠為便攜系統提供"不發熱的音頻功率",有助於大幅度延長電池使用時間,而且還大幅度降低了散熱器的尺寸,為先進的產品設計提供了可能。

內置數字處理功能特別有助於提高音質,按照特定的音頻套用定制功能;例如,隨著平板電視機設計變得更薄,揚聲器變得更小,機箱聲學特性越來越不理想,修正音頻信號是十分重要的。

此外,數字流技術非常適合與采用散射紅外線、藍牙無線2.0EDR(增強數據速率)、WiFi和UWB(超級寬頻)技術的無線揚聲器和無線耳機的音頻接口整合。