讀唇是壹種特別難的技能,人們在讀唇的時候會盡可能多地根據話語間的聯系來判斷,讀唇人本身的語言知識也至關重要。AI“讀唇術”簡單來講就是壹項唇語識別技術,計算機通過進行視覺識別和自然語言處理,來分析說話人的唇部運動,從而識別出說話內容。
牛津大學計算機系開發出了壹個名為LipNet 的人工智能系統。據報道,這個人工智能的系統是建立在壹個被稱為“GRID” 的數據集上。該研究團隊使用這個數據集來訓練人工智能的神經網絡,經常用它進行語言識別。隨著時間的推移,AI 的神經網絡識別的嘴型也越來越多,慢慢地它就會理解他所識別到的信息。AI 不會僅僅識別斷斷續續的畫面,相反,它會根據整個演講的大意來整合它所識別到的信息。它會自動分析句子根據上下文來理解整個演講的大意。
近幾年,海雲數據、搜狗等國內多家企業也相繼發布唇語識別技術。唇語識別技術在公***安防、軍事情報和公益等多個領域都能發揮巨大的作用。
壹套成熟的唇語識別系統需要大量的人臉特征樣本數據,這些數據要盡可能包含更多場景、更多類型的說話人,以此保證訓練出來的唇語識別模型具有更好的泛化能力。