北京,2023年4月25日/PRNewswire/–WiMi全息雲股份有限公司(NASDAQ:WiMi)(“WiMi”或“公司”),全球領先的全息增強現實(“AR”)技術提供商,今天披露了一種基于多功能信号感知技術的高可靠性無聲語音識别系統。該系統可以通過無聲閱讀或身體運動識别将來自身體或喉部聲帶運動的電信号轉換為語音。該系統可以在沒有用戶語音命令的情況下破譯人想說的話,從而豐富了“機器理解人類語言”的人機交互場景
語音識别技術是VR應用程序的免提接口模式,但它有幾個缺點。例如,它在嘈雜的環境或公共場所以及那些不能大聲清晰說話的人中的可用性有限。因此,WiMi開發了這個系統,通過在全息AR環境中使用肢體運動或面部肌電圖來實現無聲語音識别。首先,該系統獲取由人臉或四肢呈現的全息EMG信号數據或聲帶振動信号數據,然後對分别獲得的兩種數據類型進行預處理。在特征提取和融合之後,系統使用深度學習依次進行識别,并最終将識别出的命令結果發送給接收設備或受控設備。
為了提高系統在遠距離信号分類的準确性,WiMi開發了一種基于深度神經網絡的分類方法,該方法在全息環境中使用具有fEMG的SSR系統。該技術使用了之前從其他個體收集的類似fEMG數據,然後通過全息動态位置失真進行轉換。當一個人處于說話或無聲思維狀态時,與發聲相關的肢體肌肉會受到大腦輸出神經的影響,這些輸出神經會産生與大腦所代表的其他内容相對應的不同活動狀态。該系統通過收集肢體或發聲肌肉的表面肌電信号,對其進行處理和識别,來進行有聲或無聲語音識别,并獲取大腦信息。對于特征識别,系統使用獨立的細胞神經網絡來學習每個通道信号的特征。開發人員設計了三種結構:1D卷積網絡、2D卷積網絡和并行卷積網絡,配置了網絡模型參數,并優化了網絡模型結構。開發人員使用支持向量機、随機森林、k-最近鄰和隐馬爾可夫模型進行機器學習。模型參數在訓練和識别過程中不斷優化。
WiMi的系統将全息視覺信息和面部或肢體肌電信息相結合,實現無聲語音識别。WiMi預計該系統将為語音識别技術的進一步發展做出貢獻,并為語音識别提供新的思路和方法。
關于WIMI全息雲
WIMI全息雲公司(NASDAQ:WIMI)是一家全息雲綜合技術解決方案提供商,專注于包括全息AR汽車HUD軟件、3D全息脈沖激光雷達、頭戴式光場全息設備、全息半導體、全息雲軟件、全息汽車導航等專業領域。其服務和全息AR技術包括全息AR汽車應用、3D全息脈沖激光雷達技術、全息視覺半導體技術、全息軟件開發、全息AR廣告技術、全息AR娛樂技術、全息ARSDK支付、交互式全息通信和其他全息AR技術。