移動(dòng)端


當(dāng)前位置:興旺寶>資訊首頁> 技術(shù)前沿
閱讀排行 更多
企業(yè)直播 更多
推薦展會(huì) 更多

科技 讓機(jī)器“看”懂你說的話

2022-04-06 14:03:00來源:化工儀器網(wǎng) 閱讀量:123 評(píng)論

分享:

導(dǎo)讀:從文字識(shí)別到語音輸入,科技的發(fā)展讓我們的生活更加便利,也讓人機(jī)互動(dòng)的方式更加匪夷所思,但是這并不意味著這項(xiàng)技術(shù)就已經(jīng)發(fā)展到頭了,事實(shí)上任由不少的問題等待著我們?nèi)ソ鉀Q,例如用機(jī)器去解讀唇語

  從文字識(shí)別到語音輸入,科技的發(fā)展讓我們的生活更加便利,也讓人機(jī)互動(dòng)的方式更加匪夷所思,但是這并不意味著這項(xiàng)技術(shù)就已經(jīng)發(fā)展到頭了,事實(shí)上任由不少的問題等待著我們?nèi)ソ鉀Q,例如用機(jī)器去解讀唇語。
 
  唇語是一種非常特殊的技巧,其本質(zhì)是通過眼睛觀察對(duì)方說話時(shí)候嘴唇的運(yùn)動(dòng)方式,來理解對(duì)方表述的內(nèi)容。由于一般正常說話的時(shí)候,人的嘴唇和語音是同步的,并且在發(fā)音過程中,嘴唇運(yùn)動(dòng)的方式并不相同,因此可以實(shí)現(xiàn)“看”懂對(duì)方說話內(nèi)容的目的。但是在實(shí)際的使用過程中,由于說話時(shí)嘴唇的運(yùn)動(dòng)變化的區(qū)別很難察覺,因此理解唇語的難度也非常高。
 
  簡(jiǎn)而言之,想要實(shí)現(xiàn)唇語的解讀總結(jié)起來就有兩個(gè)要素:識(shí)別嘴唇運(yùn)動(dòng)以及做出對(duì)應(yīng)反饋。而這兩點(diǎn)其實(shí)對(duì)于機(jī)器來說是具備優(yōu)勢(shì)。一方面,機(jī)器通過影像傳感器來捕捉運(yùn)動(dòng)對(duì)象已經(jīng)是一種很成熟的技術(shù)了,并且這項(xiàng)技術(shù)目前的精度非常高,想要瞬間識(shí)別嘴唇的運(yùn)動(dòng)并不困難;另一方面,在存儲(chǔ)技術(shù)以及半導(dǎo)體技術(shù)的發(fā)展下,目前機(jī)械的交互響應(yīng)速度已經(jīng)非??捎^,結(jié)合大數(shù)據(jù)以及人工智能算法的輔助,只要能夠預(yù)先在系統(tǒng)中針對(duì)不同唇形對(duì)應(yīng)的發(fā)音情況,在短時(shí)間內(nèi)針對(duì)捕捉到的唇形破譯出說話內(nèi)容也并非一件難事。
 
  那么是不是說唇語解讀系統(tǒng)就很容易被制造出來呢?答案其實(shí)是否定的,事實(shí)上,即便在唇語解讀核心的兩個(gè)基礎(chǔ)條件已經(jīng)可以滿足的前提下,仍有一個(gè)更加嚴(yán)重的問題影響著唇語的解讀難度——干擾因素。事實(shí)上,在我們的正常生活中,面部的角度、光照、毛發(fā)遮擋、衣物遮擋等,都可能成為影響唇語捕捉的要素,再加上一部分人說話習(xí)慣的影響,嘴唇變化實(shí)際的可能其實(shí)遠(yuǎn)比預(yù)想的還要多,這也就導(dǎo)致了這種機(jī)器的制造難度非常高。即便是目前唇語識(shí)別準(zhǔn)確率較高的非接觸式視覺圖像方法,因?yàn)橐驗(yàn)楦蓴_因素的存在,而出現(xiàn)失誤。
 
  那么沒有其他解決方法嗎?答案是有的,那就是從唇形更進(jìn)一步地深入到肌肉動(dòng)作的解讀。我們說話時(shí),嘴唇的運(yùn)動(dòng)是通過肌肉伸縮完成的,而肌肉運(yùn)動(dòng)會(huì)帶動(dòng)臉部變化,因此如果能夠捕捉到肌肉的細(xì)節(jié),就可以避免干擾因素的存在來完成唇形識(shí)別。但是也正因?yàn)榧∪獾膭?dòng)作非常細(xì)微,因此解讀難度也就有了明顯的上升。
 
  而就在最近,清華大學(xué)機(jī)械工程系智能與生物機(jī)械團(tuán)隊(duì)推出一種新穎的唇語解讀系統(tǒng),這套系統(tǒng)通過自供電的柔性傳感器采集肌肉的微小動(dòng)作信號(hào),并采用基于原型學(xué)習(xí)的深度學(xué)習(xí)模型進(jìn)行唇語的捕捉與解讀,因此準(zhǔn)確率也更高。
 
  而這項(xiàng)成果的公開,也讓人機(jī)互動(dòng)以及恢復(fù)失聲人群的基本語音交流能力等研究有了進(jìn)一步的進(jìn)展。不過,就現(xiàn)階段來說,這項(xiàng)技術(shù)還需要解決樣本容量的問題,由于唇語的機(jī)器解讀依賴庫(kù)的大小,因此,理論上來說,隨著越來越多的唇語模型被收入到數(shù)據(jù)庫(kù)中,機(jī)器“看”懂語言的能力也會(huì)越來越強(qiáng)。
 
  原標(biāo)題:科技 讓機(jī)器“看”懂你說的話
 
版權(quán)與免責(zé)聲明:1.凡本網(wǎng)注明“來源:興旺寶裝備總站”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-興旺寶合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:興旺寶裝備總站”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。 2.本網(wǎng)轉(zhuǎn)載并注明自其它來源(非興旺寶裝備總站)的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。 3.如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
我來評(píng)論

昵稱 驗(yàn)證碼

文明上網(wǎng),理性發(fā)言。(您還可以輸入200個(gè)字符)

所有評(píng)論僅代表網(wǎng)友意見,與本站立場(chǎng)無關(guān)

    相關(guān)新聞