聲紋識別 人工智能電視的更高階到來

來源:賽迪網 2017-10-16 12:30:00

近兩年彩電市場遇冷,而人工智能成為眾廠商尋求突破的著力點。去年長虹推出全球首款人工智能電視後,海爾、海信、創維、TCL等老牌彩電廠商以及小米、樂視、暴風等互聯網企業,也相繼開始布局人工智能、大數據、雲計算等領域。

經過前期的市場培育,人工智能電視目前停留在市場初級階段,大部分產品體現在語音識別的淺顯交互階段。而更高階層的人工智能交互技術有待企業開發。

在此背景下,長虹近日又推出全球首款聲紋識別人工智能電視——長虹CHiQ電視Q5K,並推出全球首個人工智能電視技術係統,將人工智能電視帶入3.0時代。

  人工智能電視的更高階到來

以語音識別為主的人工智能電視的出現,在提升用戶交互式體驗上目前仍存在一些問題,這包括:

可以感知到的智能與之前的智能電視並沒有明顯的提升;

很多語音功能不夠實用,比如語音加入後對電視操控體驗最明顯的提升隻是在搜索方麵,其它大多都是可有可無的功能;

語音識別準確率受外界因素影響大,因為在現實應用場景下不可控因素很多,比如方言、環境噪音、語速快慢等,都會對準確率造成一定的影響;

語義理解能力還有很大進步空間,比如問“孫麗演的電視劇”或者“去年奧斯卡最佳影片”等,這時考驗的就是電視的語義理解能力,需要精準分析和深入理解才能給出一個滿意的答案,技術要求較高,還有很多探索空間;

全程語音控製沒法實現,常用的換台操作依然要依賴機頂盒的遙控器,語音功能又成了擺設;

針對不同家庭成員的觀看習慣,依然做不到“千人千麵”的準確推送。

長虹Q5K聲紋識別人工智能電視的出現將終結上述這些用戶痛點問題。據悉,長虹應用I-vector技術為聲紋建模,同時借助雲計算平台,建立起每個家庭成員獨一無二的聲紋數據庫,能夠在家庭應用環境中快速精準地實現家庭成員的身份識別,識別率超過90%。

據介紹,長虹聲紋識別項目組在開發過程中遇到了不少困難,在項目初期,聲紋數據少是麵臨的主要困難之一,無法對建立的模型進行有效的驗證及訓練。而聲紋識別算法需要在足夠多的訓練數據的條件下,才能夠準確地學習到不同說話人之間差異性。為此,項目組的每一個成員每天按時拿著遙控器,不停的呼喊“長虹小白…我要看…我想看…”,一遍、兩遍…無數遍,日複一日地采集聲紋樣本。

有了足夠多的數據,聲紋識別算法的設計開始變得更為重要。此前項目組的技術積累主要在圖像識別領域,並沒有語音相關領域的經驗,因此算法的設計尤為艱辛。項目組核心成員吳郢教授身在美國,每周都會定時兩次通過視頻會議和國內的項目組成員討論,經過三個月左右的努力,終於完成了算法的設計、服務器的部署,並成功交付。

人工智能電視需要在不斷學習中完成進化,需要連續使用一段時間才能使電視擁有“千人千麵”的能力,從而將人工智能電視上升到更高階的層次。

據CHiQ電視產品經理陳科宇介紹,Q5K聲紋識別在使用中,隨著數據的積累,聲紋識別模型將會自動更新,因此隨著用戶的使用時間增加,識別率會越來越高,電視也會越來越懂你。通過聲紋識別技術與內容檢索係統的結合,Q5K能實現“千人千麵”的個性化視頻內容推薦。

布局下一代交互係統

在成功上市CHiQ人工智能的基礎上,長虹又從平台、算法、協議等多個維度對人工智能電視技術做了完善、優化,從而推出行業首個人工智能電視技術係統。

陳科宇介紹,人工智能電視技術係統既包含硬件、算法,也包含數據平台和媒體資源,硬件層麵長虹CHiQ采用集成式陣列麥克風,實現5米範圍內的遠場語音采集,實現諸如開關機、點播視頻、定時提醒等功能。基於數萬個角色、獎項等標簽,13萬個語義關鍵詞詞條 ,能實現通過角色搜片、精準糾錯等模糊搜片,為用戶提供更流程的交互體驗。

模糊搜片和精準糾錯對於交互體驗十分重要,有時候用戶想看一個節目,但隻記得錯誤的片名或者一個演員的名字,比如“達康書記”,係統會為用戶播放“人民的名義”;比如用戶說“北京碰到西雅圖”,係統能夠自動糾錯為用戶播放“北京遇上西雅圖”。降低用戶使用的難度,用戶的接受度才會越高。

“盡管現在人工智能電視還不成熟,但在大數據時代,智能電視的交互方式一定不是遙控器,一定會出現新的模式,係統也不是安卓係統,而是下一代的交互係統。廠商應該積極主動擁抱未來。”中國電子視像行業協會副秘書長彭健鋒認為,下一代交互係統的布局對彩電廠商而言戰略意義重要。

經濟學家管益忻認為,長虹以原創性技術,拓展了傳統彩電行業的市場應用邊界和商業發展空間,重新定義電視在客廳場景下的功能和體驗,這有望給全球彩電企業在傳統硬件、軟件、內容競爭體係外,開辟全新的科技創新引擎,真正開啟世界彩電產業發展的新通路。

點擊查看原文

相關鏈接