現在講多模態技術最難的地方就是各個企業之間,基本上都在自己熟系的領域去深耕,對相互之間的技術結合基本上都不是很熟系,這就困擾多模態技術之間的結合。
從1號機器人網研討會上反饋的信息來看,機器人企業期待上游的企業,如科大訊飛能夠提供再進一步的技術方案,或者有能夠直接提供多模態交互技術的產品,而上游的技術企業,則認為這是終端機器人產品集成商應做的事情。
這就導致我們想要的多模態技術交互都是有缺陷的。
在技術上來說,智能語音、機器視覺、移動底盤在使用的過程中都還存在問題,這讓很多機器人企業非常的折騰。
從移動底盤上來說,深圳市步科電氣有限公司(簡稱:步科)營銷總監溫琦說:“移動底盤產品是成熟的,可以應用到各種機器人身上,但是目前確沒有成熟的SLAM技術方案。”
還比如機器視覺,很多廠家都說,機器人植入深度視覺后,在行走的過程中,可以躲避障礙物,但是應用到場景里,還是存在很多的問題,比如機器人前面多幾個人行走,就會導致機器人行走速度會變得很慢,或者直接不靈了。
最后是智能語音,對很多機器人企業而言,目前是最頭疼的問題,因為很多語音企業都說識別準確率高達90%以上,但是從機器人企業的反饋來看,應用到場景里體驗是不好的。
其實這里有一個問題,智能語音包括語音與語義,如果語音識別準確率達到90%,語義識別準確率也達到90%,其實這兩者是相乘的,一結合可能就只有81%的識別準確率。
而且目前我們所涉及的語義還只是文本,對于視頻、圖片、運動數據等更多元的素材采集,基本上非常困難。
深圳市狗尾草智能科技有限公司(簡稱:狗尾草)首席科學家張博說:“從多模態交互的角度去看,在目前的智能語音技術上,再去擴展視頻、圖片、運動數據等素材采集,我們只能通過語義處理語義,視頻處理視頻等方式去處理,如果要結合起來是非常困難的?!?br/> 先不說把圖片、視頻、文本等結合,就算以文本的角度去講也很難,小I機器人售前顧問甘楚輝說:“小I的數據庫里,各個領域的知識庫是分開,如果要結合在一起,占用的資源會變得非常大,對整體的性能影響也會很大,就算要結合也只能是分開穿線?!?br/> 所以在多模態交互的探索上,我們基本上還處在剛開始的階段。
目前我們先不深入的去探究,站在我們現有的產品集成上,我們可以做到怎樣的多模態交互。
把智能語音、移動底盤、機器視覺結合,目前已有落地的機器人產品。
比如深圳市銳曼智能技術有限公司名下的小曼機器人,當我們呼叫小曼機器人時,它是可以定位我們的聲源,甚至還可以走到我們的面前。
科大訊飛股份有限公司(簡稱:科大訊飛)商務總監廖凱說:“這三者結合的多模態交互,在生活中可以做到,我在與機器人一邊走路,一邊講話的時候,它是可以進行人臉的捕捉,移動的追蹤,所以它會在移動時面朝著你,這會讓你感覺非常好?!?br/> 就從這三個技術的成熟度來講,在這次研討會上,很多嘉賓認為,以目前的技術水平,能夠實現產品盈利的也只能是玩具級的產品,如果是商用級的產品,我們還需要花很長的時間做研發投入。
過去我們追捧機器人+資本的模式,通過資本的進入去進行產品技術的研發,但是這條路從去年以來已經變得越來越窄。
如果還只是拿上游企業的產品,比如:智能語音、移動底盤、機器視覺,再進行定制化場景應用的機器人,估計已經很難再拿到資本。
因為很多投資人已經知道內部的事情,而且也知道內部細節的難度在哪里?尤其是融合的階段,什么技術處于可商業化,什么技術還達不到商業化的階段,所以對機器人創業者而來,我們自己也需要理性化,做一些深思熟慮的判斷。
從營銷策略的角度去分析,特別是對于玩具級別的機器人產品,我們不要過分讓用戶對產品有太高的期望,廖凱說:“我之前有一個客戶是做香味盒,在這個香味盒上植入了語音交互功能,坦白說,他們二次開發的語音交互體驗做的并不好,但對用戶而言,就算體驗不好,但是它還是可以提供香味需求。”
往往我們能夠抓住跟智能無關的點,就會有用戶粘性,其實用戶會給你一個容忍度,給你升級迭代的機會,但是我們不能給用戶太高的期望。
在商業級的服務機器人里也有成功的例子,溫琦說:“美國企業做出來的很多機器人是在商場里做分揀,它不是服務于人,或與人做交互,而是為商場管理貨物提高效率。”(來源:中國智能制造網)