昨天愚人節,各大互聯網公司跟瘋了似的推出了各種“愚人節產品”,各種天馬行空那個、腦洞炸開。手機百度推出的是一個叫做“神燈搜索”的功能,需要使用手機百度搭配“百度神燈”智能擴展配件來使用。用戶可以通過“摩擦摩擦”百度神燈的邊框啟動該功能,然后利用語音進行方便的搜索,搜索結果會以全息投影的形式呈現出來,并支持用戶進行多輪語音交互、支持用戶通過手指觸摸對影像進行放大、縮小等操作。
這個功能是真是假,我覺得不用現在花時間去討論,作為一個科技宅,我想花時間把這個功能里面可能涉及到的技術稍微盤點一下,盤點完了你就知道它到底能不能實現、離我們還有多遠了。
“神燈搜索”都涉及了哪些技術?
啟動“神燈搜索”,需要用手摩擦“百度神燈”的邊框,這個沒什么技術障礙,很多智能手機現在都支持熄屏狀態下的手勢喚醒等操作,加個感應器的事兒而已;然后是語音搜索,這個雖然現在已經實現了,但是要實現后續的多輪對話,一方面需要更加出色的語音智能交互技術,另一方面也需要背后人工智能技術的強力支持;最后,還需要全息投影技術的支持以及在全息投影上進行操作的虛擬觸控技術。
既然摩擦喚醒不是個難事兒,我們就來看看語音智能交互、人工智能、全息投影以及虛擬觸控技術的進展。探討一下如果真要做“神燈搜索”的話,還有哪些技術需要提升。
識別率不斷提升,語音智能交互初具規模
不同于大家熟悉的siri等語音產品,視頻中“神燈搜索”和用戶的語音智能交互過程讓人印象深刻,而這些部分功能的實現需要依托于語音識別和人工智能這兩個領域的進步。目前,谷歌、蘋果、百度、科大訊飛等國內外企業都在語音識別領域發力,并取得了突破性進展。
既然“神燈搜索”是百度可能推出的功能,我們就來看看百度目前在語音技術方面的進展。類似視頻中演示的語音交互,其實包含了語音識別、語義理解和語音合成幾個方面的技術,依托百度自然語言處理(NLP)及機器學習領域的經驗,百度在語義理解方面的技術實力毋庸置疑;而近期,百度在語音識別率方面也取得了較大的突破。根據媒體的報道,百度首席科學家吳恩達曾透露,通過使用神經元系統以及數據燃料,百度人工智能幫語音識別提高了準確性,百度語音識別可以很好地處理背景噪音,使手機離得比較遠也能很好地識別用戶講出的話。權威測試結果顯示,在噪音環境中,百度Deep Speech系統的出錯率要比谷歌語音識別引擎,微軟必應以及蘋果的語音系統低10%以上。這對類似神燈搜索這樣的依托語音智能交互的功能來說意義非常重大。