
湯曉鷗:人工智能“簡史”
時(shí)間:2017-04-21
(轉(zhuǎn)載自華夏基石e洞察,如有侵權(quán)請(qǐng)聯(lián)系刪除)
“湯曉鷗,商湯科技創(chuàng)始人,中國科學(xué)院深圳先進(jìn)技術(shù)研究院副院長、集成所多媒體中心主任、香港中文大學(xué)教授、工程學(xué)院副院長,麻省理工學(xué)院博士,其發(fā)明的人臉識(shí)別技術(shù)(GaussianFace/DeepID)成為世界上第一個(gè)超過人眼識(shí)別能力的計(jì)算機(jī)算法。”
大家中午好!非常榮幸能夠與這么多業(yè)界精英同臺(tái)演講。
三年前,我常常跟投資人、跟一些企業(yè)家講人工智能、講深度學(xué)習(xí),但那個(gè)時(shí)候大家還不理解,也都不太關(guān)心。后來,谷歌推出了阿爾法狗,人工智能就火了。除了受阿爾法狗事件的影響之外,也得益于美國五大人工智能巨頭形成的聯(lián)盟。中國在雙創(chuàng)活動(dòng)中也選擇了兩家人工智能的領(lǐng)軍企業(yè),一家是百度,另外一家是商湯,這是兩家中國智能的代表。所以,張維總提到了高估值的商湯,我認(rèn)為并不高,應(yīng)該是低估值的商湯。
但是,現(xiàn)在大家都在講人工智能,給我的感覺是,人工智能在中國有點(diǎn)過熱了,所以我今天想為大家潑潑冷水。
人工智能是什么呢?應(yīng)該說,它跟A股很像。如果說上海是中國的A股市場(chǎng)所在地,那么三年前,人工智能相當(dāng)于A股市場(chǎng)的三千點(diǎn)以下,沒有人買。而今年,這個(gè)指數(shù)飆到了六千點(diǎn)。在這種情況下,大家是買還是不買呢?
有的時(shí)候,我們會(huì)把一些事看得太過神奇。這與彭劍鋒教授所講到互聯(lián)網(wǎng)的發(fā)展是同樣的道理,人工智能也不過是一個(gè)輔助性的工具,并不是事情的全部。這個(gè)工具本身并不能產(chǎn)生獨(dú)立的價(jià)值,而一定是在跟各個(gè)行業(yè)相結(jié)合以后,為各個(gè)行業(yè)生產(chǎn)效率的提升來服務(wù)的。我認(rèn)為,飯要自己親自吃,廁所也要自己親自上,鍛煉身體也一定要親自去。我們不能過于依賴人工智能,不能把什么事都交給它,它的作用畢竟還是很有限的。
十年前,我的實(shí)驗(yàn)室做出了人臉識(shí)別系統(tǒng),里面涉及到一些圖像處理、特效處理、自動(dòng)分割以及交互等內(nèi)容,也越來越好玩。
圖像處理源于2008年的北京霧霾。當(dāng)時(shí)正在召開奧運(yùn)會(huì),因?yàn)殪F霾的原因,新聞圖片發(fā)出去會(huì)令人感到尷尬。所以,我們定制了一些功能,用了一些算法,可以把圖像里的霧去掉。我們這次會(huì)議的地點(diǎn)在三亞,在這樣的碧海藍(lán)天之間,這個(gè)技術(shù)是用不到的。但今天的題目是迷霧航行,雖然我們不再需要去除新聞圖片中的霧霾了,但就目前大家對(duì)人工智能的認(rèn)識(shí)來看,我覺得還是把認(rèn)識(shí)的“霧”去掉,然后航向才能明確。
那么,在人工智能方面怎么去霧,怎樣才能真正踏踏實(shí)實(shí)地做點(diǎn)事呢?
我們知道,霧的濃度和距離是成比的。所以在新聞圖片中,我們先是把三維算出來,然后把霧去掉,并且還能把背景模糊化。最后,一張非常糟糕的照片被我們做出了單反的效果。這一技術(shù)所形成的文章得到了2009年的最佳論文獎(jiǎng),我還是蠻驕傲的。但是,這一技術(shù)的產(chǎn)生,是在2011年以前,有我們十幾年的積累做基礎(chǔ),也是在深度學(xué)習(xí)這個(gè)算法產(chǎn)生之前的事。我想說的是,和所謂的人工智能一樣,這些技術(shù)都不是一夜之間發(fā)生的,而是一個(gè)長期艱苦積累的過程。并且是我們所積累的幾百項(xiàng)工作中比較出色的部分。
1、人工智能“簡史”
目前,人工智能目前發(fā)展到了什么程度呢?根據(jù)我二十年來做的工作,我總結(jié)一下人工智能發(fā)展的簡單歷程。
在國際范圍內(nèi),人工智能最早誕生于1956年。從那以后,人工智能的發(fā)展勢(shì)頭不斷起起落落,也曾喧囂,但最終都?xì)w于平靜,并沒有真正發(fā)掘出對(duì)人類社會(huì)生活有益的功能。但是在2011年,誕生于2006年的“深度學(xué)習(xí)”的算法產(chǎn)生了效用。從那時(shí)開始,人工智能開始具體應(yīng)用于很多的單向領(lǐng)域或者說具體的行業(yè),并且開始超越了人的水平。
對(duì)于人工智能的發(fā)展,幾個(gè)主要的“玩家”起到了決定性的推動(dòng)作用。在軟件方面,谷歌和Facebook進(jìn)行了大量的投入,很多創(chuàng)新都是從這兩家公司產(chǎn)生的。為什么是它們?因?yàn)樗鼈冇写罅康臄?shù)據(jù)要處理,它們有剛性的需求。同時(shí),它們也有大量的資金投入。谷歌去年一年在人工智能領(lǐng)域的研發(fā)投入是120億美金。阿爾法狗幾次挑戰(zhàn)李世石,還有相應(yīng)的宣傳,都是大量投入的結(jié)果,并不是簡單的炒作就能夠達(dá)成的。同時(shí),F(xiàn)acebook也在這一領(lǐng)域做出了大量的投入。
在硬件方面,包括深度學(xué)習(xí)的算法、計(jì)算平臺(tái)幾乎都是在Spotify的GPU上做起來的,它們相當(dāng)于取代了當(dāng)年vpail的組合。
2、深度學(xué)習(xí)引擎
如果說人工智能是一條紅線,那么,深度學(xué)習(xí)在某種意義上來說就是這個(gè)紅線的引擎,而大數(shù)據(jù)就是它的原料。目前,人工智能的大部分技術(shù),都是由深度學(xué)習(xí)算法來支撐的。
深度學(xué)習(xí)發(fā)展出來的時(shí)間很短。在2011年,它跟微軟進(jìn)行了合作,在語音識(shí)別技術(shù)上取得了重大突破。當(dāng)時(shí),微軟首先推出的是應(yīng)用方面的驅(qū)動(dòng)。在那以后,因?yàn)橛辛硕嗄甏髷?shù)據(jù)的積累,又組織了更多在語音識(shí)別方面有相當(dāng)實(shí)力的人,所以就有了更加重大的突破,相當(dāng)于在一年之內(nèi)做了十年的事。
3、在垂直領(lǐng)域落地
我們從原來人腦設(shè)計(jì)參數(shù)的人工智能轉(zhuǎn)變?yōu)橛纱髷?shù)據(jù)驅(qū)動(dòng)的人工智能,實(shí)際上是在某些領(lǐng)域取得的技術(shù)突破,主要是在某個(gè)特定的領(lǐng)域超過了人。比如說,最早用深度學(xué)習(xí)做出來的語音識(shí)別系統(tǒng)大獲成功。在人臉識(shí)別、圖像分類、阿爾法狗、自動(dòng)駕駛、醫(yī)療技術(shù)等幾個(gè)方面都有著很大程度的突破。這些學(xué)術(shù)方面的突破,使計(jì)算機(jī)超越了人類以后,就相當(dāng)于在垂直領(lǐng)域邁過了一道檻。而這道檻之后,人工智能技術(shù)終于可以落地了,終于可以替換一些人工成本,來幫助產(chǎn)業(yè)提高效率了。
所以,我們看到的人工智能涉及到了很多具體的領(lǐng)域,有的與產(chǎn)業(yè)結(jié)合得很好,有的則剛剛開始,當(dāng)然也有一些完全是出于炒作。總之是參差不齊,或者說是各有千秋。
4、圖像:眼睛的智能
目前,人工智能主要有三個(gè)戰(zhàn)場(chǎng):一個(gè)是語音識(shí)別,相對(duì)來說比較成熟;它之后是自然語言,在這個(gè)領(lǐng)域還有很多事要繼續(xù)研究,非常難;現(xiàn)在的主戰(zhàn)場(chǎng)是圖像,就是眼睛的智能。怎樣用眼睛識(shí)別出環(huán)境與物體,這也是非常困難的事。
2012年,Hinton在圖像識(shí)別方面也取得了重大突破。在此之前,Viewdle擁有這個(gè)領(lǐng)域最大的訂單,但Hinton的成果一下把前人甩出了10年的距離,并在當(dāng)時(shí)引起了很大的轟動(dòng)。
在此之后,僅僅過了4個(gè)月,谷歌花了5千萬美金收購了它。這個(gè)驚人的舉措令我們認(rèn)識(shí)到,人工智能開始值錢了。接著,谷歌又花了6.6億美金收購了一家公司。這家公司只有12個(gè)人,沒有什么特別的產(chǎn)品,主要是研究如何用深度學(xué)習(xí)來下棋。當(dāng)時(shí)我們覺得它的價(jià)格過于昂貴了,但實(shí)際上這個(gè)公司誕生了很多算法,所以僅僅過了一年多以后,他們用阿爾法狗下了一盤舉世震驚的棋,一下子就把投入的錢賺回來了。
2013年,F(xiàn)acebook聘請(qǐng)了另外的團(tuán)隊(duì),在紐約建立了人工智能實(shí)驗(yàn)室。后來,通用、因特爾等大企業(yè)也紛紛進(jìn)入到這一領(lǐng)域,并且也開始收購一些公司。
在這期間,我們做了幾件比較有影響力的事。2014年,我們首次突破了人臉識(shí)別技術(shù)(ImageNet,一個(gè)計(jì)算機(jī)視覺系統(tǒng)識(shí)別項(xiàng)目,是目前世界上圖像識(shí)別最大的數(shù)據(jù)庫),在2015年的時(shí)候取得了全球第一的成績,2016年在五項(xiàng)里取得了三項(xiàng)世界冠軍。與阿爾法狗一樣,我們也做到了機(jī)器的算法超過了人類,在某個(gè)特定的領(lǐng)域可以把人打敗。
這其實(shí)并不神奇,因?yàn)槠囋缫言谫惻艿念I(lǐng)域打敗了人類。可以說,在某個(gè)特定領(lǐng)域打敗人類不是什么了不起的事。但是人們普遍認(rèn)為,人工智能就是機(jī)器人,它可以超越人腦并控制人類。但事實(shí)上,這是非常遙遠(yuǎn)的事情。我們真正在一線做人工智能研發(fā)的人是不敢這么想的,只是致力于讓機(jī)器做事先設(shè)計(jì)好的特定任務(wù),絕不會(huì)有另外的任務(wù)附加給它。我們經(jīng)常開玩笑說,李世石在跟阿爾法狗下棋之前,也許早已在賭博公司下了賭注,賭自己輸。但是,阿爾法狗想不到這一點(diǎn),所以盡管它以為自己贏了,但實(shí)際上它輸了(笑)。
深度學(xué)習(xí)有三個(gè)大核心要素:一是深度學(xué)習(xí)的算法設(shè)計(jì);二是高性能的計(jì)算平臺(tái);三是大數(shù)據(jù)。
1、艱難而輝煌的戰(zhàn)績
2011年,我們實(shí)驗(yàn)室的幾十個(gè)博士、教師開始研究深度學(xué)習(xí)。這是學(xué)術(shù)界最早涉獵深度學(xué)習(xí)的華人團(tuán)隊(duì)。因?yàn)樽龅迷纾栽?011—2013年間,在人工計(jì)算機(jī)視角最頂級(jí)的兩個(gè)會(huì)議上,全球貢獻(xiàn)的29篇涉及到深度學(xué)習(xí)的文章中,有14篇出自我們的實(shí)驗(yàn)室,占了全球一半的數(shù)量。2014年,我們又打敗了Facebook,在人臉識(shí)別技術(shù)方面超過了人眼識(shí)別。當(dāng)時(shí),一般人眼識(shí)別的準(zhǔn)確率是75%強(qiáng),但Facebook做到了97.3%。但我們的團(tuán)隊(duì)連續(xù)做了四五個(gè)算法,最后從97.4%一路做到了99.55%,在與Facebook和谷歌的競爭中取得了好成績。
2014年9月份,我們又參加了一個(gè)世界級(jí)的大賽,與包括百度、谷歌、牛津、微軟在內(nèi)的37個(gè)世界頂級(jí)團(tuán)隊(duì)競爭,取得了全球第二的成績,谷歌是第一。其實(shí)在競賽中,我們做到了的數(shù)據(jù)高于谷歌發(fā)布的成績,所以只能屈居第二。
2015年,組委會(huì)在比賽中加入了視頻。在視頻的檢測(cè)中,我們?nèi)〉昧巳虻谝坏某煽儭?br />
2016年,我們?cè)谖屙?xiàng)比賽里取得了三項(xiàng)第一名。
2、我們自己的開源系統(tǒng)
這個(gè)時(shí)候,我們其實(shí)在做一個(gè)“大腦”,這是一個(gè)非常困難的任務(wù)。深度學(xué)習(xí)跟人的大腦有相似之處,越難的任務(wù)會(huì)做得越好。比如說,我們要從幾千個(gè)瓶子里識(shí)別出其中的一個(gè),這個(gè)算法肯定做不好。但如果能做出一千類物體的識(shí)別技術(shù),把它做成最好的大腦,這時(shí)再回來識(shí)別瓶子,就可以做得很好。ImageNet就是對(duì)一千個(gè)問題進(jìn)行了分類。跟人腦的相似之處在于,如果一個(gè)人希望在未來搞投資,那他肯定不會(huì)從幼兒園到小學(xué)只學(xué)投資這件事。人在小的時(shí)候,數(shù)學(xué)、物理、化學(xué)、歷史都要學(xué)習(xí),只有讀到博士的時(shí)候再去做具體的任務(wù)。所以,一定要有把大腦訓(xùn)練聰明的過程。
大腦的核心就像是一套操作系統(tǒng),它是一個(gè)開源系統(tǒng)。谷歌和Facebook都有它自己的開源系統(tǒng)用來做基礎(chǔ)應(yīng)用,而且有一些還是免費(fèi)的。現(xiàn)在人工智能、深度學(xué)習(xí)的門檻變得比較低,就是因?yàn)樗辛碎_源系統(tǒng)。有了這個(gè)系統(tǒng),隨便找?guī)讉€(gè)懂點(diǎn)技術(shù)的人,利用這套系統(tǒng)就可以訓(xùn)練出一個(gè)模型,可以做一些應(yīng)用。
但是,這里存在一個(gè)問題。比如你要做的是安卓系統(tǒng)還是在安卓系統(tǒng)上寫一個(gè)APP?我們經(jīng)常會(huì)把這兩件事混為一談。比如有的人能做幾個(gè)APP,演示出來就被說成是人工智能,但事實(shí)上它們是不同的。而且,我們做出來的東西是不是好,都是要受這套開源系統(tǒng)的控制。
我們?cè)?011年的時(shí)候還沒有開源系統(tǒng),所以要努力學(xué)習(xí),從頭做起。這些年來,我們成功開發(fā)了自己的這套系統(tǒng),雖然沒有完全對(duì)外開放,但我們自己和一些合作伙伴都在用。
今年開始,我們開始用這套系統(tǒng)訓(xùn)練ImageNet。它是一個(gè)神經(jīng)網(wǎng)絡(luò),有點(diǎn)像DNA的結(jié)構(gòu)。在2012年,我們做到了5層,谷歌打贏我們的那場(chǎng)比賽用的是22層,去年微軟做的是152,而用我們的系統(tǒng)訓(xùn)練出來的是1207層。
在2013年的時(shí)候,我們訓(xùn)練網(wǎng)絡(luò)的檢測(cè)準(zhǔn)確率只有22%,2014年做到了53%,后來又發(fā)展到了62%,現(xiàn)在我們的最好成績是66%。可以看到,以前,我們最好的進(jìn)展情況大概是一年一個(gè)點(diǎn),這樣的速度就完全可以發(fā)論文了。但是經(jīng)過了這三四年,從22到66,我們已經(jīng)翻了三倍,這就是進(jìn)展的速度。跟以前不一樣的是,我們?cè)趩蜗蛉蝿?wù)上也是突飛猛進(jìn)的。
3、自己的操算平臺(tái)
訓(xùn)練這么復(fù)雜的一個(gè)網(wǎng)絡(luò)需要一個(gè)大的平臺(tái)。谷歌和Facebook的開源系統(tǒng)并不支持這個(gè)大平臺(tái)的運(yùn)算,所以我們要做自己的操算平臺(tái),并且要與谷歌的機(jī)器連起來。我們?cè)谙愀塾幸粋€(gè)操算集群,在北京有三個(gè),只有在這樣的大集群上才能真正的訓(xùn)練出核心的大腦和核心的網(wǎng)絡(luò)。
在這方面,我們主要的合作伙伴有兩家,一家是NVDIA。我們幾乎所有的智能學(xué)習(xí)都是基于它的CPU在進(jìn)行運(yùn)算。很榮幸,這家公司把我們當(dāng)成了跟谷歌、Facebook一樣級(jí)別的戰(zhàn)略伙伴。另一家是用一些高速的網(wǎng)絡(luò)把這些機(jī)器連起來,和我們也形成了戰(zhàn)略合作伙伴關(guān)系。目前,我們正與這兩家公司共同研究下一代產(chǎn)品。
4、大數(shù)據(jù)庫
最后一個(gè)是大數(shù)據(jù)。有了模型,有了平臺(tái),還需要海量的數(shù)據(jù)。在這方面我們與300多家企業(yè)進(jìn)行了合作,有18類、十幾億的各種圖像和多媒體的數(shù)據(jù)。同時(shí),我們也在建立一些大型的學(xué)術(shù)方面的數(shù)據(jù)庫,定義了很多新的研究方向和新的課題,包括人臉數(shù)據(jù)庫、車型數(shù)據(jù)庫等等。
比如車型數(shù)據(jù)庫,在我們進(jìn)入這一領(lǐng)域之前,學(xué)術(shù)界只有10幾種車型,而我們定義了上千種。對(duì)人群定義了94種特性。還有各種服裝的數(shù)據(jù)庫也是我們定義出來的。以前,我們看別人的文章,跟著別人的文章做,現(xiàn)在我們自己做文章,做專利,也在參與做標(biāo)準(zhǔn)。并且我們又在開辟新的方向,提出新的問題,定義新的數(shù)據(jù)庫,定義新的玩法,這實(shí)際上是在引領(lǐng)新的學(xué)術(shù)研究方向。
5、人工智能的十大先驅(qū)
在這些輝煌的戰(zhàn)績背后,是我們實(shí)驗(yàn)團(tuán)隊(duì)的艱苦付出。以圖像放大,并處理清晰這件事為例,大家不妨感受一下,人工智能這件事到底有多難。
比如,我們?cè)跈C(jī)場(chǎng)拍到的罪犯的照片很模糊,經(jīng)過超分辨率處理變成清晰了以后,可以輔助警方把他給抓住。我們不但要把圖片放大,并且還要使模糊的照片變得清晰、漂亮。在已經(jīng)做十幾年之后,我們?nèi)匀挥X得做不到。因?yàn)橐呀?jīng)有人做得很先進(jìn)了,但他們也沒有做到。最初,我們用當(dāng)時(shí)的算法得到的結(jié)果是令人失望的,放大了以后效果很差。但是,我們?nèi)匀辉谌四槞z測(cè)、高分辨率、人臉的特性分布等所有方面進(jìn)行了大量的研究,每一項(xiàng)都有專門的文章。最近兩年,我們有多篇文章從這一方向闡述,并拿到了世界頂級(jí)的學(xué)術(shù)會(huì)議上。從學(xué)術(shù)的角度來講,這些都是很大的進(jìn)步,但是花了這么大的功夫,也仍然有太多太多的空間有待我們?nèi)ミM(jìn)步,還有很多的技術(shù)沉淀,有很多工作要做。
剛剛我們又投出了幾篇把一張小圖變成高清大圖的文章,因?yàn)檫@里面的應(yīng)用前景非常廣闊。我們知道,傳輸一張高清大圖的速度很慢,那么我可以把它壓縮得非常小,傳過去以后,可以由接收端自行放大,并且得到非常高清的效果。日本有人用我們的技術(shù)做了一個(gè)很好玩的應(yīng)用,叫做WAIFU2x,翻譯過來就是放大兩倍,就是把普通照片放大兩倍的意思,并且變得更加清晰。
但更重要的是,諸如遙感衛(wèi)星監(jiān)控,還有一些軍事上的偵查,都可以應(yīng)用這一技術(shù)。
在沒有高分辨率技術(shù)之前,一般系統(tǒng)的分辯率都非常差,但用了人臉定位信息以后,我們可以實(shí)時(shí)并且非常準(zhǔn)確地把人臉上的點(diǎn)定位出來,然后進(jìn)行多集放大,每一集放大一點(diǎn)后再定位,然后放大一點(diǎn),再定位,最后取得了非常好的效果。最初,我們?cè)谌虻谝粋€(gè)做到了5點(diǎn)深度學(xué)習(xí),后來做到了106點(diǎn)定位。現(xiàn)在,業(yè)界有用很多人臉跟蹤的應(yīng)用,據(jù)說直播軟件背后都是這一技術(shù)。同時(shí),我們?cè)趯?shí)際偵查圖像上進(jìn)行了應(yīng)用,基本可以把人看清楚了。這在以前是完全做不到的。
人工智能不可能橫空出世,說出來人們也不會(huì)相信。我們之所以能夠做這些事,是因?yàn)槲覀冇幸欢ǖ姆e累。我們?cè)谏疃葘W(xué)習(xí)之前已經(jīng)有了很長時(shí)間的積累。比如,從2004到2008年間,我們?cè)趦蓚€(gè)頂級(jí)學(xué)術(shù)會(huì)議上的文章數(shù)量,其中的一個(gè)實(shí)驗(yàn)室就做了57篇,而NIT一共有91篇,劍橋是30篇,可以說我們跟這些學(xué)校打了一個(gè)平手。前年也是在這兩個(gè)會(huì)議上,我們發(fā)出了24篇文章,谷歌是38篇。要知道,谷歌是擁有6萬名員工的大公司。去年,還是這兩次會(huì)議,我們又發(fā)表了42篇文章,超過了谷歌前年的水平。按照這個(gè)標(biāo)準(zhǔn),我們頂多落后于谷歌一年。
在人工智能領(lǐng)域,全世界有600個(gè)國際會(huì)議。在其中排名前五的會(huì)議上,從我們實(shí)驗(yàn)室畢業(yè)的學(xué)生拿到了54個(gè)最佳論文獎(jiǎng),包括剛才講到的去霧的算法。要知道,這些會(huì)議每次從一千多篇文章里只會(huì)選出一篇,而且是雙盲選擇,與人無關(guān),只與文章本身有關(guān)。這跟中國的一些獎(jiǎng)項(xiàng)的評(píng)選完全是不同的運(yùn)作方式。
我們的這些成績,也得到了國際上的承認(rèn)。NVDIA去年評(píng)選出了人工智能的十大先驅(qū),我們很榮幸地位列其中,也是亞洲區(qū)唯一入選的實(shí)驗(yàn)室。跟我們同時(shí)入選的另外9家都是計(jì)算機(jī)視角鼎鼎有名的機(jī)構(gòu),包括NIT、斯坦福等等世界級(jí)的百年名校,還有深度學(xué)習(xí)的“四大天王”、Facebook、谷歌的一些元老等等。與之相比,香港中文大學(xué)只是一所有著50年歷史的名校,而作為唯一一個(gè)比較年輕的實(shí)驗(yàn)室,我們也不是靠學(xué)校的名氣入選的。
以上是我們的一些學(xué)術(shù)成績。但是,如果這些成果不能落地,最終不能進(jìn)入到產(chǎn)品階段,不能夠讓大家用起來,那就成了紙上談兵。那么,我們的成果怎樣落地,怎樣能夠在產(chǎn)品中得到應(yīng)用呢?
1、多個(gè)應(yīng)用方向
?平安城市與智慧商業(yè)
首先是平安城市。我們的人群監(jiān)控系統(tǒng)能夠時(shí)實(shí)分析出整個(gè)場(chǎng)景中有多少人,每一點(diǎn)上人的密度,每個(gè)進(jìn)出口的人的數(shù)量,或者是各種逆向流動(dòng)等特殊情況,都能夠監(jiān)控。大家都知道上海外灘發(fā)生過大規(guī)模的踐踏事件,假如外灘有我們這套系統(tǒng),那次悲劇完全是可以避免的。
還有人臉識(shí)別技術(shù),在各種場(chǎng)景下,比如地鐵口、火車站等,完全不需要指令就可以進(jìn)行高精度的人臉識(shí)別,這是“靜場(chǎng)景”的人臉識(shí)別。除此之外,我們還可以“抓人”,在百米之外看到目標(biāo),能夠把他拉近以后進(jìn)行識(shí)別。也能夠從百米之外將車輛拉近,識(shí)別出它的車牌、車型等等。這是對(duì)人群的遠(yuǎn)距離監(jiān)控。
在對(duì)視頻結(jié)構(gòu)化以后,我們?cè)诿總€(gè)城市都可以有上百萬的監(jiān)控?cái)z相頭,但沒有那么多的人力來篩選。那么,我們可以通過視頻對(duì)人、車和非機(jī)動(dòng)車進(jìn)行監(jiān)測(cè)和標(biāo)注,包括對(duì)人的性別、體貌特征、車型、車牌、顏色等等進(jìn)行監(jiān)測(cè)。它可以自動(dòng)監(jiān)測(cè)出在什么時(shí)段,在什么位置,一個(gè)有著什么樣具體特征的人出現(xiàn)等等信息。
智慧商業(yè)與此類似,就是商場(chǎng)各個(gè)角落的情況,都可以做到實(shí)時(shí)監(jiān)控。
?自動(dòng)駕駛與人臉檢測(cè)定位系統(tǒng)
我們的另一個(gè)方向是自動(dòng)駕駛。現(xiàn)在自動(dòng)駕駛炒得非常熱。但是,做出一個(gè)能在路上跑的車,這是汽車廠商一百年前就做的事,不屬于人工智能范疇。我們要做的,是支撐這些新功能背后的核心技術(shù)。在自動(dòng)駕駛里,有30項(xiàng)基本技術(shù),每一項(xiàng)都是有一定的門檻,需要很多人付出卓絕的努力。
比如說物體檢測(cè)功能,對(duì)任何物體進(jìn)行跟蹤檢測(cè),是我們?cè)?015年取得最好成績的那次競賽的參賽項(xiàng)目。這個(gè)技術(shù)能夠讓我們對(duì)街道上所有的機(jī)動(dòng)車、非機(jī)動(dòng)車和行人進(jìn)行時(shí)實(shí)跟蹤監(jiān)測(cè)。同時(shí),我們可以監(jiān)測(cè)出馬路上的人在往哪個(gè)方向看,有沒有注意到車來的方向。還可以監(jiān)測(cè)車道線,并且不受大霧、大雨等極端天氣的影響。
還有場(chǎng)景的感知。空間在什么地方,所有物體的分割、分類都可以進(jìn)行實(shí)時(shí)感知。包括對(duì)司機(jī)的監(jiān)測(cè)等等。當(dāng)然,這不是全自動(dòng)駕駛,而是輔助駕駛。是將人的行為表現(xiàn)反饋回來,通過人與汽車面板的交互、協(xié)同來完成駕駛?cè)蝿?wù)。
?在手機(jī)中的應(yīng)用
i.手機(jī)相冊(cè)
如果用戶手機(jī)中有一張模糊的照片,用我們的深度算法,可以把暗光增強(qiáng),把非常小的圖像放大,使它變成一張很清晰的圖像,甚至可以識(shí)別出圖片所中一些細(xì)小又模糊的文字。包括圖像的顏色恢復(fù)、先拍照后聚焦等等功能。這是一件很神奇的事,用戶可以先拍一張照片,然后再選擇在哪一個(gè)點(diǎn)聚焦。還可以用濾鏡把圖片變成各種各樣風(fēng)格的畫面。這是我們兩年前就做出的技術(shù)。同時(shí),我們也是第一個(gè)用深度學(xué)習(xí)做圖像處理,并且第一個(gè)把它真正產(chǎn)品化的機(jī)構(gòu)。
可以說,所有客戶端的相冊(cè)都有我們公司所提供的相冊(cè)管理服務(wù)。比如小米手機(jī)里就有我們的相冊(cè)管理軟件——寶寶相冊(cè),這是小米的一個(gè)亮點(diǎn)。
ii.換臉術(shù)
在華為的相冊(cè)管理里,人臉和40類場(chǎng)景也是我們提供的。這是一個(gè)很好玩的應(yīng)用特效,可以將照片上的人臉換成另一張臉。
iii.特效技術(shù)
與換臉相類似的技術(shù)是做各種各樣的特效。facv和各種直播的特效,以及韓國的cno的背后,都有我們的支持,秒拍、花椒、獵豹、移動(dòng)都是我們的客戶,加起來大概有上百家。在大家經(jīng)常看到的特效軟件背后,也是我們的
在VR游戲、電視遙控等領(lǐng)域,都有我們的應(yīng)用。遠(yuǎn)程教育也是我們的應(yīng)用之一。在遠(yuǎn)程教學(xué)中,教師可以觀察到學(xué)生的聽課狀態(tài)。
?線上空間與手機(jī)軟件
在線上我們也有用武之地。比如應(yīng)用于借貸寶,還有跟中國移動(dòng)的獨(dú)家合作。目前,在中國移動(dòng)買一個(gè)手機(jī)卡需要進(jìn)行身份的識(shí)別和認(rèn)證,這方面我們?cè)诼?lián)合開發(fā)其它產(chǎn)品。
樂視上網(wǎng)也采用了人臉識(shí)別系統(tǒng)。手機(jī)也可以嵌入我們的系統(tǒng)。
還有一些技術(shù)未必馬上就能夠應(yīng)用于產(chǎn)品,但是未來必然會(huì)用到,它們也是我們開辟的新的研發(fā)方向。比如說,我們用兩個(gè)人上傳到網(wǎng)絡(luò)的照片可以分析出這兩個(gè)人的表情、距離、方向,彼此之間的關(guān)系是信任的,還是依賴的。這些技術(shù)的用處是什么呢?其中的一個(gè)應(yīng)用是大數(shù)據(jù)征信。比如我發(fā)現(xiàn)你跟一個(gè)非常高端的人士有一張合影,你的信譽(yù)值就有可能會(huì)提高。而如果你跟罪犯有著密切的關(guān)系,那么如果我是銀行,是不會(huì)把錢借給你的。
我們也可以用VDIA做這件事,用每一幀圖像分析出兩個(gè)人的關(guān)系。當(dāng)然了,不是所有的問題都能夠得到解決,比如說,我兒子跟這個(gè)玩具小娃娃的關(guān)系,我們?cè)趺捶治觯繉?duì)6個(gè)月大的嬰兒怎樣去分析?我想人工智能還不能完全理解這其中的奧秘。
但是,通過對(duì)視頻的分析,我們可以分析出某一個(gè)情景是不是災(zāi)難,從而對(duì)其進(jìn)行預(yù)警。
2、一個(gè)技術(shù)核心
所有這一切,聽起來有十幾個(gè)方向,但其背后的技術(shù)都是相通的,都是整個(gè)人體的交互。它主要還是在用一個(gè)核心的大腦在與各個(gè)行業(yè)進(jìn)行結(jié)合,這是一個(gè)高門檻的技術(shù)。
如果你玩過微軟的TNET(音),就知道可以用人控制這個(gè)游戲。但是,TNET是一個(gè)深度攝相頭,兩個(gè)攝相頭加上一個(gè)VC,價(jià)格大概在幾百美元。我們現(xiàn)在做的是用一個(gè)一、二百美元的單向攝像頭就可以實(shí)現(xiàn)這個(gè)功能,并且有著廣泛的應(yīng)用場(chǎng)景。比如在智能家居、游戲等領(lǐng)域,我們都是第一個(gè)做出時(shí)實(shí)效果的機(jī)構(gòu)。
3、與2B企業(yè)的合作空間
目前,有好幾家廠商,包括OPPO、360、微博相冊(cè)等等已經(jīng)采用了我們的技術(shù)。前段時(shí)間,有一個(gè)公司做的toC產(chǎn)品跟我們的技術(shù)有些類似,但實(shí)際上,我們并不做C端,而是跟toB的企業(yè)合作。
我們自己并不做手機(jī),也不會(huì)親自做攝相頭,而是與這些產(chǎn)業(yè)的領(lǐng)袖、產(chǎn)業(yè)中最優(yōu)秀的企業(yè)進(jìn)行戰(zhàn)略合作,然后把我們的技術(shù)植入到對(duì)方的產(chǎn)品中去。

“湯曉鷗,商湯科技創(chuàng)始人,中國科學(xué)院深圳先進(jìn)技術(shù)研究院副院長、集成所多媒體中心主任、香港中文大學(xué)教授、工程學(xué)院副院長,麻省理工學(xué)院博士,其發(fā)明的人臉識(shí)別技術(shù)(GaussianFace/DeepID)成為世界上第一個(gè)超過人眼識(shí)別能力的計(jì)算機(jī)算法。”
大家中午好!非常榮幸能夠與這么多業(yè)界精英同臺(tái)演講。
三年前,我常常跟投資人、跟一些企業(yè)家講人工智能、講深度學(xué)習(xí),但那個(gè)時(shí)候大家還不理解,也都不太關(guān)心。后來,谷歌推出了阿爾法狗,人工智能就火了。除了受阿爾法狗事件的影響之外,也得益于美國五大人工智能巨頭形成的聯(lián)盟。中國在雙創(chuàng)活動(dòng)中也選擇了兩家人工智能的領(lǐng)軍企業(yè),一家是百度,另外一家是商湯,這是兩家中國智能的代表。所以,張維總提到了高估值的商湯,我認(rèn)為并不高,應(yīng)該是低估值的商湯。
但是,現(xiàn)在大家都在講人工智能,給我的感覺是,人工智能在中國有點(diǎn)過熱了,所以我今天想為大家潑潑冷水。
一、人工智能的作用是有限的
人工智能是什么呢?應(yīng)該說,它跟A股很像。如果說上海是中國的A股市場(chǎng)所在地,那么三年前,人工智能相當(dāng)于A股市場(chǎng)的三千點(diǎn)以下,沒有人買。而今年,這個(gè)指數(shù)飆到了六千點(diǎn)。在這種情況下,大家是買還是不買呢?
有的時(shí)候,我們會(huì)把一些事看得太過神奇。這與彭劍鋒教授所講到互聯(lián)網(wǎng)的發(fā)展是同樣的道理,人工智能也不過是一個(gè)輔助性的工具,并不是事情的全部。這個(gè)工具本身并不能產(chǎn)生獨(dú)立的價(jià)值,而一定是在跟各個(gè)行業(yè)相結(jié)合以后,為各個(gè)行業(yè)生產(chǎn)效率的提升來服務(wù)的。我認(rèn)為,飯要自己親自吃,廁所也要自己親自上,鍛煉身體也一定要親自去。我們不能過于依賴人工智能,不能把什么事都交給它,它的作用畢竟還是很有限的。
十年前,我的實(shí)驗(yàn)室做出了人臉識(shí)別系統(tǒng),里面涉及到一些圖像處理、特效處理、自動(dòng)分割以及交互等內(nèi)容,也越來越好玩。
圖像處理源于2008年的北京霧霾。當(dāng)時(shí)正在召開奧運(yùn)會(huì),因?yàn)殪F霾的原因,新聞圖片發(fā)出去會(huì)令人感到尷尬。所以,我們定制了一些功能,用了一些算法,可以把圖像里的霧去掉。我們這次會(huì)議的地點(diǎn)在三亞,在這樣的碧海藍(lán)天之間,這個(gè)技術(shù)是用不到的。但今天的題目是迷霧航行,雖然我們不再需要去除新聞圖片中的霧霾了,但就目前大家對(duì)人工智能的認(rèn)識(shí)來看,我覺得還是把認(rèn)識(shí)的“霧”去掉,然后航向才能明確。
那么,在人工智能方面怎么去霧,怎樣才能真正踏踏實(shí)實(shí)地做點(diǎn)事呢?
我們知道,霧的濃度和距離是成比的。所以在新聞圖片中,我們先是把三維算出來,然后把霧去掉,并且還能把背景模糊化。最后,一張非常糟糕的照片被我們做出了單反的效果。這一技術(shù)所形成的文章得到了2009年的最佳論文獎(jiǎng),我還是蠻驕傲的。但是,這一技術(shù)的產(chǎn)生,是在2011年以前,有我們十幾年的積累做基礎(chǔ),也是在深度學(xué)習(xí)這個(gè)算法產(chǎn)生之前的事。我想說的是,和所謂的人工智能一樣,這些技術(shù)都不是一夜之間發(fā)生的,而是一個(gè)長期艱苦積累的過程。并且是我們所積累的幾百項(xiàng)工作中比較出色的部分。
二、人工智能與深度學(xué)習(xí)
1、人工智能“簡史”
目前,人工智能目前發(fā)展到了什么程度呢?根據(jù)我二十年來做的工作,我總結(jié)一下人工智能發(fā)展的簡單歷程。
在國際范圍內(nèi),人工智能最早誕生于1956年。從那以后,人工智能的發(fā)展勢(shì)頭不斷起起落落,也曾喧囂,但最終都?xì)w于平靜,并沒有真正發(fā)掘出對(duì)人類社會(huì)生活有益的功能。但是在2011年,誕生于2006年的“深度學(xué)習(xí)”的算法產(chǎn)生了效用。從那時(shí)開始,人工智能開始具體應(yīng)用于很多的單向領(lǐng)域或者說具體的行業(yè),并且開始超越了人的水平。
對(duì)于人工智能的發(fā)展,幾個(gè)主要的“玩家”起到了決定性的推動(dòng)作用。在軟件方面,谷歌和Facebook進(jìn)行了大量的投入,很多創(chuàng)新都是從這兩家公司產(chǎn)生的。為什么是它們?因?yàn)樗鼈冇写罅康臄?shù)據(jù)要處理,它們有剛性的需求。同時(shí),它們也有大量的資金投入。谷歌去年一年在人工智能領(lǐng)域的研發(fā)投入是120億美金。阿爾法狗幾次挑戰(zhàn)李世石,還有相應(yīng)的宣傳,都是大量投入的結(jié)果,并不是簡單的炒作就能夠達(dá)成的。同時(shí),F(xiàn)acebook也在這一領(lǐng)域做出了大量的投入。
在硬件方面,包括深度學(xué)習(xí)的算法、計(jì)算平臺(tái)幾乎都是在Spotify的GPU上做起來的,它們相當(dāng)于取代了當(dāng)年vpail的組合。
2、深度學(xué)習(xí)引擎
如果說人工智能是一條紅線,那么,深度學(xué)習(xí)在某種意義上來說就是這個(gè)紅線的引擎,而大數(shù)據(jù)就是它的原料。目前,人工智能的大部分技術(shù),都是由深度學(xué)習(xí)算法來支撐的。
深度學(xué)習(xí)發(fā)展出來的時(shí)間很短。在2011年,它跟微軟進(jìn)行了合作,在語音識(shí)別技術(shù)上取得了重大突破。當(dāng)時(shí),微軟首先推出的是應(yīng)用方面的驅(qū)動(dòng)。在那以后,因?yàn)橛辛硕嗄甏髷?shù)據(jù)的積累,又組織了更多在語音識(shí)別方面有相當(dāng)實(shí)力的人,所以就有了更加重大的突破,相當(dāng)于在一年之內(nèi)做了十年的事。
3、在垂直領(lǐng)域落地
我們從原來人腦設(shè)計(jì)參數(shù)的人工智能轉(zhuǎn)變?yōu)橛纱髷?shù)據(jù)驅(qū)動(dòng)的人工智能,實(shí)際上是在某些領(lǐng)域取得的技術(shù)突破,主要是在某個(gè)特定的領(lǐng)域超過了人。比如說,最早用深度學(xué)習(xí)做出來的語音識(shí)別系統(tǒng)大獲成功。在人臉識(shí)別、圖像分類、阿爾法狗、自動(dòng)駕駛、醫(yī)療技術(shù)等幾個(gè)方面都有著很大程度的突破。這些學(xué)術(shù)方面的突破,使計(jì)算機(jī)超越了人類以后,就相當(dāng)于在垂直領(lǐng)域邁過了一道檻。而這道檻之后,人工智能技術(shù)終于可以落地了,終于可以替換一些人工成本,來幫助產(chǎn)業(yè)提高效率了。
所以,我們看到的人工智能涉及到了很多具體的領(lǐng)域,有的與產(chǎn)業(yè)結(jié)合得很好,有的則剛剛開始,當(dāng)然也有一些完全是出于炒作。總之是參差不齊,或者說是各有千秋。
4、圖像:眼睛的智能
目前,人工智能主要有三個(gè)戰(zhàn)場(chǎng):一個(gè)是語音識(shí)別,相對(duì)來說比較成熟;它之后是自然語言,在這個(gè)領(lǐng)域還有很多事要繼續(xù)研究,非常難;現(xiàn)在的主戰(zhàn)場(chǎng)是圖像,就是眼睛的智能。怎樣用眼睛識(shí)別出環(huán)境與物體,這也是非常困難的事。
2012年,Hinton在圖像識(shí)別方面也取得了重大突破。在此之前,Viewdle擁有這個(gè)領(lǐng)域最大的訂單,但Hinton的成果一下把前人甩出了10年的距離,并在當(dāng)時(shí)引起了很大的轟動(dòng)。
在此之后,僅僅過了4個(gè)月,谷歌花了5千萬美金收購了它。這個(gè)驚人的舉措令我們認(rèn)識(shí)到,人工智能開始值錢了。接著,谷歌又花了6.6億美金收購了一家公司。這家公司只有12個(gè)人,沒有什么特別的產(chǎn)品,主要是研究如何用深度學(xué)習(xí)來下棋。當(dāng)時(shí)我們覺得它的價(jià)格過于昂貴了,但實(shí)際上這個(gè)公司誕生了很多算法,所以僅僅過了一年多以后,他們用阿爾法狗下了一盤舉世震驚的棋,一下子就把投入的錢賺回來了。
2013年,F(xiàn)acebook聘請(qǐng)了另外的團(tuán)隊(duì),在紐約建立了人工智能實(shí)驗(yàn)室。后來,通用、因特爾等大企業(yè)也紛紛進(jìn)入到這一領(lǐng)域,并且也開始收購一些公司。
三、人臉識(shí)別技術(shù)——華人的成就
在這期間,我們做了幾件比較有影響力的事。2014年,我們首次突破了人臉識(shí)別技術(shù)(ImageNet,一個(gè)計(jì)算機(jī)視覺系統(tǒng)識(shí)別項(xiàng)目,是目前世界上圖像識(shí)別最大的數(shù)據(jù)庫),在2015年的時(shí)候取得了全球第一的成績,2016年在五項(xiàng)里取得了三項(xiàng)世界冠軍。與阿爾法狗一樣,我們也做到了機(jī)器的算法超過了人類,在某個(gè)特定的領(lǐng)域可以把人打敗。
這其實(shí)并不神奇,因?yàn)槠囋缫言谫惻艿念I(lǐng)域打敗了人類。可以說,在某個(gè)特定領(lǐng)域打敗人類不是什么了不起的事。但是人們普遍認(rèn)為,人工智能就是機(jī)器人,它可以超越人腦并控制人類。但事實(shí)上,這是非常遙遠(yuǎn)的事情。我們真正在一線做人工智能研發(fā)的人是不敢這么想的,只是致力于讓機(jī)器做事先設(shè)計(jì)好的特定任務(wù),絕不會(huì)有另外的任務(wù)附加給它。我們經(jīng)常開玩笑說,李世石在跟阿爾法狗下棋之前,也許早已在賭博公司下了賭注,賭自己輸。但是,阿爾法狗想不到這一點(diǎn),所以盡管它以為自己贏了,但實(shí)際上它輸了(笑)。
深度學(xué)習(xí)有三個(gè)大核心要素:一是深度學(xué)習(xí)的算法設(shè)計(jì);二是高性能的計(jì)算平臺(tái);三是大數(shù)據(jù)。
1、艱難而輝煌的戰(zhàn)績
2011年,我們實(shí)驗(yàn)室的幾十個(gè)博士、教師開始研究深度學(xué)習(xí)。這是學(xué)術(shù)界最早涉獵深度學(xué)習(xí)的華人團(tuán)隊(duì)。因?yàn)樽龅迷纾栽?011—2013年間,在人工計(jì)算機(jī)視角最頂級(jí)的兩個(gè)會(huì)議上,全球貢獻(xiàn)的29篇涉及到深度學(xué)習(xí)的文章中,有14篇出自我們的實(shí)驗(yàn)室,占了全球一半的數(shù)量。2014年,我們又打敗了Facebook,在人臉識(shí)別技術(shù)方面超過了人眼識(shí)別。當(dāng)時(shí),一般人眼識(shí)別的準(zhǔn)確率是75%強(qiáng),但Facebook做到了97.3%。但我們的團(tuán)隊(duì)連續(xù)做了四五個(gè)算法,最后從97.4%一路做到了99.55%,在與Facebook和谷歌的競爭中取得了好成績。
2014年9月份,我們又參加了一個(gè)世界級(jí)的大賽,與包括百度、谷歌、牛津、微軟在內(nèi)的37個(gè)世界頂級(jí)團(tuán)隊(duì)競爭,取得了全球第二的成績,谷歌是第一。其實(shí)在競賽中,我們做到了的數(shù)據(jù)高于谷歌發(fā)布的成績,所以只能屈居第二。
2015年,組委會(huì)在比賽中加入了視頻。在視頻的檢測(cè)中,我們?nèi)〉昧巳虻谝坏某煽儭?br />
2016年,我們?cè)谖屙?xiàng)比賽里取得了三項(xiàng)第一名。
2、我們自己的開源系統(tǒng)
這個(gè)時(shí)候,我們其實(shí)在做一個(gè)“大腦”,這是一個(gè)非常困難的任務(wù)。深度學(xué)習(xí)跟人的大腦有相似之處,越難的任務(wù)會(huì)做得越好。比如說,我們要從幾千個(gè)瓶子里識(shí)別出其中的一個(gè),這個(gè)算法肯定做不好。但如果能做出一千類物體的識(shí)別技術(shù),把它做成最好的大腦,這時(shí)再回來識(shí)別瓶子,就可以做得很好。ImageNet就是對(duì)一千個(gè)問題進(jìn)行了分類。跟人腦的相似之處在于,如果一個(gè)人希望在未來搞投資,那他肯定不會(huì)從幼兒園到小學(xué)只學(xué)投資這件事。人在小的時(shí)候,數(shù)學(xué)、物理、化學(xué)、歷史都要學(xué)習(xí),只有讀到博士的時(shí)候再去做具體的任務(wù)。所以,一定要有把大腦訓(xùn)練聰明的過程。
大腦的核心就像是一套操作系統(tǒng),它是一個(gè)開源系統(tǒng)。谷歌和Facebook都有它自己的開源系統(tǒng)用來做基礎(chǔ)應(yīng)用,而且有一些還是免費(fèi)的。現(xiàn)在人工智能、深度學(xué)習(xí)的門檻變得比較低,就是因?yàn)樗辛碎_源系統(tǒng)。有了這個(gè)系統(tǒng),隨便找?guī)讉€(gè)懂點(diǎn)技術(shù)的人,利用這套系統(tǒng)就可以訓(xùn)練出一個(gè)模型,可以做一些應(yīng)用。
但是,這里存在一個(gè)問題。比如你要做的是安卓系統(tǒng)還是在安卓系統(tǒng)上寫一個(gè)APP?我們經(jīng)常會(huì)把這兩件事混為一談。比如有的人能做幾個(gè)APP,演示出來就被說成是人工智能,但事實(shí)上它們是不同的。而且,我們做出來的東西是不是好,都是要受這套開源系統(tǒng)的控制。
我們?cè)?011年的時(shí)候還沒有開源系統(tǒng),所以要努力學(xué)習(xí),從頭做起。這些年來,我們成功開發(fā)了自己的這套系統(tǒng),雖然沒有完全對(duì)外開放,但我們自己和一些合作伙伴都在用。
今年開始,我們開始用這套系統(tǒng)訓(xùn)練ImageNet。它是一個(gè)神經(jīng)網(wǎng)絡(luò),有點(diǎn)像DNA的結(jié)構(gòu)。在2012年,我們做到了5層,谷歌打贏我們的那場(chǎng)比賽用的是22層,去年微軟做的是152,而用我們的系統(tǒng)訓(xùn)練出來的是1207層。
在2013年的時(shí)候,我們訓(xùn)練網(wǎng)絡(luò)的檢測(cè)準(zhǔn)確率只有22%,2014年做到了53%,后來又發(fā)展到了62%,現(xiàn)在我們的最好成績是66%。可以看到,以前,我們最好的進(jìn)展情況大概是一年一個(gè)點(diǎn),這樣的速度就完全可以發(fā)論文了。但是經(jīng)過了這三四年,從22到66,我們已經(jīng)翻了三倍,這就是進(jìn)展的速度。跟以前不一樣的是,我們?cè)趩蜗蛉蝿?wù)上也是突飛猛進(jìn)的。
3、自己的操算平臺(tái)
訓(xùn)練這么復(fù)雜的一個(gè)網(wǎng)絡(luò)需要一個(gè)大的平臺(tái)。谷歌和Facebook的開源系統(tǒng)并不支持這個(gè)大平臺(tái)的運(yùn)算,所以我們要做自己的操算平臺(tái),并且要與谷歌的機(jī)器連起來。我們?cè)谙愀塾幸粋€(gè)操算集群,在北京有三個(gè),只有在這樣的大集群上才能真正的訓(xùn)練出核心的大腦和核心的網(wǎng)絡(luò)。
在這方面,我們主要的合作伙伴有兩家,一家是NVDIA。我們幾乎所有的智能學(xué)習(xí)都是基于它的CPU在進(jìn)行運(yùn)算。很榮幸,這家公司把我們當(dāng)成了跟谷歌、Facebook一樣級(jí)別的戰(zhàn)略伙伴。另一家是用一些高速的網(wǎng)絡(luò)把這些機(jī)器連起來,和我們也形成了戰(zhàn)略合作伙伴關(guān)系。目前,我們正與這兩家公司共同研究下一代產(chǎn)品。
4、大數(shù)據(jù)庫
最后一個(gè)是大數(shù)據(jù)。有了模型,有了平臺(tái),還需要海量的數(shù)據(jù)。在這方面我們與300多家企業(yè)進(jìn)行了合作,有18類、十幾億的各種圖像和多媒體的數(shù)據(jù)。同時(shí),我們也在建立一些大型的學(xué)術(shù)方面的數(shù)據(jù)庫,定義了很多新的研究方向和新的課題,包括人臉數(shù)據(jù)庫、車型數(shù)據(jù)庫等等。
比如車型數(shù)據(jù)庫,在我們進(jìn)入這一領(lǐng)域之前,學(xué)術(shù)界只有10幾種車型,而我們定義了上千種。對(duì)人群定義了94種特性。還有各種服裝的數(shù)據(jù)庫也是我們定義出來的。以前,我們看別人的文章,跟著別人的文章做,現(xiàn)在我們自己做文章,做專利,也在參與做標(biāo)準(zhǔn)。并且我們又在開辟新的方向,提出新的問題,定義新的數(shù)據(jù)庫,定義新的玩法,這實(shí)際上是在引領(lǐng)新的學(xué)術(shù)研究方向。
5、人工智能的十大先驅(qū)
在這些輝煌的戰(zhàn)績背后,是我們實(shí)驗(yàn)團(tuán)隊(duì)的艱苦付出。以圖像放大,并處理清晰這件事為例,大家不妨感受一下,人工智能這件事到底有多難。
比如,我們?cè)跈C(jī)場(chǎng)拍到的罪犯的照片很模糊,經(jīng)過超分辨率處理變成清晰了以后,可以輔助警方把他給抓住。我們不但要把圖片放大,并且還要使模糊的照片變得清晰、漂亮。在已經(jīng)做十幾年之后,我們?nèi)匀挥X得做不到。因?yàn)橐呀?jīng)有人做得很先進(jìn)了,但他們也沒有做到。最初,我們用當(dāng)時(shí)的算法得到的結(jié)果是令人失望的,放大了以后效果很差。但是,我們?nèi)匀辉谌四槞z測(cè)、高分辨率、人臉的特性分布等所有方面進(jìn)行了大量的研究,每一項(xiàng)都有專門的文章。最近兩年,我們有多篇文章從這一方向闡述,并拿到了世界頂級(jí)的學(xué)術(shù)會(huì)議上。從學(xué)術(shù)的角度來講,這些都是很大的進(jìn)步,但是花了這么大的功夫,也仍然有太多太多的空間有待我們?nèi)ミM(jìn)步,還有很多的技術(shù)沉淀,有很多工作要做。
剛剛我們又投出了幾篇把一張小圖變成高清大圖的文章,因?yàn)檫@里面的應(yīng)用前景非常廣闊。我們知道,傳輸一張高清大圖的速度很慢,那么我可以把它壓縮得非常小,傳過去以后,可以由接收端自行放大,并且得到非常高清的效果。日本有人用我們的技術(shù)做了一個(gè)很好玩的應(yīng)用,叫做WAIFU2x,翻譯過來就是放大兩倍,就是把普通照片放大兩倍的意思,并且變得更加清晰。
但更重要的是,諸如遙感衛(wèi)星監(jiān)控,還有一些軍事上的偵查,都可以應(yīng)用這一技術(shù)。
在沒有高分辨率技術(shù)之前,一般系統(tǒng)的分辯率都非常差,但用了人臉定位信息以后,我們可以實(shí)時(shí)并且非常準(zhǔn)確地把人臉上的點(diǎn)定位出來,然后進(jìn)行多集放大,每一集放大一點(diǎn)后再定位,然后放大一點(diǎn),再定位,最后取得了非常好的效果。最初,我們?cè)谌虻谝粋€(gè)做到了5點(diǎn)深度學(xué)習(xí),后來做到了106點(diǎn)定位。現(xiàn)在,業(yè)界有用很多人臉跟蹤的應(yīng)用,據(jù)說直播軟件背后都是這一技術(shù)。同時(shí),我們?cè)趯?shí)際偵查圖像上進(jìn)行了應(yīng)用,基本可以把人看清楚了。這在以前是完全做不到的。
人工智能不可能橫空出世,說出來人們也不會(huì)相信。我們之所以能夠做這些事,是因?yàn)槲覀冇幸欢ǖ姆e累。我們?cè)谏疃葘W(xué)習(xí)之前已經(jīng)有了很長時(shí)間的積累。比如,從2004到2008年間,我們?cè)趦蓚€(gè)頂級(jí)學(xué)術(shù)會(huì)議上的文章數(shù)量,其中的一個(gè)實(shí)驗(yàn)室就做了57篇,而NIT一共有91篇,劍橋是30篇,可以說我們跟這些學(xué)校打了一個(gè)平手。前年也是在這兩個(gè)會(huì)議上,我們發(fā)出了24篇文章,谷歌是38篇。要知道,谷歌是擁有6萬名員工的大公司。去年,還是這兩次會(huì)議,我們又發(fā)表了42篇文章,超過了谷歌前年的水平。按照這個(gè)標(biāo)準(zhǔn),我們頂多落后于谷歌一年。
在人工智能領(lǐng)域,全世界有600個(gè)國際會(huì)議。在其中排名前五的會(huì)議上,從我們實(shí)驗(yàn)室畢業(yè)的學(xué)生拿到了54個(gè)最佳論文獎(jiǎng),包括剛才講到的去霧的算法。要知道,這些會(huì)議每次從一千多篇文章里只會(huì)選出一篇,而且是雙盲選擇,與人無關(guān),只與文章本身有關(guān)。這跟中國的一些獎(jiǎng)項(xiàng)的評(píng)選完全是不同的運(yùn)作方式。
我們的這些成績,也得到了國際上的承認(rèn)。NVDIA去年評(píng)選出了人工智能的十大先驅(qū),我們很榮幸地位列其中,也是亞洲區(qū)唯一入選的實(shí)驗(yàn)室。跟我們同時(shí)入選的另外9家都是計(jì)算機(jī)視角鼎鼎有名的機(jī)構(gòu),包括NIT、斯坦福等等世界級(jí)的百年名校,還有深度學(xué)習(xí)的“四大天王”、Facebook、谷歌的一些元老等等。與之相比,香港中文大學(xué)只是一所有著50年歷史的名校,而作為唯一一個(gè)比較年輕的實(shí)驗(yàn)室,我們也不是靠學(xué)校的名氣入選的。
三、人臉識(shí)別技術(shù)在產(chǎn)品中的應(yīng)用
以上是我們的一些學(xué)術(shù)成績。但是,如果這些成果不能落地,最終不能進(jìn)入到產(chǎn)品階段,不能夠讓大家用起來,那就成了紙上談兵。那么,我們的成果怎樣落地,怎樣能夠在產(chǎn)品中得到應(yīng)用呢?
1、多個(gè)應(yīng)用方向
?平安城市與智慧商業(yè)
首先是平安城市。我們的人群監(jiān)控系統(tǒng)能夠時(shí)實(shí)分析出整個(gè)場(chǎng)景中有多少人,每一點(diǎn)上人的密度,每個(gè)進(jìn)出口的人的數(shù)量,或者是各種逆向流動(dòng)等特殊情況,都能夠監(jiān)控。大家都知道上海外灘發(fā)生過大規(guī)模的踐踏事件,假如外灘有我們這套系統(tǒng),那次悲劇完全是可以避免的。
還有人臉識(shí)別技術(shù),在各種場(chǎng)景下,比如地鐵口、火車站等,完全不需要指令就可以進(jìn)行高精度的人臉識(shí)別,這是“靜場(chǎng)景”的人臉識(shí)別。除此之外,我們還可以“抓人”,在百米之外看到目標(biāo),能夠把他拉近以后進(jìn)行識(shí)別。也能夠從百米之外將車輛拉近,識(shí)別出它的車牌、車型等等。這是對(duì)人群的遠(yuǎn)距離監(jiān)控。
在對(duì)視頻結(jié)構(gòu)化以后,我們?cè)诿總€(gè)城市都可以有上百萬的監(jiān)控?cái)z相頭,但沒有那么多的人力來篩選。那么,我們可以通過視頻對(duì)人、車和非機(jī)動(dòng)車進(jìn)行監(jiān)測(cè)和標(biāo)注,包括對(duì)人的性別、體貌特征、車型、車牌、顏色等等進(jìn)行監(jiān)測(cè)。它可以自動(dòng)監(jiān)測(cè)出在什么時(shí)段,在什么位置,一個(gè)有著什么樣具體特征的人出現(xiàn)等等信息。
智慧商業(yè)與此類似,就是商場(chǎng)各個(gè)角落的情況,都可以做到實(shí)時(shí)監(jiān)控。
?自動(dòng)駕駛與人臉檢測(cè)定位系統(tǒng)
我們的另一個(gè)方向是自動(dòng)駕駛。現(xiàn)在自動(dòng)駕駛炒得非常熱。但是,做出一個(gè)能在路上跑的車,這是汽車廠商一百年前就做的事,不屬于人工智能范疇。我們要做的,是支撐這些新功能背后的核心技術(shù)。在自動(dòng)駕駛里,有30項(xiàng)基本技術(shù),每一項(xiàng)都是有一定的門檻,需要很多人付出卓絕的努力。
比如說物體檢測(cè)功能,對(duì)任何物體進(jìn)行跟蹤檢測(cè),是我們?cè)?015年取得最好成績的那次競賽的參賽項(xiàng)目。這個(gè)技術(shù)能夠讓我們對(duì)街道上所有的機(jī)動(dòng)車、非機(jī)動(dòng)車和行人進(jìn)行時(shí)實(shí)跟蹤監(jiān)測(cè)。同時(shí),我們可以監(jiān)測(cè)出馬路上的人在往哪個(gè)方向看,有沒有注意到車來的方向。還可以監(jiān)測(cè)車道線,并且不受大霧、大雨等極端天氣的影響。
還有場(chǎng)景的感知。空間在什么地方,所有物體的分割、分類都可以進(jìn)行實(shí)時(shí)感知。包括對(duì)司機(jī)的監(jiān)測(cè)等等。當(dāng)然,這不是全自動(dòng)駕駛,而是輔助駕駛。是將人的行為表現(xiàn)反饋回來,通過人與汽車面板的交互、協(xié)同來完成駕駛?cè)蝿?wù)。
?在手機(jī)中的應(yīng)用
i.手機(jī)相冊(cè)
如果用戶手機(jī)中有一張模糊的照片,用我們的深度算法,可以把暗光增強(qiáng),把非常小的圖像放大,使它變成一張很清晰的圖像,甚至可以識(shí)別出圖片所中一些細(xì)小又模糊的文字。包括圖像的顏色恢復(fù)、先拍照后聚焦等等功能。這是一件很神奇的事,用戶可以先拍一張照片,然后再選擇在哪一個(gè)點(diǎn)聚焦。還可以用濾鏡把圖片變成各種各樣風(fēng)格的畫面。這是我們兩年前就做出的技術(shù)。同時(shí),我們也是第一個(gè)用深度學(xué)習(xí)做圖像處理,并且第一個(gè)把它真正產(chǎn)品化的機(jī)構(gòu)。
可以說,所有客戶端的相冊(cè)都有我們公司所提供的相冊(cè)管理服務(wù)。比如小米手機(jī)里就有我們的相冊(cè)管理軟件——寶寶相冊(cè),這是小米的一個(gè)亮點(diǎn)。
ii.換臉術(shù)
在華為的相冊(cè)管理里,人臉和40類場(chǎng)景也是我們提供的。這是一個(gè)很好玩的應(yīng)用特效,可以將照片上的人臉換成另一張臉。
iii.特效技術(shù)
與換臉相類似的技術(shù)是做各種各樣的特效。facv和各種直播的特效,以及韓國的cno的背后,都有我們的支持,秒拍、花椒、獵豹、移動(dòng)都是我們的客戶,加起來大概有上百家。在大家經(jīng)常看到的特效軟件背后,也是我們的
在VR游戲、電視遙控等領(lǐng)域,都有我們的應(yīng)用。遠(yuǎn)程教育也是我們的應(yīng)用之一。在遠(yuǎn)程教學(xué)中,教師可以觀察到學(xué)生的聽課狀態(tài)。
?線上空間與手機(jī)軟件
在線上我們也有用武之地。比如應(yīng)用于借貸寶,還有跟中國移動(dòng)的獨(dú)家合作。目前,在中國移動(dòng)買一個(gè)手機(jī)卡需要進(jìn)行身份的識(shí)別和認(rèn)證,這方面我們?cè)诼?lián)合開發(fā)其它產(chǎn)品。
樂視上網(wǎng)也采用了人臉識(shí)別系統(tǒng)。手機(jī)也可以嵌入我們的系統(tǒng)。
還有一些技術(shù)未必馬上就能夠應(yīng)用于產(chǎn)品,但是未來必然會(huì)用到,它們也是我們開辟的新的研發(fā)方向。比如說,我們用兩個(gè)人上傳到網(wǎng)絡(luò)的照片可以分析出這兩個(gè)人的表情、距離、方向,彼此之間的關(guān)系是信任的,還是依賴的。這些技術(shù)的用處是什么呢?其中的一個(gè)應(yīng)用是大數(shù)據(jù)征信。比如我發(fā)現(xiàn)你跟一個(gè)非常高端的人士有一張合影,你的信譽(yù)值就有可能會(huì)提高。而如果你跟罪犯有著密切的關(guān)系,那么如果我是銀行,是不會(huì)把錢借給你的。
我們也可以用VDIA做這件事,用每一幀圖像分析出兩個(gè)人的關(guān)系。當(dāng)然了,不是所有的問題都能夠得到解決,比如說,我兒子跟這個(gè)玩具小娃娃的關(guān)系,我們?cè)趺捶治觯繉?duì)6個(gè)月大的嬰兒怎樣去分析?我想人工智能還不能完全理解這其中的奧秘。
但是,通過對(duì)視頻的分析,我們可以分析出某一個(gè)情景是不是災(zāi)難,從而對(duì)其進(jìn)行預(yù)警。
2、一個(gè)技術(shù)核心
所有這一切,聽起來有十幾個(gè)方向,但其背后的技術(shù)都是相通的,都是整個(gè)人體的交互。它主要還是在用一個(gè)核心的大腦在與各個(gè)行業(yè)進(jìn)行結(jié)合,這是一個(gè)高門檻的技術(shù)。
如果你玩過微軟的TNET(音),就知道可以用人控制這個(gè)游戲。但是,TNET是一個(gè)深度攝相頭,兩個(gè)攝相頭加上一個(gè)VC,價(jià)格大概在幾百美元。我們現(xiàn)在做的是用一個(gè)一、二百美元的單向攝像頭就可以實(shí)現(xiàn)這個(gè)功能,并且有著廣泛的應(yīng)用場(chǎng)景。比如在智能家居、游戲等領(lǐng)域,我們都是第一個(gè)做出時(shí)實(shí)效果的機(jī)構(gòu)。
3、與2B企業(yè)的合作空間
目前,有好幾家廠商,包括OPPO、360、微博相冊(cè)等等已經(jīng)采用了我們的技術(shù)。前段時(shí)間,有一個(gè)公司做的toC產(chǎn)品跟我們的技術(shù)有些類似,但實(shí)際上,我們并不做C端,而是跟toB的企業(yè)合作。
我們自己并不做手機(jī),也不會(huì)親自做攝相頭,而是與這些產(chǎn)業(yè)的領(lǐng)袖、產(chǎn)業(yè)中最優(yōu)秀的企業(yè)進(jìn)行戰(zhàn)略合作,然后把我們的技術(shù)植入到對(duì)方的產(chǎn)品中去。
-
分享本文到:
-
關(guān)注隨銳:
微信掃描,獲取最新資訊 -
聯(lián)系我們:
如果您有任何問題或建議,
請(qǐng)與我們聯(lián)系:
suiruikeji@suirui.com