??在深度學(xué)習變得普遍之前的2010年,感知是molex連接器自動(dòng)駕駛汽車(chē)能力的主要限制,但2014年之后基于深度學(xué)習的雷達技術(shù)、相機還有激光雷達,帶來(lái)了技術(shù)性能的不斷提升——那么無(wú)人駕駛汽車(chē)下一步還會(huì )迎來(lái)哪些挑戰呢?
??在過(guò)去的十年里,自動(dòng)駕駛領(lǐng)域對機器學(xué)習的大部分對話(huà)都集中在對象檢測上。對安全導航至關(guān)重要的是,我們如何才能提高自動(dòng)駕駛汽車(chē)檢測和跟蹤動(dòng)態(tài)物體的能力?在2010年,當深度學(xué)習變得普遍之前,感知是自動(dòng)駕駛汽車(chē)能力的主要限制。其中ImageNet的分類(lèi)精度在當時(shí)作為最先進(jìn)的解決方案只能達到50%的準確率(相比之下,今天的準確率為88%)。雖然ImageNet分類(lèi)并不能與當前最先進(jìn)的目標檢測技術(shù)相提并論,但它確實(shí)代表了計算機視覺(jué)的進(jìn)步。
??直到2012年,AlexNet成為ImageNet競賽的首批參賽者之一,它利用卷積神經(jīng)網(wǎng)絡(luò )進(jìn)行深度學(xué)習。AlexNet在當年的ImageNet競賽上達到了最先進(jìn)的精度,成為計算機視覺(jué)領(lǐng)域最有影響力的方法。
??從2014年開(kāi)始,基于深度學(xué)習(Deep Learning)的雷達技術(shù)、相機還有激光雷達,都開(kāi)始悄悄進(jìn)入自動(dòng)駕駛領(lǐng)域。谷歌的自動(dòng)駕駛汽車(chē)與一位坐輪椅的女士用掃帚追趕一只鴨子的奇遇,成為有史以來(lái)挑戰感知技術(shù)的一個(gè)著(zhù)名例子。
??如今,基于深度學(xué)習的感知技術(shù)在自動(dòng)駕駛汽車(chē)中應用很常見(jiàn),我們也看到了技術(shù)性能的不斷提升。近年來(lái),VoxelNet、PIXOR和pointpillar等網(wǎng)絡(luò )推動(dòng)了計算機視覺(jué)技術(shù)的發(fā)展。盡管機器人不會(huì )像人類(lèi)那樣完美的感知,但計算機視覺(jué)的發(fā)展如此之快,可以說(shuō)它現在已經(jīng)不再是自動(dòng)駕駛汽車(chē)商業(yè)化應用的主要障礙。
? 那么無(wú)人駕駛汽車(chē)接下來(lái)呢?預測!
??既然我們已經(jīng)安全地探測到周?chē)年P(guān)鍵物體,接下來(lái)就是預測它們下一步的行動(dòng)。正確的預測意味著(zhù)我們將在正確的時(shí)間執行正確的策略,同時(shí)考慮周?chē)说男袆?dòng)。預測錯誤意味著(zhù)我們可能把自己推入危險的境地。我們需要使用成千上萬(wàn)的環(huán)境輸入來(lái)進(jìn)行盡可能正確的預測。
? ??預測是無(wú)保護左轉彎最難實(shí)現的核心問(wèn)題。自動(dòng)駕駛汽車(chē)在轉彎前必須預測周?chē)袆?dòng)態(tài)智能體的未來(lái)動(dòng)作,這一任務(wù)比自動(dòng)駕駛中的其他問(wèn)題需要更多的智能。人類(lèi)駕駛員雖然不是完美的,但主要依賴(lài)其大腦、駕駛經(jīng)驗和心理暗示(如輕推或手勢等),來(lái)成功地執行無(wú)保護左轉彎。
??雖然機器相對于人類(lèi)也有一些明顯的優(yōu)勢(比如360°的遠程視覺(jué)),但與人類(lèi)相比,自動(dòng)駕駛技術(shù)中的預測能力可能落后很多。
1、感知模塊檢測輸出自動(dòng)駕駛汽車(chē)一定半徑內的一組目標 (如車(chē)輛、行人等),然后輸入給預測模塊;
2、預測模塊使用當前的方位、速度和之前的觀(guān)察來(lái)生成關(guān)于每個(gè)對象在接下來(lái)5秒內可能做什么的預測;
3、通過(guò)將所有這些預測輸入一個(gè)算法,最終生成一個(gè)關(guān)于自動(dòng)駕駛汽車(chē)可以執行的最安全操作的假設;
4、自動(dòng)駕駛汽車(chē)實(shí)時(shí)計算,每100毫秒重新評估決策。
??可以看到,這種傳統的計算方式會(huì )導致不安全和潛在危險的駕駛行為,尤其是在密集的城市環(huán)境中。在過(guò)去的幾年里,我們見(jiàn)證了用深度學(xué)習方法進(jìn)行預測的很多實(shí)驗。這些方法有可能顯著(zhù)提高預測的準確性,將它們從機器人轉變?yōu)轭?lèi)人。
??用數據驅動(dòng)的方法來(lái)解決這些傳統的預測問(wèn)題,與2010年的深度學(xué)習如何取代傳統認知技術(shù)驚人地相似。
下面是一些實(shí)際的例子:
? 克魯斯的感知工程師做了一次偉大的演講,關(guān)于他們如何將預測問(wèn)題轉化為一個(gè)分類(lèi)問(wèn)題。我對他們構建的工具特別感興趣,這些工具支持快速實(shí)驗,并具有快速學(xué)習場(chǎng)景和自動(dòng)標記的能力。
Uber分享了他們在DRF-Net上的工作,DRF-Net增強了行人預測能力:“大量的實(shí)驗表明,我們的模型表現出了高概率、低誤差、低熵和多模態(tài)的強大特性?!盌RF-NET離散預測的強大性能對于基于成本和約束的機器人規劃是很有意義的。蘋(píng)果發(fā)表了一篇新的強化學(xué)習論文,題為《最壞策略梯度》(Worst Cases Policy Gradients):“構建智能系統的關(guān)鍵挑戰之一是在復雜環(huán)境中做出穩健、安全的順序決策的能力?!?/span>ISEE在CVPR 2019發(fā)布了一項學(xué)習預測方法:“這種MAT編碼能夠自動(dòng)處理不同種類(lèi)的場(chǎng)景,并通過(guò)對MAT的卷積運算,預測場(chǎng)景中所有Agent的軌跡,其計算復雜性與Agent的數量成線(xiàn)性關(guān)系?!彪m然預測還沒(méi)有達到它所需要的性能,但我很清楚,我們將看到數據驅動(dòng)方法在預測性能上的巨大飛躍,這與深度學(xué)習如何影響傳統感知非常相似。這些即將到來(lái)的飛躍將極大地改善自動(dòng)駕駛汽車(chē)的決策,為乘客帶來(lái)更安全、更順暢的乘坐體驗。?