123,123,123

據(jù)英國《自然》雜志9日發(fā)表的一項(xiàng)研究，一種人工智能(AI)在著名對(duì)戰(zhàn)賽車游戲《GT賽車》中戰(zhàn)勝了世界冠軍級(jí)玩家。這個(gè)AI在遵守賽車規(guī)則的同時(shí)展現(xiàn)出了超凡的行駛速度、操控能力和駕駛策略。研究結(jié)果將對(duì)自主導(dǎo)航以及基礎(chǔ)AI研究具有應(yīng)用價(jià)值。

AI的許多潛在應(yīng)用都需要一邊與人類交互，一邊在物理系統(tǒng)中做出實(shí)時(shí)決策，而賽車正是這類情況的典型代表。賽車手必須進(jìn)行復(fù)雜的戰(zhàn)術(shù)性操控去超越或阻擋對(duì)手，同時(shí)還要以極限牽引力來駕駛賽車。以PlayStation的游戲《GT賽車》為代表的擬真類賽車游戲不僅能再現(xiàn)操控真實(shí)賽車的挑戰(zhàn)，也對(duì)機(jī)器學(xué)習(xí)的應(yīng)用提出了挑戰(zhàn)。

索尼AI科學(xué)家彼得·烏爾曼及其同事此次讓一個(gè)名為“GT Sophy”的AI智能體學(xué)會(huì)利用深度強(qiáng)化學(xué)習(xí)來玩《GT賽車》。他們訓(xùn)練這個(gè)智能體掌握在賽車比賽中高效加速和剎車的藝術(shù)，并學(xué)習(xí)如何在不同情況下或在對(duì)手擋路時(shí)替換行駛路線。想要訓(xùn)練出一個(gè)成功的AI，最大的挑戰(zhàn)之一是要確保它不會(huì)因?yàn)橛|犯賽車規(guī)則而受罰，這里的賽車規(guī)則是一組由外部人類裁判判決的寬松規(guī)則。

最后，“GT Sophy”利用代表不同賽車挑戰(zhàn)的三組賽車與路線組合——包括時(shí)速超過300公里的賽車——在對(duì)戰(zhàn)比賽中成功擊敗了4位全球頂級(jí)電子競技賽車手。

以上結(jié)果是計(jì)算機(jī)戰(zhàn)勝最強(qiáng)人類對(duì)手的一項(xiàng)最新競技任務(wù)，其他競技任務(wù)還包括國際象棋和撲克。研究人員認(rèn)為，這一結(jié)果不但讓賽車游戲變得更有意思，還能提供用來訓(xùn)練職業(yè)賽車手和發(fā)現(xiàn)新賽車技巧的高水平比賽。這種方法還有望應(yīng)用在真實(shí)世界的系統(tǒng)中，比如機(jī)器人、無人機(jī)和自動(dòng)駕駛汽車。

總編輯圈點(diǎn)

賽車的目標(biāo)是什么?人們總是很容易下定義：在更短時(shí)間里超過所有對(duì)手，你就贏了。但如果僅僅是這樣，一級(jí)方程式賽車不會(huì)被稱為現(xiàn)代運(yùn)動(dòng)里最鬼斧神工的工程學(xué)展示。賽車實(shí)際上是一場人類最大限度利用物理學(xué)進(jìn)行的復(fù)雜戰(zhàn)斗和策略風(fēng)暴，輪胎的摩擦力、過彎的速度、剎車的時(shí)間點(diǎn)……專業(yè)選手對(duì)賽車的精準(zhǔn)操控，專業(yè)團(tuán)隊(duì)每一步戰(zhàn)術(shù)的制定，正是人類身體和智慧的最佳發(fā)揮。作為一個(gè)AI，“GT Sophy”卻沒有運(yùn)用物理顯式計(jì)算，它所用的是神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)，以及足夠的數(shù)據(jù)“修煉”自身，最終，在與人類冠軍的正面交鋒中，它一騎絕塵。

賽車游戲冠軍研究結(jié)果將對(duì)自主導(dǎo)航以及基礎(chǔ)AI研究具有應(yīng)用價(jià)值