奥门棋牌

      <tbody id='s6h8gw3m'></tbody>

    <small id='ww74lpb4'></small><noframes id='r5agl32a'>

  • 大地棋牌游戏注册网址-第三代AI賭神誕生:可在六人桌德撲中勝過5個人類頂尖高手|布朗

      第50屆世界撲克系列賽(WSOP)的六人桌無限德撲即將在7月13日開賽,但AI偏偏選在這個節骨眼上踢館。

      美國卡內基梅隆大學和Facebook公司7月12日在《科學》上發表論文稱,他們聯合開發的德撲人工智能Pluribus能在六人桌無限德撲中擊敗頂級人類玩家。

      這些頂級高手包括擁有職業冠軍頭銜最多的達爾文?埃利亞斯(Darren Elias)、6次世界撲克系列賽冠軍得主耶穌”克里斯?弗格森(Chris Ferguson)和在職業生涯中賺了將近200萬美元的麥克?加利亞諾(Michael "Gags" Gagliano)。

      無論是一個Pluribus對戰5個頂級人類玩家,還是五個Pluribus混戰一個頂級人類玩家,經過1萬手牌后,它的表現都會明顯優于人類。

      Pluribus”是一個拉丁語詞匯,意為眾”,美國國徽上就印有E pluribus unum”(合眾為一)的字樣。起這個名字,無疑彰顯這是世界上首個在多人德撲中超越人類專業選手的AI。

      在過去的20年里,我們見證了西洋雙陸棋、跳棋、國際象棋和圍棋等游戲在人工智能面前紛紛淪陷。人機大戰往往成為AI發展史上的里程碑事件,例如卡斯帕羅夫與深藍”、李世石與阿爾法狗”的巔峰對弈。不過,這些事件無一例外局限于機器和一人對決,而撲克在傳統上是個多人游戲。

      從兩人到多人,不僅只是量變,還對人工智能增加了許多根本性的挑戰。Pluribus通過行動抽象”和信息抽象”等方式來解決這些挑戰。在與5個自己”博弈的過程中,Pluribus學會了六人局無限注德撲的玩法。

      埃利亞斯的感受是,德撲AI最大的優勢在于混合運用多種策略,這也是人類高手想要達到的境界。然而,絕大數人都無法持續性地隨機調整策略。

      Pluribus也驗證了一些牌桌上廣為流傳的智慧。例如平跟”(limping)這種在翻牌之前,選擇跟平大盲注而不加注的策略對絕大多數玩家而言都是欠佳的選擇,只有小盲注”玩家除外,因其已經在池中下了等同于一半大盲注的籌碼。

      初出茅廬的平跟”

      美國卡內基梅隆大學計算機系教授托馬斯?桑德霍姆(TuomasSandholm)已經鉆研德撲程序16年。為了締造AI賭神,他帶著博士生諾姆?布朗(Noam Brown)先從1V1無限注德撲做起。他們開發的第一款德撲程序名為Claudico,在拉丁語中對應著平跟”。

      2015年4月到5月,Claudico在匹茲堡的河流賭場輪流與包括當時世界排名第一的道格?波爾克(Doug Polk)在內的四名人類頂尖高手過招。那次比賽歷時13天,共計2萬局牌。為降低運氣成分,比賽使用的是鏡像牌局的玩法,即在不同房間的兩張牌桌上使用完全相同、但人機對調的兩副牌。

      初出茅廬的德撲AI在賽程過半時,就已落后人類約46萬個籌碼,最終以大約73萬個籌碼的劣勢鎩羽而歸。

      撲克對于AI來說為什么這么難?原來,撲克和跳棋、國際象棋和圍棋有本質上的區別,是一種不完美信息”的游戲,對手手中的牌面全程未知。在無限注局中,對手又可以任意下注。

      著名深度學習專家吳恩達(Andrew Ng)曾說道,撲克是人工智能最難攻克的游戲之一。每一步沒有所謂的最優解,人工智能要采取隨機的策略,這樣它詐唬的時候對方才會吃不準。”

      詐唬(bluff)是德州撲克的一種經典策略,它生動地體現了撲克游戲的心理博弈”特征:即在手上的牌不夠大的時候,依然虛張聲勢地加注,以嚇退對手。為了達到好的詐唬效果,玩家的下注策略需要具備足夠的隨機性,以避免被對手摸清套路。總是詐唬的人和從不詐唬的人都不是一個好的德撲玩家。

      從這個意義上來說,撲克是一種更接近真實人類社會的游戲,涉及到推理和欺騙。人工智能能學會詐唬嗎?

      卷土重來的均衡”

      IBM的深藍”經過了兩次才戰勝國際象棋傳奇卡斯帕羅夫,德撲AI也在2年后實現了完美復仇。2017年1月,桑德霍姆和布朗帶著一個名為Libratus的德撲程序卷土重來。

      這個新名字對應著均衡”,從納什均衡的博弈模型里脫胎而來。桑德霍姆解釋說:在兩名玩家的零和游戲中,如果雙方都遵從納什均衡,那就無人能以獨自改變策略的方式來獲益。在此類游戲中,以納什均衡的方式思考是最安全的。AI會嚴格遵從納什均衡,保證一個起碼是平局的局面,若對手計算失誤,均衡被打破,AI就能一擊必殺。”

      學會了納什均衡的Libratus善于詐唬及不被詐唬。比如其中一盤,人類高中Jason Lee起手牌是一對10(非梅花),前三張公共牌為K、9、4(其中有兩張梅花),第四張和第五張都開出了非梅花牌。此時,AI突然壓上所有籌碼,Lee選擇不跟。通過隔壁的鏡像局,我們發現AI當時的起手牌確實是兩張梅花,也就是,AI最后在賭同花失敗的情況下,成功通過詐唬贏下了一局。而在鏡像局中,AI早早為手上一對10下了重注,最后人類玩家同樣選擇棄牌。

      同樣是匹茲堡的河流賭場,同樣是無限注德撲,人機大戰的劇情截然不同。Libratus從比賽第一天就全面壓制,一路領先。最終,Libratus贏得的籌碼數量達到驚人的176.6萬美元。

      此后還有一個小插曲。李開復曾經邀請桑德霍姆帶著Libratus前來中國舉辦表演賽,并取了一個中文名冷撲大師”。

      統籌全局的眾”

      納什均衡雖然對雙人游戲很有利,但并不適用于多人游戲。Pluribus需要一種更為統籌全局的玩法。它首先通過6個自己”混戰,計算出了一種藍圖”策略,足以應對首輪的下注。接著,它建立起一個精細度非常高的游戲沙盤,分析所有可能的走法。為了節省算力,Pluribus不會推演到終盤,而只是推演接下去的數步。

      這看上去是游戲類AI的常規路徑,但在非完美信息游戲中進行前瞻性推演格外具有挑戰性。在每一個決策點的分叉上,AI要考慮每個對手的可能舉動,也要分析自己可采取的應對,形成的決策樹就會十分龐大。不過,桑德霍姆團隊這次開發出了一種新算法,保證AI只需要計算每個對手接下去的5種可能性,就能在大戰略上形成制衡。

      Pluribus也變得更加狡猾。如果手上持有場上可能有的最好的牌,那加注是一個理性的選擇。但如果每次都在持有好牌時才加注,就可能被對手識破規律。Pluribus會計算在對手來看,自己手上所有可能有的牌型,以及與之相對應的表現,最終選定一種均衡的方案。

      最后,Pluribus也在計算效率上進行了改進。前一代Libratus用了1500萬個核心小時計算出策略,并在1V1現場對決中占用了1400個CPU核數。這一代的Pluribus僅用12400個核心小時就形成藍圖策略,并在現場博弈時占用28個CPU核數。

      麥克?加利亞諾(Michael "Gags" Gagliano)說道:與德撲AI對戰,觀察它做選擇的策略是非常令人激動的。我看到它做了一些人類根本不會去做的下注舉動。”

      布朗認為,Pluribus的許多創新性的大法可能會在根本上改變這項游戲。例如,絕大多數人類玩家都不會在一個回合末平跟,卻在下一回合開始時加注。傳統上認為這是一種沒有任何戰略意義的舉動。但是,Pluribus經常會這么做,也許這背后有值得深思的地方。

    策略 10元可玩的棋牌游戏 10元就能赢钱的棋牌 10元可以捕鱼的棋牌 大地棋牌游戏注册网址

    <small id='66oqmj2m'></small><noframes id='6xhi6wni'>

      <tbody id='gb6aw4cd'></tbody>
      <tbody id='o16grrtp'></tbody>
  • <small id='dels19yv'></small><noframes id='w2mgtbnx'>