Fb mengembangkan algoritma AI yang belajar bermain poker dengan cepat

Facebook mengembangkan algoritma AI yang belajar bermain poker dengan cepat

Peneliti Fb dikembangkan kerangka kerja AI umum disebut Pembelajaran Berbasis Kepercayaan yang Rekursif yang mereka katakan mencapai kinerja yang lebih baik daripada manusia di poker hold-up Texas head-up tanpa batas sambil menggunakan lebih sedikit pengetahuan area daripada AI poker sebelumnya. Ini adalah pernyataan mereka bahwa ReBeL adalah langkah menuju pengembangan teknik common untuk interaksi multi-agen – dengan kata lain, menuju algoritma umum yang dapat digunakan dalam skala besar, pengaturan multi-agen. Aplikasi potensial menjalankan keseluruhan dari lelang, negosiasi, dan keamanan siber hingga mobil dan truk yang dapat dikendarai sendiri.

Menggabungkan pembelajaran penguatan dengan pencarian di pelatihan mannequin AI dan waktu ujian telah menghasilkan sejumlah kemajuan. Pembelajaran penguatan Di sinilah agen belajar untuk mencapai tujuan dengan memaksimalkan imbalan, sementara Cari adalah proses navigasi dari awal ke keadaan tujuan. Misalnya, DeepMind AlphaZero menggunakan pembelajaran penguatan dan pencarian untuk mencapai kinerja canggih dalam permainan papan catur, shogi, dan Go. Tetapi pendekatan kombinatorial menderita penalti kinerja ketika diterapkan pada sport informasi yang tidak sempurna seperti poker (atau bahkan batu-kertas-gunting), karena membuat sejumlah asumsi yang tidak berlaku dalam skenario ini. Nilai dari setiap tindakan yang diberikan tergantung pada probabilitas bahwa itu dipilih, dan lebih umum, pada keseluruhan strategi permainan.

Para peneliti Fb mengusulkan agar ReBel menawarkan perbaikan. ReBel dibangun di atas pekerjaan di mana gagasan tentang "kondisi permainan" diperluas untuk memasukkan keyakinan agen tentang keadaan apa yang mungkin mereka hadapi, berdasarkan pengetahuan umum dan kebijakan agen lain. ReBeL melatih dua mannequin AI – a nilai jaringan dan a kebijakan jaringan – untuk negara-negara melalui pembelajaran penguatan permainan mandiri. Ini menggunakan kedua mannequin untuk pencarian selama bermain sendiri. Hasilnya adalah algoritma sederhana dan fleksibel yang diklaim peneliti mampu mengalahkan pemain manusia terbaik di sport informasi berskala besar dan dua pemain yang tidak sempurna.

Pada stage tinggi, ReBeL beroperasi pada negara kepercayaan publik daripada negara dunia (mis., kondisi permainan). Public perception state (PBSs) menggeneralisasikan gagasan "nilai negara" ke permainan informasi yang tidak sempurna seperti poker; PBS adalah distribusi probabilitas pengetahuan umum di atas urutan tindakan dan kondisi yang mungkin, juga disebut a sejarah. (Distribusi probabilitas adalah fungsi khusus yang memberikan probabilitas terjadinya berbagai kemungkinan hasil.) Dalam sport informasi sempurna, PBS dapat didistilasi hingga ke sejarah, yang dalam sport zero-sum dua pemain secara efektif disaring ke negara-negara dunia. PBS dalam poker adalah serangkaian keputusan yang bisa dibuat pemain dan hasilnya diberikan dengan tangan, pot, dan chip tertentu.

http://www.flickr.com/photos/seo/

Atas: Keripik poker.

Kredit Gambar: Flickr: Sean Oliver

ReBeL menghasilkan "subgame" di awal setiap sport yang identik dengan sport asli, kecuali itu berakar pada PBS awal. Algoritma memenangkannya dengan menjalankan iterasi dari algoritma "pencarian-keseimbangan" dan menggunakan jaringan nilai terlatih untuk memperkirakan nilai pada setiap iterasi. Melalui pembelajaran penguatan, nilai-nilai tersebut ditemukan dan ditambahkan sebagai contoh pelatihan untuk jaringan nilai, dan kebijakan dalam subgame secara opsional ditambahkan sebagai contoh untuk jaringan kebijakan. Proses kemudian diulang, dengan PBS menjadi root subgame baru sampai akurasi mencapai ambang tertentu.

Dalam percobaan, para peneliti membandingkan ReBeL pada permainan poker maintain'em Texas head-up tanpa batas, Liar's Cube, dan flip endgame maintain'em, yang merupakan varian dari maintain'em tanpa batas di mana kedua pemain mengecek atau menelepon untuk dua dari empat putaran taruhan pertama. Tim menggunakan hingga 128 PC dengan masing-masing delapan kartu grafis untuk menghasilkan information permainan yang disimulasikan, dan mereka mengacak ukuran taruhan dan tumpukan (dari 5.000 hingga 25.000 chip) selama pelatihan. ReBeL dilatih pada permainan penuh dan memiliki $ 20.000 untuk bertaruh melawan lawannya di endgame maintain'em.

Para peneliti melaporkan bahwa melawan Dong Kim, yang menempati peringkat sebagai salah satu pemain poker kepala terbaik di dunia, ReBeL bermain lebih cepat dari dua detik per tangan di 7.500 tangan dan tidak pernah membutuhkan lebih dari lima detik untuk mengambil keputusan. Secara agregat, mereka mengatakan itu mencetak 165 (dengan deviasi standar 69) seperseribu blind (taruhan paksa) per sport melawan manusia yang dimainkannya dibandingkan dengan sistem bermain poker Fb sebelumnya, Libratus, yang mencapai maksimum 147 ribu.

Karena takut mengaktifkan kecurangan, tim Fb memutuskan untuk tidak merilis foundation kode ReBeL untuk poker. Sebagai gantinya, mereka membuka sumber implementasi mereka untuk Dadu Liar, yang menurut mereka juga lebih mudah dipahami dan dapat lebih mudah disesuaikan. "Kami percaya itu membuat sport lebih cocok sebagai area untuk penelitian," tulis mereka dalam makalah pracetak. “Walaupun algoritma AI sudah ada yang dapat mencapai kinerja manusia tremendous dalam poker, algoritma ini umumnya mengasumsikan bahwa peserta memiliki sejumlah chip tertentu atau menggunakan ukuran taruhan tertentu. Pelatihan ulang algoritma untuk memperhitungkan tumpukan chip sewenang-wenang atau ukuran taruhan yang tidak terduga membutuhkan lebih banyak perhitungan daripada yang layak secara actual time. Namun, ReBeL dapat menghitung kebijakan untuk ukuran tumpukan acak dan ukuran taruhan acak dalam hitungan detik. "