Игры кончились: AlphaGo займется решением реальных мировых проблем

В прошлом месяце человечество проиграло важную битву с искусственным интеллектом — тогда AlphaGo обыграл чемпиона по го Ки Дже со счетом 3:0. AlphaGo — это программа с искусственным интеллектом, разработанная DeepMind, частью родительской компании Google Alphabet. В прошлом году она обыграла другого чемпиона, Ли Седоля, со счетом 4:1, но с тех пор существенно набрала по очкам.

Ки Дже описал AlphaGo как «бога игры в го».

Теперь AlphaGo заканчивает играть в игры, предоставляя возможность игрокам, как и прежде, сражаться между собой. Искусственный интеллект приобрел статус «игрока из далекого будущего», до уровня которого людям придется расти очень долго.

На старт, внимание, го

Го — это древняя игра на двоих, где один играет белыми фигурами, другой черными. Задача — захватить доминацию на доске, разделенной на 19 горизонтальных и 19 вертикальных линий. Компьютерам играть в го сложнее, чем в шахматы, потому что число возможных ходов в каждой позиции намного больше. Это делает просчет возможных ходов наперед — вполне возможный для компьютеров в шахматах — очень сложным в го.

Прорывом DeepMind стала разработка общего алгоритма обучения, который, в принципе, можно направить в более социально ориентированном направлении, чем го. DeepMind говорит, что группа исследователей AlphaGo пытается решить сложные проблемы вроде поиска новых лечений для заболеваний, радикального снижения энергопотребления или разработки новых революционных материалов.

«Если система ИИ доказывает, что способна обретать новое знание и стратегии в этих сферах, прорывы будут просто неописуемы. Не могу дождаться, чтобы увидеть, что будет дальше», говорит один из ученых проекта.

В будущем это грозит множеством захватывающих возможностей, но проблемы пока никуда не делись.

Нейробиология и искусственный интеллект

AlphaGo сочетает две мощных идеи на тему обучения, которые получили развитие за последние несколько десятилетий: глубокое обучение и обучение с подкреплением. Что примечательно, оба направления вышли из биологической концепции работы и обучения мозга в процессе получения опыта.

В мозге человека сенсорная информация обрабатывается в серии слоев. Например, визуальная информация сперва трансформируется в сетчатке, затем в среднем мозге, а затем проходит через различные области коры головного мозга.

В итоге появляется иерархия представений, где сперва идут простые и локализованные детали, а затем более сложные и комплексные особенности.

Эквивалент в ИИ называется глубоким обучением: глубокое, потому что включает множество слоев обработки в простых нейроноподобных вычислительных единицах.

Но чтобы выжить в этом мире, животным необходимо не только распознавать сенсорную информацию, но и действовать в соответствии с ней. Поколения ученых и психологов изучали, как животные учатся предпринимать действия, чтобы максимизировать извлекаемую выгоду и получаемую награду.

Все это привело к математическим теориям обучения с подкреплением, которое теперь можно имплементировать в системы ИИ. Самой важной из них является так называемое TD-обучение, которое улучшает действия за счет максимизации ожидания будущей награды.

Лучшие ходы

Игры кончились: AlphaGo займется решением реальных мировых проблем

За счет сочетания глубокого обучения и обучения с подкреплением в серии искусственных нейронных сетей, AlphaGo сперва научился играть на уровне профессионального игрока в го на основе 30 миллионов ходов из игр между людьми.

Но затем он начал играть против себя, используя исход каждой игры, чтобы неумолимо оттачивать собственные решения о лучшем ходе в каждой позиции на доске. Система ценностей сети научилась прогнозировать вероятный результат с учетом любой позиции, а система благоразумия сети научилась принимать лучшее решение в каждой конкретной ситуации.

Хотя AlphaGo не мог опробовать все возможные позиции на доске, нейронные сети извлекли ключевые идеи о стратегиях, которые хорошо работают в любой позиции. Именно эти бесчисленные часы самостоятельной игры привели к улучшению AlphaGo за последний год.

К сожалению, пока еще нет известного способа выяснить у сети, что это за ключевые идеи. Мы просто можем изучать игры и надеяться, что что-то извлечем из них. Это одна из проблем использования нейронных алгоритмов: они не объясняют свои решения.

Мы по-прежнему мало понимаем о том, как обучаются биологические мозги, а нейробиология продолжает предоставлять новые источники вдохновения для ИИ. Люди могут стать экспертами в игре го, руководствуясь гораздо меньшим опытом, чем нужен AlphaGo для достижения такого уровня, поэтому пространство для улучшения алгоритмов еще есть.

Кроме того, большая часть мощности AlphaGo основана на технике метода обратного распространения ошибки, которая помогает ей исправлять ошибки. Но связь между ней и обучением в реальном мозге пока неясна.

Что дальше?

Игра го стала удобной платформой разработки для оптимизации этих алгоритмов обучения. Но многие проблемы реального мира куда беспорядочнее и имеют меньше возможностей для самообучения (например, самоуправляемые автомобили).

Существуют ли проблемы, к которым мы можем применить имеющиеся алгоритмы?

Одним из примеров может быть оптимизация контролируемых промышленных условий. Здесь задача часто состоит в том, чтобы выполнить сложную серию заданий, удовлетворить множество критериев и минимизировать затраты.

До тех пор, пока условия можно будет точно смоделировать, эти алгоритмы будут учиться и набираться опыта быстрее и эффективнее, чем люди. Можно лишь повторить слова компании DeepMind: очень хочется посмотреть, что же будет дальше.

Источник

Related Articles

Back to top button
Close

Atomic Wallet

Jaxx Wallet

Jaxx Wallet Download

Atomic Wallet Download

Atomic Wallet App

atomicwalletapp.com

sinkronisasi reel pendek pola 4 6 spin yang sering mendahului scatter ketiga riset soft start ketika awal spin terlihat ringan tapi menyimpan momentum besar pola jam senja 18 30 20 30 aktivasi wild lebih rapat dibanding sesi lain deteksi visual micro flash efek singkat yang muncul tepat sebelum pre freespin analisis jalur simbol menyilang indikator non linear menuju burst bertingkat fenomena board padat simbol besar berkumpul sebelum tumble panjang terbuka studi turbo pendek mengapa 6 9 spin cepat lebih sering mengunci momentum perilaku reel awal saat reel 1 2 terlihat berat menjelang aktivasi multiplier pola recovery halus wild tunggal muncul setelah dead spin sebagai sinyal balik arah riset scatter tertahan ketika dua scatter bertahan lama sebelum ledakan aktual efek clean frame stabil layar terlihat bersih tepat saat rtp masuk zona seimbang analogi hujan gerimis tumble kecil berulang yang diam diam mengarah ke burst besar mapping ritme animasi perubahan tempo visual sebagai petunjuk pre burst pola jam malam 21 00 23 00 frekuensi multiplier bertingkat meningkat signifikan reel terakhir aktif aktivasi mendadak di reel 5 sebagai pemicu tumble lanjutan observasi spin manual kontrol ritme yang membantu membaca sinyal sistem deteksi low pay berpola ketika simbol kecil justru menjadi fondasi bonus studi pre burst senyap fase tenang 8 12 spin sebelum ledakan tajam jalur simbol turun naik gerakan dinamis yang mengindikasikan multiplier siap aktif blueprint sesi pendek strategi mengatur awal tengah spin agar momentum tidak terbuang reel tengah menguat pola sinkronisasi halus yang sering jadi awal scatter berlapis riset mini tumble ketika 3 tumble pendek berurutan jadi penanda bonus dekat kabut tipis di layar frame redup yang hampir selalu mengarah ke pre multiplier analisis pola jam 17 00 20 00 wild awal muncul lebih konsisten dari hari sebelumnya slide track tajam pergerakan simbol diagonal yang munculkan fase pre burst fenomena quiet board ketika 10 spin tenang justru memunculkan ledakan mendadak scatter luncur lambat indikator unik bahwa freespin akan terealisasi setelah 2 4 spin pola spin turbo ringkas efektivitas 7 turbo cepat dalam memicu tumble besar perubahan warna clean frame efek putih pucat yang jadi kode sebelum multiplier aktif riset simbol berat ketika high pay turun lebih banyak dari biasanya menjelang bonus analisis rotasi vertikal jalur simbol memanjang yang memperkuat potensi burst pola jam dingin 02 00 04 00 scatter sering bertahan lama sebelum akhirnya terkunci fs simulasi 3000 spin frekuensi wild grip muncul tinggi di pola malam hari reel 5 hyper active tanda bahwa sistem sedang mendorong momentum ke kanan analogi sungai tenang layar tanpa tumble yang justru menyimpan ledakan 2 3 putaran lagi frame gelap sesaat sinyal visual tipis sebelum scatter muncul berturut turut pola recovery wild ketika wild muncul setelah dead spin panjang sebagai pembalik keberuntungan mapping simbol rendah bagaimana low pay yang berulang bisa mengangkat probabilitas bonus reel bergerak serempak efek sinkronisasi singkat sebelum pre freespin sequence pola burst 3 lapisan ketika sistem memberikan tumble berjenjang yang mengarah ke ledakan utama