Как алгоритмы (AI) побеждают людей в видеоиграх

Как алгоритмы (AI) побеждают людей в видеоиграх

В области искусственного интеллекта (AI) есть алгоритмы, обучающиеся через систему вознаграждений и штрафов. Эти алгоритмы уже побеждают профессиональных игроков в StarCraft, Dota 2 и очень непростые китайские шашки Го.

Алгоритмы искусственного интеллекта могут учиться по-разному. Сейчас чаще всего до реального внедрения доходят алгоритмы, обученные на размеченных людьми базах данных. Например, люди за небольшую оплату размечают сотни тысяч фотографий с пешеходами, и на основе этих данных алгоритмы, которые впоследствии используются в беспилотных автомобилях, учатся распознавать пешеходов. Такой способ обучения продемонстрировал свою эффективность для тренировки алгоритмов выполнения определенных очень узких задач. Однако, этот способ вряд ли позволит машинам достичь уровня «интеллекта», соизмеримого с человеческим – человек одновременно обрабатывает столько различной информации и выполняет настолько сложные задачи, что трудно представить базы данных, которые смогли воссоздать весь этот массив информации.
Поэтому ученые ищут другие пути к созданию «настоящего» искусственного интеллекта. В этом плане многие эксперты возлагают надежды на «обучение с подкреплением» (англ. reinforcement learning). В этой области машинного обучения, алгоритмы, или агенты, находятся в определенной среде и выполняют действия, которые бы позволили им максимизировать вознаграждение. Задача разработчиков этих алгоритмов построить систему вознаграждений и штрафов таким образом, чтобы агент как можно быстрее выполнил поставленную задачу. Например, если мы хотим научить такой алгоритм играть в шахматы, то будем отнимать баллы от общего вознаграждения, когда он будет терять собственные фигуры, и винагороджуватимемо за удачные ходы.
Поскольку кроме штрафов и вознаграждений, мы не даем агенту никаких подсказок относительно успешной игры в шахматы, можете себе представить, сколько неудачных попыток ему необходимо сделать пока он наконец «поймет», что от него требуется переставлять фигуры на пустые ячейки, согласно четких правил, отдельных для разных фигур, и при этом еще и так вести игру, чтобы выиграть у соперника. На самом деле, агент обычно делает много миллионов различных действий, пока начинает ориентироваться в новом задании.

Как вы понимаете, на практике все эти попытки должны были бы занимать нереально много времени. Поэтому таких агентов тренируют в среде, где миллионы попыток можно осуществить за несколько часов или дней, в зависимости от задачи. К сожалению, далеко не во всех сферах возможно обучение в симулируемой среде, а следовательно, и агенты, которые учатся с подкреплением, пока используются преимущественно в робототехнике и играх. Вот несколько наиболее интересных примеров.
AlphaGo Zero
Шашки Го – это древняя китайская настольная игра, требующая незаурядного стратегического мышления. Очень долгое время она была не под силу никаким компьютерным программам, но в 2016 компания DeepMind, принадлежащая Google, изменила ситуацию, представив алгоритм AlphaGo, который изучив 100 тысяч игр между людьми, смог победить профессиональных игроков. В 2017 году они представили улучшенную версию этого алгоритма – AphaGo Zero. В отличие от своего предшественника, этот алгоритм не использовал опыт других игр в своем обучении, а получил за основу только базовые правила игры. Далее, алгоритм фактически играл сам с собой в течение 40 дней пока не достиг такого уровня мастерства, который позволял бы ему с легкостью обыгрывать лучших игроков в шашки Го. Кстати, недавно, чемпион по Го Ли Седол оставил карьеру профессионального игрока, поскольку считает ее безнадежной в силу преобладания искусственного интеллекта: «Даже если я буду номером один, есть вещь, которую невозможно победить».
Dota 2
Искусственный интеллект научился побеждать людей не только в настольные игры, но и в весьма сложные компьютерные игры. Так, в апреле этого года, компания OpenAI, основанная Илоном Маском, представила свой алгоритм, который достиг немалых успехов в такой непростой видеоигре, как Dota 2, победив команду, которая заняла первое место в ежегодном международном турнире по Dota 2. Однако, чтобы достичь такого результата, алгоритму фактически пришлось 45 тысяч лет непрерывно играть в Dota 2, конечно же в симулируемой среде.
AlphaStar
StarCraft II стал еще одной видеоигрой, где искусственный интеллект смог победить топовых игроков. Когда соответствующий алгоритм AlphaStar был представлен компанией DeepMind в январе этого года, он смог победить в 10 играх подряд, но все же проиграл в финальной игре одному из профессиональных игроков. Конечно же, чтобы достичь такого уровня, алгоритму пришлось несколько миллионов раз сыграть в StarCraft II, получив опыт недоступный ни одному человеку. И это еще не все – AlphaStar критиковали за неравные условия игры, потому что алгоритм имел доступ ко всей карте, а не только к той части, что доступна через обзор камеры. Ну и конечно, машина может реагировать гораздо быстрее, чем человек. В компании прислушались к критике, и недавно представили обновленную версию алгоритма, которая имеет ограниченный доступ к карте, так же как обычные игроки, и может делать не более 22 различных действий в течение каждых 5 секунд игры, что сопоставимо со стандартной человеческой реакцией. Согласно результатам онлайн-соревнований, AplhaStar переигрывает 99.8% игроков в StarCraft II.

Источник

Редакция: info@ibteh.ru | Карта сайта: XML | HTML | SM
2019 © "ИнфоТехно — новости IT и обзоры смартфонов". Все права защищены.