ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Game Tech Trend] 강화학습 소개 및 요즈음 소식 공유
    카테고리 없음 2020. 3. 9. 10:12

    안녕하세요 경전기술의 기획업무를 담당하고 있는 최상조입니다. 이번 Game Tech Trend Report에서는 머신러닝의 비결 중 불편한 강화학습(Reinforcement learning)을 소개하고 강화학습과 관련된 주요 기업의 최신 소식을 간단히 소개한다.


    >


    강화학습은 주목받는 머신러닝의 비결론 아래 자신으로 에이전트(agent)가 특정 환경(environment)을 탐색(exploration)하고 사전에 정의된 보수(reward)를 극대화하는 행동(action)을 선택하는 비결입니다. 아래의 DeepMind에서 유출된 AtariBreakout 영상과 함께 에이전트는 활동(좌우이동)에 대한 결과 값으로 보상(점수)을 획득하는데, 이러한 과정을 반복하면서 에이전트는 보상을 가장 많이 획득할 수 있는 행동 정책을 스스로 자결합니다. 여러번반복해서시행착오를겪고조금씩자신은방향으로학습한다라는점에서남들이새로운것을배울때학습하는방식과굉장히비슷합니다.이 영상에서 소개한 강화학습의 비결은 DQN(Deep-Q Network)인데 CNN(Convolutional Neural Network)을 사용해 Q-value(action-value function)를 추정하는 방식으로 학습하는 것입니다(Playing Atari with Deep Reinforcement Learning 참조). 이렇게딥러닝을활용해서학습효과와속도를개선한강화학습비결을DeepReinforcementLearning,즉DeepRL이라고부릅니다.


    >


    최근에는 싱글 에이전트 뿐만 아니라 협업과 경쟁이 가능한 멀티 에이전트 강화학습(Multi-Agent RL), 사람처럼 기존의 학습 경험을 새로운 환경에서 응용하는 메탈러닝(Meta Reinforcement Learning), 자율주행과 같은 다양한 목적에 활용할 수 있도록 에이전트가 명령에 따라 다른 행동을 수행하도록 학습하는 Guided Reinforcement Learning 등 강화학습 분야에서 다양한 시도가 이어지고 있습니다.


    인공지능과 게이더를 결합하면 어떤 문제를 해결할 수 있을까요? 쿄토대는 전통적으로 인공지능을 활용해 기술을 발전시켜 왔습니다. 현재 게이더는 인공지능 기술을 테스트하는 데 가장 적합한 플랫폼이다. 현실환경은 인공지능 테스트가 어렵지만 교다에서는 현실과 비슷한 환경을 실현하고 반복적으로 빠르게 인공지능을 학습시킬 수 있습니다. 특히 강화학습은 게이더와 결합해 로보틱스, 자율주행, QA 테스팅 등 다양한 문제를 해결할 수 있을 것으로 주목받고 있습니다.


    >


    >


    >


    OpenAI는 비영리 인공지능 조사 기업이다. OpenAI의 미션은 광범위한 분야에서 안전하게 활용할 수 있는 범용 인공지능(safe Artificial general intelligence: AGI)을 개발하는 것이다. 이 기업은 인공지능 조사를 위한 오픈소스 툴(GymUniverse)을 재공하거나 나쁘지 않고 다양한 조사 결과를 유출한다.최근 OpenAI는 EmTechDigital conference에서 기존의 강화학습 방식보다 더 빠른 속도로 학습할 수 있는 진화전략(evolutionstrategies:ES) 방식을 채택했다고 발표했습니다. 진화전략 방식은 보다 간단한 최적화 기술을 통해 기존의 강화학습보다 빠르고 복잡한 사건을 해결하는 것이 가능해진다. 그래서 로보틱스, 자율주행 등 다양한 분야에서 활용할 수 있는 범용 인공지능 개발에 진화전략 방법이 경쟁력이 있다고 밝혔습니다.올해 8월에는 OpenAI의 인공 지능이 유행 게이 다인 Dota 2(MOBA의 장르)정상급 프로 게이머'Dendi'와 한개:한 대결에서 승리했습니다.. OpenAI는 내년에 하나:한 대결에서 나쁘지 않아아 가서 5:5대결에도 적합한 인공 지능을 준비하겠다고 이야기했다.


    >


    DeepMind는 인공 지능 분야에서 선도하는 기업으로서 2016년 이세돌과 바둑 대결에서 유명해진 AlphaGo의 개발 회사 이프니다니다. Deep Mind의 목표는 사전에 프로그래밍되지 않은 상태에서 원천 데이터(rawin puts)를 인공지능이 스스로 학습하는 것과 이를 통해 범용적으로 활용할 수 있는 하과의 인공지능 시스템을 구축하는 것입니다. OpenAI와 거의 동일한 목표라고 할 수 있습니다. Deep Mind는 이를 위해 강화학습을 사용하고 있습니다.DeepMind는 강화 학습 비결론의 선구자로서 80년대에 발매된 Atari의 간단합니다(Space Invaders, Breakout)를 플레이하는 인공 지능을 공개하고 바둑 분야의 AlphaGo, 요즘은 3D게이입니다(Doom), 전략 시뮬레이션 게이입니다(StarCraft II)등으로 영역을 확장하고 있습니다. 특히 StarCraft II의 경우 머신러닝 API와 리플레이 데이터를 공개한 Blizzard와 함께 관련 연구를 수행하고 있습니다.DeepMind에서 공개한 StarCraft II 인공지능은 아직 AlphaGo와 같이 압도적인 수준입니다. 플레이 능력을 보여주지는 않아요. Star Craft II는 바둑 이과의 Atari 게입니다.좀 더 복잡한 환경의 예시입니다. 플레이로 구성되어 있어 학습이 어렵습니다. 게이입니다. 플레이가 포인트 클릭 방식의 조작 비결, 유닛이 탐색한 곳만을 볼 수 있는 제한적인 시야, 전투 뿐 아니라 자원 수집, 건물 건축과 같은 다양한 하위 요소를 포함하고 있기 때문입니다. 이러한 이유로 DeepMind의 인공지능은 아직 StarCraft II의 인공지능도 이기기 어렵다고 한다. 그러나 자원 채취의 소규모 전투와 같이 단순한 과제를 수행하는 미니게이에서는 상당한 학습 결과를 보이고 있어 앞으로의 발전이 기대됩니다.


    >


    >


    유니티는 대표적인 게임 엔진 개발사. 최근 유니티는 게임 개발에 사용되는 게임 엔진을 게임 이외의 분야에서 활용할 수 있도록 다양한 시도를 하고 있습니다. 그 일환으로 최근 유니티 공식 블로그에 게임 엔진을 인공지능 연구와 개발 플랫폼으로 활용할 가능성을 시사하는 내용이 공개되어 주목을 받고 있습니다.유니티는 강화학습을 주제로 한 글을 서적으로 게임 엔진을 로보틱스와 자율주행 연구를 위한 시뮬레이션 도구로 사용할 수 있을 것으로 전망하고 있습니다. 역시 기존 게임의 인공지능은 수많은 규칙을 스스로 설계하고 테스트하는 식의 심플한 작업 방식으로 개발한 반면, 강화학습을 활용한 머신러닝 방식은 인공지능이 게임 엔진 내에 구현된 환경에서 스스로 규칙을 학습하기 때문에 기존 방식을 개선할 수 있을 것으로 기대됩니다.Unity는 이 9월 하나 9일 공식 블로그를 통해서, 인공 지능 에이전트를 개발하는 SDK의 Unity Machine Learning Agents(또는 ML-Agents)베타 버전을 공개했습니다. ML-Agents는 강화학습을 비롯해 다양한 머신러닝의 비결을 적용할 수 있으며, 다양한 학습 시나리오를 시도할 수 있는 유연한 환경을 공급한다고 소개했습니다. 역시 널리 쓰이는 머신 러닝 프레임워크 중 하나 불편한 Tensor Flow와 연동 가능하며 편리하고 확장성이 뛰어나지 않다고 할 수 있습니다. ML-Agents와 이를 활용한 예제들은 모두 GitHub에 공개하고 있으므로 누구나 쉽게 사용해 보고 피드백을 보낼 수 있습니다.Unity 블로그 링크-Unity AI-themed Blog Entries-Unity AI-Reinforcement Learning with Q-Learning-Introducing:Unity Machine Learning Agents Git Hub페이지-Unity ML-Agents


    >


    >


    >


    >


    이상으로강화학습에대해서간단하게소개하고관련기업들의최근소식을정리해봤습니다. 최근 강화학습과 관련된 조사가 학계와 작은 기업들을 중심으로 활발히 진행되고 있습니다. 특히 경다운 강화 학습의 주요 플랫폼으로 활용되고 있습니다. LINE에서도 강화학습을 활용한 게이더 밸런싱, 테스트 방식을 고민하고 있습니다. 좋은 결과물을 공유할 수 있도록 노력하겠습니다. 감사합니다


    -Deep Mind-Open AI-BAIR - 알아두면 도움이 되는 최신 강화학습, 김태훈(데브 시스터즈)


    'Game Tech Trend Report'는 게임입니다. 기술과 관련된 최근 소식과 자료를 정리한 것입니다. 기술보고서입니다.


    댓글

Designed by Tistory.