본문 바로가기

과학,IT,TECH

Google 의 딥마인드가 게임의 룰을 알려주지 않아도 이기는 법을 마음대로 학습해 나가는 AI 'MuZero'를 발표

728x90
반응형






인공지능 기업의 'DeepMind'가 새로운 게임 룰을 전혀 몰라도 바둑·장기·체스·벽돌깨기등에서 이기는 방법을 스스로 배워 갈 수 있는 AI를 발표했는데요.

'MuZero'로 명명된 AI는 '스스로 생각하는 AI'를 향한 큰 진척으로 여겨지고 있습니다.

딥마인드가 개발한 인공지능 AlphaGo는 세계 최강의 기사 이세돌에게 승리 했었습니다.

AI의 발전에 대해 2019년 패배한 이세돌 기사가 '이제는 AI를 이길 수 없다'며 은퇴를 발표했을 정도 였습니다.

 

바둑의 세계에서는 압도적인 힘을 발휘한 AlphaGo이지만'불확실성이 높은 문제' 에서는 잘 대처할 수 없다면서 룰이 확실하지 않은 현실 문제에 대한 환경에는 적합하지 않다고 여겨져 왔습니다.

딥마인드가 새롭게 발표한 'MuZero'는 이러한 AlphaGo의 문제를 해결하는 새로운 시도로서 행해지고 있는 것이 특징입니다.

아래 그림은 AlphaGo와 그 새로운 버전인 AlphaGo Zero, Alpha Zero 그리고 Mu Zero의 차이를 나타낸 비교표 입니다.

왼쪽의 녹색 부분이 플레이 할 수 있는 게임을 오른쪽이 미리 학습을 시켜 둔 지식을 나타내고 있습니다.

AlphaGo가 '바둑'만을 플레이하며 '인간의 데이터', '바둑 지식', '바둑 규칙'을 사전에 교육시켜서 알려줄 필요가 있는 데에 비해서

MuZero는 바둑, 체스, 장기, 벽돌깨기에 대해 사전에 학습 없이도 자기 학습으로 최적의 해답을 도출할 수 있도록 하고 있습니다.

 

MuZero의 개발에 벽돌깨기가 이용된 것은 플레이어가 세련된 전략을 세울 필요가 있는 미션이 풍부하고 게임 스코어라는 단순한 진행 지표를 제공하기 위해서라고 연구팀은 설명 했습니다.

MuZero의 목표는 특정 문제 해결을 위한 훈련을 받을 뿐만 아니라, 어느 문제에 대해 '생각하기' 방법으로 AI를 훈련하는 것이라고 합니다.

구체적으로 말하자면 MuZero는 이미 학습된 모델을 사용하지 않고도 아래 세 가지 요소를 모델화합니다.


1) 가치 : 현재 포지션은 얼마나 좋은가?
2) 정책 : 어떤 액션이 최선인가?
3) 보상 : 마지막 액션이 얼마나 뛰어난가?



MuZero는 '특정한 액션을 취하거나 계획했을 때에 무엇이 일어나는가'를 이 3개의 요소를 사용해 신경망으로 학습하여 이해해 나갑니다.

딥마인드는 MuZero 이전에도 벽돌깨기를 플레이 하는 인공지능을 개발해 왔습니다만, MuZero는 그 어느 것보다 퍼포먼스가 높고, 바둑·체스·장기에 관해서는 AlphaZero의 퍼포먼스에 필적한다고 합니다.

 

연구팀은 '결국 우산이 마른 상태로 유지하는 방법을 아는 것이 빗방울 패턴을 모델화하는 것보다 더 중요한 것 입니다'라고 밝히며,

이번 연구 결과가 더욱 문제 해결 기술이 뛰어난 AI 개발의 첫걸음이 될 것으로 보입니다.


원문기사는 아래링크를 참고하세요

Mastering Atari, Go, chess and shogi by planning with a learned model




(-14%)
http://stylec.co.kr/shop/item.php?it_id=1606898939&cid=3156541440

NFC 착즙 타트체리 1병(1,000ml)

stylec.co.kr



https://coupa.ng/bOlKpO
(-43%)

얼라이브 원스 데일리 포맨 멀티 비타민

COUPANG

www.coupang.com

“파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음"

728x90
반응형