알파고의 진화 '섬뜩'…창의성 지닌 AI '알파고 제로' 등장
알파고의 진화 '섬뜩'…창의성 지닌 AI '알파고 제로' 등장
이 기사를 공유합니다

▲ 인간 최고수들을 잇달아 격파한 바둑 프로그램 '알파고'의 최신 버전인 '알파고 제로'가 공개됐다. 알파고 제로는 교과서나 기보는커녕 대국 상대조차 없이 순수한 독학으로 바둑을 익혔는데도, 인간 고수들과 기존 알파고 버전들을 압도하는 능력을 갖추게 됐다. 구글 딥마인드의 창업자인 데미스 허사비스 최고경영자(사진) 등 이 회사 소속 연구원들은 19일(한국시간) 이런 내용을 포함한 논문을 과학 학술지 '네이처'에 발표했다. (사진=연합뉴스)

'강화학습'으로 스스로 인간 한계 뛰어넘어

[서울파이낸스 이호정 기자] 인간 최고수들을 잇달아 격파한 바둑 프로그램 '알파고'를 능가하는 최신 버전 '알파고 제로'가 공개됐다.

알파고 제로는 교과서나 기보는커녕 대국 상대조차 없이 순수한 독학으로 바둑을 익혔는데도, 인간 고수들과 기존 알파고 버전들을 압도하는 능력을 갖추게 됐다.

구글 딥마인드의 창업자인 데미스 허사비스 최고경영자(CEO) 등 이 회사 소속 연구원 17명은 19일(한국시간) 이런 내용을 포함한 '인간 지식 없이 바둑을 마스터하기'(Mastering the game of Go without human knowledge)라는 논문을 과학 학술지 '네이처'에 발표했다.

업계에서는 '알파고 제로'의 경우 인공지능이 인간 도움 없이 인간을 까마득하게 초월할 수 있는 잠재력을 현실화했다는 점에서 획기적이라는 평가를 하고 있다.

지금까지 인공지능 시스템은 주로 인간 전문가들의 결정을 따라하도록 만들어진 '지도학습 시스템'(supervised learning system), 즉 인간이 인공지능의 훈련을 감독하는 시스템이었다.

하지만 구글 딥마인드 팀은 인간 전문가의 결정에 대한 데이터를 구하는 데 비용이 많이 들거나, 데이터를 믿을 수 없거나, 그런 데이터가 아예 없는 경우가 많다는 점을 지적한다. 설령 신뢰할만한 데이터가 있더라도 인공지능 시스템이 인간이 만든 데이터에 의한 지도 하에 훈련을 받을 경우 이 탓에 인간의 한계를 뛰어넘지 못할 수도 있다.

이런 한계를 극복하기 위해 최근에는 '강화학습'(reinforcement learning system)에 대한 연구가 이뤄지고 있다.

인간으로부터 배우지 않고 인공지능이 스스로 수많은 시행착오를 통해 요령을 터득하도록 하는 방법이다.

특히 믿을만한 인간 전문가가 아예 존재하지 않는 전혀 새로운 분야를 이런 방식으로 연구하는 데에 관심이 쏠린다.

강화학습 방식으로 만들어진 알파고 제로는 지금까지 나온 알파고 버전들 중 가장 강력하다.

기존 최강 버전인 알파고 마스터와 이를 능가하는 알파고 제로의 기본 알고리즘과 아키텍처(설계 구조)는 똑같다. 차이는 '인간으로부터 배웠느냐, 아니냐'이고, 인간으로부터 배우지 않은 후자가 더욱 뛰어난 실력을 갖게 됐다.

알파고 마스터는 그 전 버전들과 마찬가지로 인간의 대국 기보 데이터로 훈련을 받았고 바둑을 두는 전략의 일부도 인간으로부터 입력받은 후에 이를 바탕으로 강화학습을 했다.

이와 달리 알파고 제로는 바둑의 기본 규칙만 아는 상태로 혼자 바둑을 두는 강화학습 방식만으로 인간으로부터의 가르침 없이 바둑의 이치를 깨우쳤다.

구글 딥마인드는 블로그 글에서 "알파고 제로는 새로운 지식을 발견하고, 통상적이지 않은 전략을 개발하는 한편 새로운 수를 창조했다"며 "우리는 인공지능의 이런 창조력을 보고 사람의 독창성을 배가할 수 있다고 확신했다"고 밝혔다.


이 시간 주요 뉴스
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.