추천도서

(19-2) 비전공자도 이해할 수 있는 AI 지식 (알파고)

제임스-지식보고 2024. 1. 16. 23:10
728x90
반응형

저번 포스팅에 이어 이번 포스팅에서는

알파고가 어떤 원리로 어떻게 개발되었고

어디를 향해 나아가는지 하나하나 다루어보려 한다

 

*모든 글은 본인이 직접 작성한 기록들입니다

 

위 책은 알파고, 자율주행차, 기계번역 등 인공지능을 이용한 대표적인 기술들이

어떻게 작동하는지를 가장 많은 사람이 이해할 수 있는 수준으로 설명한 책이다. 

 

이 책을 통해 얻을 수 있는 가장 큰 것은 바로 인공지능의 큰 그림이다. 

어디서 시작되어 어떤 과정을 거쳐 어디를 향해 나아가고 있는지의 그림을 볼 수 있게 된다.

 

 

1997년 뉴욕에서 인간과 컴퓨터의 자존심을 건 대결이 펼쳐졌었다. 

인간 대표로 출전한 가리 카스파로프는 만 20세인 1984년에

최연소 체스 세계 챔피언으로 등극한 이래 줄곧 세계 1위를 유지하고 있었다.

카스파로프를 상대할 컴퓨터 대표 DEEP BLUE는 IBM의 슈퍼 컴퓨터이다.

이날 대회에서 딥블루가 카스파로프를 꺾고 체스 세계 챔피언에 등극한다.

컴퓨터가 정규 시합에서 인간을 꺾고 세계 챔피언으로 등극한 것은 이때가 처음이었다. 

 

2016년에는 구글 딥마인드가 개발한 알파고가

바둑 세계 챔피언인 이세돌 9단을 꺾고 세계 챔피언이 된다.

알파고 이후 인공지능을 바라보는 대중의 인식이 완전히 바뀌었고,

바야흐로 인공지능이 무슨 뜻인지 누구나 아는 본격적인 인공지능의 시대가 열렸다. 

 

그렇다면 컴퓨터는 어떻게 인간을 능가했는가?

 

체스부터 봐보면, 체스를 둘 때 딥 블루는 컴퓨터의 강력한 계산 능력에 의존해

모든 가능성을 탐색한다.

 

중반 이후에는 말을 움직일 수 있는 경우의 수가 약 40여가지로 압축되고

6수 정도만 앞을 내다봐도 웬만큼 승리 여부를 판단할 수 있다.

 

또한 딥 블루 곁에는 카스파로프의 약점을 가르칠 수 있는 여러 체스 전문가를 두었다.

이들이 알려준 카스파로프 공략법을 엔지어들이 규칙으로 입력하기도 했다.

이 처럼 딥 블루의 승리는 컴퓨터의 계산 능력과 수많은 탐색을 가능케 한 알고리즘 최적화,

이에 더해 심리 전략까지 동원한 승부의 결정체였다. 

 

천제물리학자이자 바둑 애호가인 피에트 헛은 딥 블루가 승리한 직후인 1997년에

"바둑에서 컴퓨터가 사람을 이기려면 100년은 걸릴 것이다"라고 언급하기도 했다.

 

가로세로 19줄 ,총 361개의 점으로 이뤄진 바둑판에서 가능한 수를 계산해보는 것은

얼핏 상상만해도 불가능해 보인다.

 

간단하게 361개의 점에 순서대로 무작위로 바둑을 둔다고 가정하고 계산해보면

그 수는 361 팩토리얼로 10^768이다.

 

실제로 유효한 값만 대상으로 정교하게 계산한 결과, 바둑의 게임 트리 크기는 10^360이었다.

알파고는 몬테카를로 트리 탐색 알고리즘을 도입하여 바둑 인공지능 프로그램의 실력을

6단의 수준까지 올렸다.

 

이후 알파고는 두 종류의 딥러닝을 적용해 실력을 획기적으로 향상하는데,

바로 정책망 Policy Network가치망 Value Network이다. 

 

정책망은 사람이 만든 기보를 이용해 학습한다.

정책망은 약 16만회의 게임에서 총 3000만 수를 가져와 학습했다.

학습을 마친 정책망은 바둑판의 현재 상태 정보를 입력값으로 했을 때

361개의 바둑 칸 중 어디에 돌을 내려놓을지 확률을 계산해 리턴한다.

즉 361명의 후보 중 당첨 가능성이 가장 높은 후보를 골라내는 것과 비슷하다.

그러나 바둑의 모든 국면을 학습할 수는 없기에

학습하지 않은 국면을 마주했을 때는 실력이 현저히 떨어진다.

그래서 알파고는 이를 보완하기 위해 각각의 상황에 따라 정책망 3가지를 만들었다. 

 

첫째, 앞서 살펴본 사람의 기보를 이용해 학습한 정책망

 

둘째, 롤아웃 정책망

(기보학습 정책망과 비슷하지만 훨씬 작고 가벼운 망으로

첫 번째 망보다 약 1500배 빨리 수를 둘 수 있다)

 

셋째, 알파고의 핵심인 스스로 대국하며 강화학습을 수행한 정책망

 

정책망 특징
사람의 기보를 이용해 학습한 정책망 (기복학습 정책망) 57% 정확도 (5단 수준)
롤아웃 정책망 24% 정확도 (1,500배 빠름)
스스로 대국하며 강화학습한 정책망 (강화학습 정책망) 기보학습 정책망과 대전하면 80% 확률로 승리

 

 

가치망은 앞서 살펴본 정책망보다 훨씬 더 단순하며 현재 국면에서 승패 여부를 예측하는 망이다. 

바둑 인공지능에서 가장 풀기 어려운 문제 중 하나가 형세를 알아내는 것이다.

체스는 남은 기물의 점수를 합산하여 어느 정도 우세를 판별할 수 있는 데 반해

바둑은 순수하게 국면의 형태만 보고 승패를 예측해야하기 때문이다.

그런데 알파고는 현 상황만을 보고 우세를 예측하는 망을 만들어냈다. 

 

알파고는 여러 정책망 중에서 가장 실력이 좋았던 강화학습 정책망끼리의 대국을 활용했다.

서로 3000만번의 대국을 두게 하고, 각 경기에서 한 장면씩 3000만 장면을 추출해

해당 국면 이후에 누가 이겼는지를 학습했다. 만약 74%라는 확률이 나왔다면

현재 국면에서 강화학습 정책망끼리 대국을 벌이면 승리할 확률이 74%라는 얘기다. 

이처럼 승리할 가능성이 높은지, 패배할 가능성이 높은지를 확률로 표현한 것이 바로 가치망이며,

이는 알파고의 가장 혁신적인 성과 중 하나이다.

 

알파고가 위의 방법으로 학습 후 어떤 과정을 거쳐 착점을 결정하는지 봐보자. 

이때 앞서 언급한 몬테카를로 트리 탐색을 활용한다. 

몬테카를로 방법은 무작위로 샘플링하여 정답을 찾는 방식이다. 

5000만 국민의 선거 결과를 알기 위해 전수조사하는 대신

무작위로 5만 명 정도만 조사해도 비슷한 결과를 낼 수 있는 것과 마찬가지다. 

 

바둑의 경우로 정리해보면 

 

- 바둑은 탐색해야하는 게임 트리가 엄청나게 크다.

- 게임 트리를 전부 탐색하는 것은 불가능하다.

- 일부만 무작위로 샘플링하여 탐색해도 비슷한 결과를 낼 수 있다.

 

이런 방식으로 몬테카를로 방법을 바둑 인공지능에 도입하자 실력이 급상승하기 시작했다.

그러나 무작위로 탐색하다 보니 이른바 '묘수'를 간과할 수 있다.

99%의 승률이 예상되더라도 단 1%의 허점 때문에 반드시 패배로 연결되는 다음 수가 존재한다면

그 수는  두지 않아야 한다. 따라서 알파고는 수를 좀 더 꼼꼼하게 탐색해 묘수를 놓치지 않도록,

게임 트리 탐색에 몬테카를로 방법을 접목한 몬테카를로 트리 탐색을 사용한다. 

 

1. 어떤 수에서 시작할지 승리할 가능성이 높아 보이는 수를 선택한다. 

2. 기보학습 정책망을 이용해 다음 수를 어디에 둘지 확장한다. 

3. 롤아웃 정책망을 이용해 끝까지 시뮬레이션한다.

4. 가치망의 점수를 50% 반영한 승패 여부를 모든 수에 업데이트한다.

5. 1~4의 과정을 계속해서 반복한 후 최종적으로 가장 많이 진행한 수를 다음 수로 결정한다. 

 

이처럼 꼼꼼하게 탐색해가는 알파고도

이세돌과의 네 번째 대국에서는 이세돌이 둔 '신의 한 수'인 78수를 막아내진 못했다.

 

이 묘수로 단번에 판세를 뒤집어 네 번째 대국을 승리로 이끌었고

아마 인류 역사상 마지막이 될지도 모를 귀중한 1승을 따내게 된다.

 

그렇다면 알파고는 왜 신의 한 수를 허용했을까?

알파고의 몬테카를로 트리 탐색은 유망한 수를 중심으로 꼼꼼하게 탐색해 나간다고 했다.

따라서 확률이 높은 쪽을 향해 더 많이 더 깊게 탐색해 나가고

가장 신뢰가 높은 지점에 착수를 하는 원리이다.

 

하지만 이세돌이 둔 신의 한 수 지점에 착수할 확률을

알파고는 1만 분의 1로 매우 낮게 예측했다고 한다.

 

그렇게 더 이상 승률이 높은 지점을 찾아내지 못하고

엉뚱한 수를 남발하면서 급격히 무너지게 된다. 

 

알파고가 인간을 능가했다고 해서 이제 인공지능이 모든 면에서 인간을 능가한다고 할 수는 없다. 

 

 

 

스티븐 호킹은 살아생전에 "인간은 경쟁하기도 전에 인공지능에 추월당하고 만다"며

인류의 존재 자체를 위협할 수 있다고 경고한 반면,

 

세계 최고의 머신러닝 연구자인 스탠퍼드 대학교의 앤드루 응 교수

"인공지능이 세상을 접수할 걱정을 하는 것은

화성에 인구가 너무 많아질까 걱정하는 것과 비슷하다"라고 말했다.

 

스탠퍼드 인공지능연구소 소장인 페이페이 리

알파고가 이세돌에게 승리한 직후 <뉴욕 타임스>와 가진 인터뷰에서

인공지능이 이제 인간을 능가할 것이라며 걱정하는 사람들을 향해

"자동차가 인간보다 더 빨리 달리는 걸 놀랍게 여기는 사람이 있나요?"라고 했다. 

 

컴퓨터에는 인간의 지혜와 능력이 담겨 있다.

새로운 기술이 등장하더라도 인간의 그림자는 언제나 함께할 것이다. 

 

다음 포스팅에서는 테슬라가 꿈꾸는 자율주행에 대해서 다루어보겠습니다:) 

 

 

 

*댓글과 공감, 광고 클릭은 계속해서 기록들을 이어나가는데 큰 힘이 됩니다:)

감사합니다

728x90
반응형