2015. 10. 11.

[게임이론] 죄수의 딜레마




[게임이론] 죄수의 딜레마 Prisoner's Dilemma.



[다크나이트에서의 조커.
조커가 두 척의 배를 나포한다. 엔진을 끈 상태에서 외부와의 연락도 차단한다.
 배에는 폭탄을 설치하고 기폭장치는 서로 다른 배에게 넘겨준다. 그리고 요구
한다, 어서 먼저 터트리라고... 저쪽 배가 우리를 터트릴 수 있으므로 우리는 먼
저 터트릴수록 유리하다. 조커는 인간을 이기적인 존재로 파악하고 서로가 서
로의 버튼을 눌러 공멸할 것을 기대한다. 죄수의 딜레마에 따르면 그렇게 되야
한다.

결과는... 두 배에 탄 누구도 폭탄을 터트리지 않는다. 정해진 시간이 지나도
사람들이 상대방 배를 터트리지 않자 조커가 이상하다고 생각하고 둘 다 터트
리려고 한다. 그런데 이때 배트맨이 조커를 막고 사람들이 상대방의 배를 터
트리지 않은 이유 같지 않은 이유를 말해준다. ‘고담시에는 아직도 선한 사람
들이 많다’라고. 단순히 선하다는 이유만으로 간단하게 설명하기에는 부족하
다. 자신의 목숨이 걸린 상황에서는 선한고 악하고는 크게 문제가 되지 않는다.

죄수의 딜레마 - 서로의 의심 때문에 최악의 결론을 내리게 된다는 게임이론..]



설명

죄수의 딜레마(罪囚-, prisoner's dilemma, PD)는 게임 이론의 유명한 사례로, 2명이
참가하는 비제로섬 게임 (non zero-sum game)의 일종이다. 이 게임은 용의자의 딜
레마 또는 수인의 번민(囚人의 煩悶)이라고도 부른다.

이 사례는 협력할 경우 서로에게 가장 이익이 되는 상황일때 개인적인 욕심으로 서로
에게 불리한 상황을 선택하는 문제를 보여주고 있다.



 내용

두 명의 공범이 의심되는 용의자를 따로따로 수사실로 불러 자백을 할 수 있는 기회를
준다. '둘 다 자백하지 않으면 2년 징역, 둘 다 서로의 죄를 자백하면 7년 징역, 둘 중의
한 명이 자백하고 다른 한 명은 자백하지 않았다면, 자백한 쪽은 1년 징역, 자백하지
않은 쪽은 10년 징역에 처하게 된다'는 상황에서 용의자는 자백을 하는 것이 이득인가,
 아니면 자백하지 않는 것이 이득인가를 따진다.




<표:자신과 상대의 자백여부에 따른 자신의 수감기간>



간단하게 설명하면 상대가 자백을 하든지, 반대로 자백을 거부하든지 상관없이 자신은
자백하는 것이 자신의 이익을 지키기 위해 유리하다.
이것이 바로 우월전략으로 상대가 뭘 하든지 나에게 결과적으로 이득이 될 수 있게 하
는 전략이다.
또 내가 자백하든 거부하든 상대방이 자백하는 게 상대방에게 유리한 것도 마찬가지라
서, 두 사람은 각자의 이익을 위해서 자백하게 되고 그 결과 둘 다 사이좋게(?) 7년의 징
역을 살게 된다. 그러나 이것은 두 사람 모두 거부했을 때 받게 되는 두 사람 모두 2년의
징역보다 징역 기간이 더 길어지는 결과를 낳는다.



결론적으로, 개개인의 이익을 보려는 합리적인 행동이 전체적으로는 손해를 보는 결과
를 초래할 수 있다는 것을 시사하고 있다. 이는 상당한 논란을 불러 일으켰다.
 1950년대 캘리포니아에서 메릴 플레드와 멜빈 드레셔에 의해 정립되었으며 그 후폭풍
은 가히 충격적이었다. 이 이론으로 인해 애덤 스미스의 자유방임주의, 즉 '서로가 서로
의 이익을 위해 노력하다 보면 자연히 사회는 발전하게 된다'라는 이야기는 절대적 진리
의 자리에서 한발자국 물러나게 되었다.

경제학이 아닌 경로로 딜레마를 접하면서 가장 많이 하는 실수중 하나가 보복에 대한
부분이다. 경제학 서적을 살펴보면 알겠지만 이 딜레마는 비협조 게임의 전제하에서
진행되는 내용이다. 선택에 대하여 상대방은 어떠한 강제력(보복)도 행사할 수 없다는
전제조건 하에 있는 게임이다. 동일한 게임을 여러번 반복할 경우 앞선 선택에 대해
보복이 가능하여 결과가 달라지는 건 물론이거니와], 특히 둘이 단순한 공범관계가 아
니라 범죄 조직원이거나 할 경우, 상대 이외의 조직의 제3자가 자신을 배신자로 간주해
암살할 수 있다는 사실이 영향을 미치게 된다.



해결 방법

이 딜레마를 해결하기 위해 '정보의 격리'를 푼 뒤 당사자간에 담합을 한다거나 연속된 죄
수 게임에서 상대의 대응을 그대로 따라해 상대가 최선의 공동으로 유리한 선택을 하게
하는 논리, 상대가 자신만 유리한 결정을 한 것에 즉시 대가를 치르게 하는 논리 등이 나와
있다.

예를 들어 서로 의사소통이 되는 상태에서 이러한 '게임'을 단기성으로 한 번 하고 끝나는
게임이 아니라 반복적으로 하게 되면 다음 게임 결과에 영향을 주기 때문에 서로 이익을
보는 방향인 '둘 다 거부'로 나아갈 수 있다.

단지 상식적인 이해를 원한다면 좋은 책으로 얼마 전 국내에서도 번역된 협력의 진화가
있다. 이 책은 로버드 액설로드(Robert Axelrod)가 계속해서 반복되는(정확히는 언제 끝
날지 알 수 없는) 죄수의 딜레마 상황에서 최적의 전략은 무엇인지를 찾아내는 두 번의 대
회의 결과를 정리한 것이다.
놀랍게도 이 대회에서 온갖 꼼수와 치사함(...)이 난무하는 전략들 중 1위를 차지한 것은
무척 단순한 '팃포탯(Tit-for-tat) 전략'이었다. 얼마나 간단하냐 하면, 처음에는 상대방과
협력한 뒤, 다음 번에는 상대방이 지난 번에 내게 했던 것과 똑같이 따라한다. 가 전부. 즉,
 처음에 협력한 뒤에 상대방이 배반했다면 다음번에는 나도 배반하고, 상대방이 협력했다
면 나도 다음번에 협력하는 식이다. 더 놀라운 것은, 첫 대회에서 팃포탯이 승리하자 액설
로드가 팃포탯의 승리와 그 이유를 분석한 자료를 다음 대회 참가자에게 배포했을 정도로
팃포탯의 전략이 다 드러났지만, 두 번째 대회에서도 팃포탯이 승리했다는 것이다.

팃포탯의 특징을 인간적인 개념에 대입해 보면, 신사적이고(처음에는 무조건 협력하니까),
명료하고(전략이 단순하여 상대가 알 수 있으니까), 분개할 줄 알고(보복한다), 관용적이라
는 것(상대가 배신한 뒤 다음번에 협력을 요청하면 이전의 배신을 잊고 다시 협력해주니까)
정도가 된다.



쓰임새

국가 간에 환경 문제의 해결에 있어서 이 딜레마가 잘 드러난다. 개별 국가들은 서로간에
협정이 이루어지지 않는 한 이러한 문제들을 해결하는 것에 충분한 노력을 기울이지 않고,
이로 인해 지구 전체적으로는 피해를 입게 된다.

간단히 중국에서 불어오는 미세먼지를 생각해보자. 중국 입장에서는 이를 해결하기 위해
서 많은 비용이 들지만, 이러한 노력에 대한 댓가는 한국도 누리게 되고, 따라서 환경을
개선할 충분한 유인이 주어지지 않는다고 볼 수 있다. (물론 현실적으로는 중국 자신에게
도 피해가 크기 때문에 완전한 죄수의 딜레마로 보기는 어렵다.)

뱅크런 사태에서도 개별적인 사람들에게 주어지는 유인으로 인하여 사회 전체적으로 나
쁜 결과를 초래한다는 점이 드러나지만, 이 경우는 죄수의 딜레마와는 엄연히 다르다.
조금 까다로울 수 있지만 잘 생각해보자. 개별적인 투자자 입장에서는 다른 투자자들의
행동을 예측하고 따라할 유인이 주어진다. 즉, 다른 투자자들의 행동에 따라서 내 입장에
서의 최적의 행동이 달라지게 되는 것이다. 이러한 게임은 조정 게임(coordination game)
이라고 불린다.

《이기적 유전자》에 잘 설명되어 있고, 영화 《LA 컨피덴셜》에도 등장한다. 또한, 영화
《다크 나이트》 후반부에서도 죄수의 딜레마와 비슷한 상황을 연출했다. 다만 여기서는
합리적인 판단을 내릴 수 있는 주체인 두 그룹이 비합리적인 선택을 함으로서 쌍방이 구제
된다는 결과가 나온다.

어느 책에서는 두 절도용의자에게 이 방법을 쓴 이야기가 나오는데, 둘 모두 자백하지 않
았다. 이유는 자백하면 10년 뒤에 파트너가 머리를 날려버릴 것이 분명하므로. 형사는 둘
다 멍청해서 안 통한 것이라고 화냈지만.

-----------



진화론 이야기 - 죄수의 딜레마(Prisoner's Dilemma)

1. 상황

G는 보석을 가지고 있습니다. 하지만 돈이 쪼들립니다.
M은 돈을 가지고 있습니다. 하지만 그는 보석을 가지고 싶어합니다.
그들은 모종의 이유로 서로 만날 수도, 연락을 할 수도 없습니다. 단지 지정된 시간(동시)에
G는 보석을을, M은 돈을 서로 상대방에게 택배로 보낼 뿐입니다.
이 경우에 이들이 선택할 최선의 전략은 어떤 것일까요?
(물론 실제의 죄수의 딜레마와는 조금 다르지만 진화론과 관련해서
설명하기에는 이쪽이 낫습니다)

서로가 약속을 지키면(협력하면) G는 돈을, M은 보석을 얻는 최선의 결과를 얻습니다.
(양쪽에 10점씩)
서로가 서로를 배신하면 둘 다 아무 변화가 없습니다(양쪽에 0점)
어느 한쪽만이 배신하면 배신한 쪽은 돈과 보석을 다 얻지만(15점) 배신당한 쪽은 다
잃습니다(-5점)
원래의 죄수의 딜레마와 같이 배신하는 쪽이 항상 이득입니다.

하지만 G는 많은 보석을 가지고 있으며 계속 돈을 필요로 합니다. M은 돈은 매우 많으며 보
석욕심도 점점 커집니다. 이후에도 두 사람은 계속 거래를 해야 합니다. 이럴 경우에는 어떤
전략을 사용하는 것이 가장 좋을까요?

2. Tit-for-Tat

1970년대 엑셀로드(Axelrod)는 이런 상황을 가정하여 최적의 전략 - 과거 상대방의 반응으
로부터 협력할지 배신할지를 선택하는 프로그램을 공모했습니다. 그리고 토너먼트식으로
 공모된 전략들을 맞붙여 어떤 전략이 가장 높은 득점을 하는지 확인했습니다.

그 토너먼트에서 우승한 전략이 Tit-for-Tat(받은만큼돌려주기 또는 눈에는눈)이었습니다.
 즉 가장 처음에는 협력하고, 그 다음부터는 상대가 한 대로 돌려주는 것입니다.

눈에는눈은 협력을 우선하여 상호간의 이익을 추구합니다. 즉 먼저 배신하지 않습니다.
눈에는눈은 배신을 당했을 경우 자신도 배신함으로써 응징합니다.
눈에는눈은 응징에 성공(자신이 배신할때 상대가 협력)한다면 용서하고 다시 상호간의
이익을 추구합니다.

정확히 말해서 눈에는눈을 능가하는 단 하나의 전략이 있었습니다. 이것은 처음부터 배신
해서 상대의 반응을 살핍니다. 상대가 내 배신에 반응하지 않으면 계속 배신으로 상대를
착취하는 것입니다. 내 배신에 상대도 배신으로 반응한다면 그때는 눈에는눈으로 변신하
는 것이죠.
하지만 그것은 특수한 상황 - 상대중에 Random이라는, 50%확률로 협력과 배신을 결정하는
전략이 있었기에 가능했던 것입니다. 만약 Random이 없다면 상대를 떠보기 위한 배신의 부
담으로 순수한 눈에는눈에 비해 낮은 점수를 얻게 됩니다.

3. 생존경쟁

윗실험에 참가했던 전략들을 일정 수만큼 컴퓨터에 넣고, 임의로 짝을 지워 게임을 시킵니다.
그리고 그때 얻은 점수 비율에 따라 다음 세대의 수를 결정하는 프로그램을 만듧니다.

초기에는 '어떻게든 상대를 착취하는 사기꾼' 전략들이 강세를 보입니다. '순진한 촌뜨기' 전
략들을 착취하면서 세력을 떨치는 것이죠.
하지만 촌뜨기들이 줄어들고 더이상 착취할 상대가 남아있지 않게 되면 사기꾼들 역시 나락
으로 떨어지고 맙니다. 눈에는눈을 착취하려고 하면 응징을 당하고, 다른 사기꾼 상대를 만
나도 착취할 건덕지가 없습니다.

반면 눈에는눈은 사기꾼을 만나면 한번 배신당하지만 응징에 의해 더이상의 착취를 당하지는
않습니다. 다른 눈에는눈이나 촌뜨기를 만나면 상호협력에 의해 양측 다 점수를 얻습니다.
결국 시간이 지나면 눈에는눈이 대세를 이루고, 눈에는눈에 기대는 소수의 촌뜨기, 그리고
가끔씩 만나는 촌뜨기를 삥뜯으며 살아가는 소수의 사기꾼이 평형을 이루는 상태가 됩니다.

4. 유전자 알고리즘

윗 실험은 이미 개발된 전략들의 우열을 판가름하는 내용이었습니다. 그런데 완전한 무질서
상태에서도, 도덕이니 양심이니 하는 것이 전혀 없는 상태에서도 저런 협력이 나올 수 있을까요?

4-1. 초기에 무조건 배신하는 전략들만을 모아놓고 3번의 생존경쟁과 같은 프로그램을 돌립
니다. 역시 가장 높은 점수를 얻은 전략은 많은 자손을 남길 수 있습니다. 그러나 이때는 약간
의 돌연변이를 일으킨 자손을 만듧니다.
돌연변이에 의해 조심스럽게 협력을 시도하는(하지만 배신당했다면 바로 협력관계를 취소하는)
전략이 생깁니다. 이들은 많은경우 주위에게 조금씩 착취당하지만, 이런 변이체들끼리 만난다면
더 높은 점수를 얻고 더 많은 번식기회를 가질수 있습니다. 그 다음 세대에는 협력하는 전략들끼
리 만날 기회가 더 많아지고 더 높은 점수를 얻을 것입니다.
결국 이 생태계는 눈에는눈은 아니지만 눈에는눈과 비슷한 형태의 전략으로 가득 차게 됩니다.

4-2. 반대로 초기에 무조건 협력하는 전략들만을 모아놓는다면 어떨까요? 배신하는 돌연변이가
 나온다면 그는 주위 모든 것들을 착취해서 급격히 세를 불려나갑니다. 결국 4-1의 초기상태와
비슷하게 되고 마찬가지 결과가 나옵니다.

5. 결론
진화론에 의해서도 착한 놈이 이긴다.(진화론이 정설이 되면 사회가 약육강식의 정글이 된다고
걱정하는 창조론자들이 있어서...)

출처 : 카오스에서 인공생명으로(미셸 월드롭 Mitchell Wakdrop)

-본문출처: http://chamsol4.blogspot.jp/2009/06/prisoners-dilemma_08.html


□ 발췌 및 참고자료 :
1. 위키백과. 나무위키.
2. 기타 인터넷 사이트들.

댓글 없음:

댓글 쓰기

가장 많이 본 글