ㅊㅊ:
1) 논문: https://arxiv.org/abs/1807.01281
2) 딥마인드 블로그: https://deepmind.com/blog/capture-the-flag/
영어 되는 게이들은 원문을 읽으시면 됨ㅎ
선요약:
1. 인간과 유사한 플레이환경에서 실험한 결과임 (모니터, 키보드, 마우스 등을 사용)
2. 에임 너프하더라도 유의미한 승률을 보임 (반속 너프에 관한 실험은 부족)
+ 개선의 가능성 있음
3. 피실험자들 대상 설문결과 해당 AI가 다른 플레이어(인간)보다 "협력적"이라고 답함
서론)
http://www.dogdrip.net/169717003
(지금 다시보니깐 삭제됨)
http://www.dogdrip.net/169965129
워낙 겜돌이라 이거 보고 궁금해져서 좀 더 찾아보기로 했는데, 연구 핵심주제는 아니지만 생각보다 재밌는거 발견해서 들고왔다
일단 다른 게이들의 궁금증은 대표적으로
1. AI와 인간이 동등한 환경에서 실험했는지?(모니터, 키보드, 마우스 등을 사용)
2. 에임/반속으로 발라버린거 아니냐
정도가 있는데 다행히 딥마인드 논문에서 거기까지 커버해 놨으니 하나씩 알아보자
본론)
1. 동등한 환경 관련
일단 1번에 대해 딥마인드측에서는 블로그에서
Additionally, to level the playing field, our learning agents experience the world of CTF in a similar way to humans: they observe a stream of pixel images and issue actions through an emulated game controller.
FTW(AI알고리즘)과 사람의 에이밍 확률에 따른 기본 봇 3명과 붙었을 때 승률을 그린 그래프임
인간은 수준에 따라 약 0.45 ~ 0.55 정도의 정확도를 보여주고 있고,
에이밍 수준에 따라 0.8 좀 안되는 수준 ~ 0.9 언저리 정도에서 승률이 형성되고 있음을 알 수 있다.
근데 FTW(알고리즘)을 보면? 띠용?
흔히 겜하면서 '이게 사람새끼냐?' 가 정치질로 나오는데
그 '사람새끼' 수준이 안되는 0.4정도의 정확도에서도 인간 승률 상위권에 해당하는 승률을 가져가고 있는걸 확인할 수 있음
즉 저 피실험자 그룹이 전체 인간을 대표한다고 보면
브5 미만급 에임을 가지고도 골드~플레구간 정도 승률은 달성할 수 있는것임ㅋㅋㅋ
b)반속에 관해
똑똑한 개드리퍼라면 위 문장을 보고 의심부터 들었을거임 왜냐? 반속얘기는 안꺼냈으니깐
하지만 딥마인드가 반속에 대한 실험도 역시 했음ㅋㅋㅋㅋㅋ
이번엔 적을 만난 상황에서 p 확률로 총을 쏘지 않는 식으로 반응속도를 늦췄는데, 다음 그래프를 보자
제일 오른쪽 보라색 그래프가 인간, 나머지가 총을 안쏠 확률에 따른 FTW의 반속(파란색 박스플롯)과 승률(빨간점)
당연하게도 반속이 압도적인걸 볼 수 있음
개입이 없는 상황에서 FTW는 평균 200ms를 기록했는데 인간의 경우 평균 600ms 근방
p값이 0.9 정도가 되야 인간 승률이랑 비슷해지는데 그래봤자 평균 반속 400ms이 되버림
근데 개인적으로는 딥마인드가 왜 이렇게 반응속도를 설계했는지 잘 모르겠음.
p값을 0.5정도에서 유지시키면서 지연시간을 몇 ms정도 넣는것이 좀 더 자연스럽지 않았을까?
실제로 위 그래프를 보면 p값이 늘어나면서 자연스럽게 박스플랏의 박스 역시 커지는걸 알 수 있는데, 나는 이게 자연스러운 비교인지 잘 모르겠다.
혹시 그런 방식으로 비교하니 인간 승률에 비해 너무 낮아져서? 그건 내가 해당 알고리즘에 접근할 수 없으니 알 수 없는 노릇
c) 개선의 가능성에 관해
근데 왜 뜬금없이 개선 가능성에 관해 언급했을까 하는 의문을 품는 개드리퍼들도 있을 것 같다.
그건 이 알고리즘이 최선의 에임/반속을 가정하고 최적화가 진행된 구조기 때문이라고 논문에서 밝히고 있음
Note that in both (c) and (d), the agents were not retrained with these p values and so obtained values are only a lower-bound of the potential performance of agents – this relies on the agents generalising outside of the physical environment they were trained in.
c랑 d는 각각 정확도와 반속 그래프임.
어쨋든 스포츠계에서도 부상/노화에 따라 플레이 스타일이 바뀌는 경우가 빈번한데, 그럼 이전 스타일 말고 다른 플레이스타일을 찾을때 승률이 올라간다는거임
160km/h 볼로 타자를 압박하던 투수는 자기 장기인 구속에만 신경써도 탈삼진 오지게 올릴수 있겠지?
근데 140밖에 못던지게 됐을 때, 예전처럼 존 가운데로 윽박지르던 볼로는 배팅기계밖에 더되겠음?
당연히 존 구석으로 찌를 수 있는 제구력이나 다른 구종을 장착하거나 하겠지
근데 지금 딥마인드가 알고리즘 에이밍/반속을 너프하면서 새로 플레이스타일을 학습시킨게 아니라 기존 스타일대로 시행했음
즉 위 그래프에 비유하자면 구속은 5km/h씩 떨어트리면서 계속 스트라이크 존 한가운데 던져준거임
그래서 에임/반속을 인간 수준에 맞춘때 해당 알고리즘이 최적인지 보장할 수는 없고, 다만 최소한 이정도는 보장이 된다는 뜻
따라서 위 결과보다 개선될 가능성이 있다는 것임ㅇㅇ
3. 알파고는 최고의 파트너
이 부분은 데이터가 논문에 수록되어 있는 것은 아니고 다만 블로그와 논문에 언급된 내용임
이 실험에서 딥마인드는 다양한 구성원들로 구성된 다양한 팀들을 매칭해 승률을 비교했음
{[인간, FTW과 변형 알고리즘들] 중 택2}(= "다양한 팀")
vs
{"다양한 팀", 퀘이크 3 기본 봇 3명, 4명, 5명 중 택1}
그 결과 FTW 2개로 구성된 팀이 승률이 가장 높았다는게 이전까 내용이었는데, 그거 외에 한 가지 흥미로운 사실이 블로그에 소개되어 있음
In fact, in a survey@ among participants they were rated more collaborative than human participants.
(금지어때문에 @이걸 넣었어야 했음ㅅㅂ 승희야 이게 필터냐?)
참가자들은 실험 후 설문조사에서 다른 인간 참가자들 보다 FTW가 더 협력적인 모습을 보였다고 응답했다.
논문에서 역시 비슷한 문장을 찾을 수 있는데
인간과 같은 한번도 보지 못한 팀원과도 훌륭하게 협력할 수 있었다고 함
???
결론)
알파고님께서 닝겐을 발라먹을 수 있었던 것은 에이밍과 반속도 있지만 그것이 전부는 아니다!
+++
개인적으로 이 논문이 재미있었던 것은 최적 해답을 찾아내는 것의 범위가 개인 agent를 넘어서서 agent간의 협력까지 증명하는 사례를 보여줬다는 것
일반적인 지능은 지능 -> 협력 -> 사회화 -> 자아의 순으로 발달한다고 어디서 들은 기억이 있는데(이 부분은 내 전공이 아니라 아님말고ㅎ)
현재 협력까지 온 인공지능이 앞으로 사회화 및 자아 단계까지 발전 할 수 있을지? 그럼 이 알고리즘을 어떻게 취급해야 하는지?
그 이후의 발전방향에는 어떤 것이 있을지? 인간과 AI의 관계는 어떻게 될 지? 그럼 우리의 자아에 관한 답도 찾을 수 있을지?
같은 답도 없고 끝도 없는 질문들이 떠올랐는데 거기까진 잘 모르겠고...ㅎ
========================================================================================================
쓰다보니 길어졌네
마무리를 어떻게하지
알파고님 충성충성충성^^7
TOE
똥꼬맛생크림
알파고
각설탕맛탕
죽죽
여기서 사회화란.
게임 이론처럼 자기한테 가장 이득이 되는 선택을 추구한다는 가정하에서
상대방을 돕는게 절대이득과 상대이득이 동시에 높아지는 조건을 발견했기 때문에
단지 나의 최선을 위해 상대방을 돕는 행동을 의미한다.
야수의심정
잠만자