과학

알파고님의 퀘이크3 정복기에 대해 자세히.araboja

ㅊㅊ:

1) 논문: https://arxiv.org/abs/1807.01281

2) 딥마인드 블로그: https://deepmind.com/blog/capture-the-flag/


영어 되는 게이들은 원문을 읽으시면 됨ㅎ



선요약:

1. 인간과 유사한 플레이환경에서 실험한 결과임 (모니터, 키보드, 마우스 등을 사용)

2. 에임 너프하더라도 유의미한 승률을 보임 (반속 너프에 관한 실험은 부족)

 + 개선의 가능성 있음

3. 피실험자들 대상 설문결과 해당 AI가 다른 플레이어(인간)보다 "협력적"이라고 답함




서론)

http://www.dogdrip.net/169717003
(지금 다시보니깐 삭제됨)

http://www.dogdrip.net/169965129



워낙 겜돌이라 이거 보고 궁금해져서 좀 더 찾아보기로 했는데, 연구 핵심주제는 아니지만 생각보다 재밌는거 발견해서 들고왔다



일단 다른 게이들의 궁금증은 대표적으로


1. AI와 인간이 동등한 환경에서 실험했는지?(모니터, 키보드, 마우스 등을 사용)

2. 에임/반속으로 발라버린거 아니냐


정도가 있는데 다행히 딥마인드 논문에서 거기까지 커버해 놨으니 하나씩 알아보자



본론)


1. 동등한 환경 관련 


일단 1번에 대해 딥마인드측에서는 블로그에서

Additionally, to level the playing field, our learning agents experience the world of CTF in a similar way to humans: they observe a stream of pixel images and issue actions through an emulated game controller.

라고 밝히고 있음.

즉, 인간이 플레이하는 방식과 유사하게 픽셀에서 정보를 추출하고, (가상) 게임 컨트롤러를 활용하여 게임을 플레이 하는 환경이라는 뜻임
(참고로 니들이 생각하는건 아래 나올 퀘이크3 CTF 기본봇들이다. ESP, 키보드없이 컨트롤, 에임핵 등)

자세한건 아래 표를 참조

env.png




사실 이부분도 이미지 프로세싱이며 상황판단 알고리즘이며 이미 놀라운 기술이긴 한데 이 글 주제는 그게 아니니깐 넘어가자



2. 에임/반속에 관해

a) 에임에 관해
에이밍 능력을 걸고 넘어지면서 실험 효과를 의심할 사람들이 있다는건 당연하게도 딥마인드 역시 이미 알고있었음 

따라서 해당 알고리즘의 에이밍 정확도를 의도적으로 낮춰가며 실험한 결과 역시 공개했는데, 다음 그래프를 보자.

acc.png



FTW(AI알고리즘)과 사람의 에이밍 확률에 따른 기본 봇 3명과 붙었을 때 승률을 그린 그래프임


인간은 수준에 따라 약 0.45 ~ 0.55 정도의 정확도를 보여주고 있고,


에이밍 수준에 따라 0.8 좀 안되는 수준 ~ 0.9 언저리 정도에서 승률이 형성되고 있음을 알 수 있다.



근데 FTW(알고리즘)을 보면? 띠용? 


흔히 겜하면서 '이게 사람새끼냐?' 가 정치질로 나오는데


그 '사람새끼' 수준이 안되는 0.4정도의 정확도에서도 인간 승률 상위권에 해당하는 승률을 가져가고 있는걸 확인할 수 있음


즉 저 피실험자 그룹이 전체 인간을 대표한다고 보면 


브5 미만급 에임을 가지고도 골드~플레구간 정도 승률은 달성할 수 있는것임ㅋㅋㅋ



b)반속에 관해

똑똑한 개드리퍼라면 위 문장을 보고 의심부터 들었을거임 왜냐? 반속얘기는 안꺼냈으니깐


하지만 딥마인드가 반속에 대한 실험도 역시 했음ㅋㅋㅋㅋㅋ


이번엔 적을 만난 상황에서 p 확률로 총을 쏘지 않는 식으로 반응속도를 늦췄는데, 다음 그래프를 보자

time.png



제일 오른쪽 보라색 그래프가 인간, 나머지가 총을 안쏠 확률에 따른 FTW의 반속(파란색 박스플롯)과 승률(빨간점)



당연하게도 반속이 압도적인걸 볼 수 있음 


개입이 없는 상황에서 FTW는 평균 200ms를 기록했는데 인간의 경우 평균 600ms 근방


p값이 0.9 정도가 되야 인간 승률이랑 비슷해지는데 그래봤자 평균 반속 400ms이 되버림



근데 개인적으로는 딥마인드가 왜 이렇게 반응속도를 설계했는지 잘 모르겠음. 


p값을 0.5정도에서 유지시키면서 지연시간을 몇 ms정도 넣는것이 좀 더 자연스럽지 않았을까?


실제로 위 그래프를 보면 p값이 늘어나면서 자연스럽게 박스플랏의 박스 역시 커지는걸 알 수 있는데, 나는 이게 자연스러운 비교인지 잘 모르겠다.


혹시 그런 방식으로 비교하니 인간 승률에 비해 너무 낮아져서? 그건 내가 해당 알고리즘에 접근할 수 없으니 알 수 없는 노릇



c) 개선의 가능성에 관해

근데 왜 뜬금없이 개선 가능성에 관해 언급했을까 하는 의문을 품는 개드리퍼들도 있을 것 같다.


그건 이 알고리즘이 최선의 에임/반속을 가정하고 최적화가 진행된 구조기 때문이라고 논문에서 밝히고 있음


 Note that in both (c) and (d), the agents were not retrained with these p values and so obtained values are only a lower-bound of the potential performance of agents – this relies on the agents generalising outside of the physical environment they were trained in.


c랑 d는 각각 정확도와 반속 그래프임.


어쨋든 스포츠계에서도 부상/노화에 따라 플레이 스타일이 바뀌는 경우가 빈번한데, 그럼 이전 스타일 말고 다른 플레이스타일을 찾을때 승률이 올라간다는거임


160km/h 볼로 타자를 압박하던 투수는 자기 장기인 구속에만 신경써도 탈삼진 오지게 올릴수 있겠지?


근데 140밖에 못던지게 됐을 때, 예전처럼 존 가운데로 윽박지르던 볼로는 배팅기계밖에 더되겠음? 


당연히 존 구석으로 찌를 수 있는 제구력이나 다른 구종을 장착하거나 하겠지


근데 지금 딥마인드가 알고리즘 에이밍/반속을 너프하면서 새로 플레이스타일을 학습시킨게 아니라 기존 스타일대로 시행했음


즉 위 그래프에 비유하자면 구속은 5km/h씩 떨어트리면서 계속 스트라이크 존 한가운데 던져준거임


그래서 에임/반속을 인간 수준에 맞춘때 해당 알고리즘이 최적인지 보장할 수는 없고, 다만 최소한 이정도는 보장이 된다는 뜻



따라서 위 결과보다 개선될 가능성이 있다는 것임ㅇㅇ



3. 알파고는 최고의 파트너


이 부분은 데이터가 논문에 수록되어 있는 것은 아니고 다만 블로그와 논문에 언급된 내용임



이 실험에서 딥마인드는 다양한 구성원들로 구성된 다양한 팀들을 매칭해 승률을 비교했음


{[인간, FTW과 변형 알고리즘들] 중 택2}(= "다양한 팀")

vs

{"다양한 팀", 퀘이크 3 기본 봇 3명, 4명, 5명 중 택1}



그 결과 FTW 2개로 구성된 팀이 승률이 가장 높았다는게 이전까 내용이었는데, 그거 외에 한 가지 흥미로운 사실이 블로그에 소개되어 있음


In fact, in a [email protected] among participants they were rated more collaborative than human participants.

(금지어때문에 @이걸 넣었어야 했음ㅅㅂ 승희야 이게 필터냐?)

참가자들은 실험 후 설문조사에서 다른 인간 참가자들 보다 FTW가 더 협력적인 모습을 보였다고 응답했다.



논문에서 역시 비슷한 문장을 찾을 수 있는데

This result suggests that trained agents are capable of cooperating with never seen before teammates, such as humans. 

인간과 같은 한번도 보지 못한 팀원과도 훌륭하게 협력할 수 있었다고 함


15c1e9aa36b4177a2.jpg

???




결론)


알파고님께서 닝겐을 발라먹을 수 있었던 것은 에이밍과 반속도 있지만 그것이 전부는 아니다!




+++


개인적으로 이 논문이 재미있었던 것은 최적 해답을 찾아내는 것의 범위가 개인 agent를 넘어서서 agent간의 협력까지 증명하는 사례를 보여줬다는 것


일반적인 지능은 지능 -> 협력 -> 사회화 -> 자아의 순으로 발달한다고 어디서 들은 기억이 있는데(이 부분은 내 전공이 아니라 아님말고ㅎ)


현재 협력까지 온 인공지능이 앞으로 사회화 및 자아 단계까지 발전 할 수 있을지? 그럼 이 알고리즘을 어떻게 취급해야 하는지?

그 이후의 발전방향에는 어떤 것이 있을지? 인간과 AI의 관계는 어떻게 될 지?  그럼 우리의 자아에 관한 답도 찾을 수 있을지?


같은 답도 없고 끝도 없는 질문들이 떠올랐는데 거기까진 잘 모르겠고...ㅎ




========================================================================================================


쓰다보니 길어졌네


마무리를 어떻게하지



i15995233624.jpg


알파고님 충성충성충성^^7


7개의 댓글

TOE
2018.07.10
ㅊㅊ!
0
2018.07.12
퀘3 진짜 개씹좆씹 오지게 많이 했는데.. ㅋㅋ irc 도 존나게 들락거리고.. 다들 어디서 뭐하고 살려나..
0
2018.07.12
??
0
2018.07.12
^^7
0
2018.07.13
사회화라고 쓰면 애들이 오해할 수 있다.
여기서 사회화란.
게임 이론처럼 자기한테 가장 이득이 되는 선택을 추구한다는 가정하에서
상대방을 돕는게 절대이득과 상대이득이 동시에 높아지는 조건을 발견했기 때문에
단지 나의 최선을 위해 상대방을 돕는 행동을 의미한다.
0
2018.07.13
@죽죽
ㅇㅇ 나도 그위에 썼지만 이번 실험의 결과는 협력이라고 봄
0
2018.07.13
퀘이크 고인물들 듀얼같은 경우엔 에임핵 유저라도 포지셔닝하고 로켓 견제로 상대할만 하다고 생각하니 이번에 인공지능이 이긴게 "아니 ai에임이 당연히 이기지!!" 라는 생각은 확실히 좀 어폐가 있지
0
무분별한 사용은 차단될 수 있습니다.
번호 제목 글쓴이 추천 수 날짜
522 [과학] 한반도 형성 모델 8 白猫 4 13 일 전
521 [과학] 인류 발전은 정체되었는가? 119 월급받으며개드립하기 22 17 일 전
520 [과학] 자바로 프로그래밍에 입문할래요: 3.3. 자료형 설계하기 (4) 스비니 5 29 일 전
519 [과학] 자바로 프로그래밍에 입문할래요: 3.3. 자료형 설계하기 (3) 3 스비니 3 2021.08.17
518 [과학] 자바로 프로그래밍에 입문할래요: 3.3. 자료형 설계하기 (2) 2 스비니 0 2021.08.15
517 [과학] 자바로 프로그래밍에 입문할래요: 3.3. 자료형 설계하기 (1) 9 스비니 1 2021.08.12
516 [과학] 자바로 프로그래밍에 입문할래요: 3.2. 자료형 생성하기 (3) 스비니 0 2021.08.11
515 [과학] 모든 멸종의 어머니 - 페름기 대량절멸 (1) 9 PorcupineTree 9 2021.08.11
514 [과학] 희귀 혈전등에 대한 아스트라제네카 코로나 19 백신 접종의 ... 18 매콤챱스 5 2021.08.10
513 [과학] 자바로 프로그래밍에 입문할래요: 3.2. 자료형 생성하기 (2) 2 스비니 2 2021.08.09
512 [과학] 엔트로피는 감소할 수 있는가? 43 Kuqi 21 2021.08.08
511 [과학] 자바로 프로그래밍에 입문할래요: 3.2. 자료형 생성하기 (1) 3 스비니 2 2021.08.05
510 [과학] 자바로 프로그래밍에 입문할래요: 3.1. 자료형 (4) 11 스비니 3 2021.08.04
509 [과학] 자바로 프로그래밍에 입문할래요: 3.1. 자료형 (3) 2 스비니 3 2021.08.02
508 [과학] SF스압) 최후의질문 / 원래는..(How It Happened) 16 기타치는고라니 15 2021.07.31
507 [과학] [양자역학 3부] 슈뢰딩거의 고양이에 대해서. 28 기타치는고라니 3 2021.07.30
506 [과학] 자바로 프로그래밍에 입문할래요: 3.1. 자료형 (2) 2 스비니 3 2021.07.29
505 [과학] (기상)우리나라 더위의 발생 형태 4가지. 51 마리괭이 20 2021.07.25
504 [과학] 자바로 프로그래밍에 입문할래요: 3.1. 자료형 (1) 4 스비니 1 2021.07.22
503 [과학] 자바로 프로그래밍에 입문할래요: 2.3. 재귀 (2) 24 스비니 5 2021.07.14