알파고님의 퀘이크3 정복기에 대해 자세히.araboja

읽을 거리 판

즐겨찾기

최근

전체

최근 방문 게시판

과학

알파고님의 퀘이크3 정복기에 대해 자세히.araboja

https://www.dogdrip.net/169726067

ㅊㅊ:

1) 논문: https://arxiv.org/abs/1807.01281

2) 딥마인드 블로그: https://deepmind.com/blog/capture-the-flag/

영어 되는 게이들은 원문을 읽으시면 됨ㅎ

선요약:

1. 인간과 유사한 플레이환경에서 실험한 결과임 (모니터, 키보드, 마우스 등을 사용)

2. 에임 너프하더라도 유의미한 승률을 보임 (반속 너프에 관한 실험은 부족)

+ 개선의 가능성 있음

3. 피실험자들 대상 설문결과 해당 AI가 다른 플레이어(인간)보다 "협력적"이라고 답함

서론)

http://www.dogdrip.net/169717003
(지금 다시보니깐 삭제됨)

http://www.dogdrip.net/169965129

워낙 겜돌이라 이거 보고 궁금해져서 좀 더 찾아보기로 했는데, 연구 핵심주제는 아니지만 생각보다 재밌는거 발견해서 들고왔다

일단 다른 게이들의 궁금증은 대표적으로

1. AI와 인간이 동등한 환경에서 실험했는지?(모니터, 키보드, 마우스 등을 사용)

2. 에임/반속으로 발라버린거 아니냐

정도가 있는데 다행히 딥마인드 논문에서 거기까지 커버해 놨으니 하나씩 알아보자

본론)

1. 동등한 환경 관련

일단 1번에 대해 딥마인드측에서는 블로그에서

Additionally, to level the playing field, our learning agents experience the world of CTF in a similar way to humans: they observe a stream of pixel images and issue actions through an emulated game controller.

라고 밝히고 있음.

즉, 인간이 플레이하는 방식과 유사하게 픽셀에서 정보를 추출하고, (가상) 게임 컨트롤러를 활용하여 게임을 플레이 하는 환경이라는 뜻임

(참고로 니들이 생각하는건 아래 나올 퀘이크3 CTF 기본봇들이다. ESP, 키보드없이 컨트롤, 에임핵 등)

자세한건 아래 표를 참조

사실 이부분도 이미지 프로세싱이며 상황판단 알고리즘이며 이미 놀라운 기술이긴 한데 이 글 주제는 그게 아니니깐 넘어가자

2. 에임/반속에 관해

a) 에임에 관해

에이밍 능력을 걸고 넘어지면서 실험 효과를 의심할 사람들이 있다는건 당연하게도 딥마인드 역시 이미 알고있었음

따라서 해당 알고리즘의 에이밍 정확도를 의도적으로 낮춰가며 실험한 결과 역시 공개했는데, 다음 그래프를 보자.

FTW(AI알고리즘)과 사람의 에이밍 확률에 따른 기본 봇 3명과 붙었을 때 승률을 그린 그래프임

인간은 수준에 따라 약 0.45 ~ 0.55 정도의 정확도를 보여주고 있고,

에이밍 수준에 따라 0.8 좀 안되는 수준 ~ 0.9 언저리 정도에서 승률이 형성되고 있음을 알 수 있다.

근데 FTW(알고리즘)을 보면? 띠용?

흔히 겜하면서 '이게 사람새끼냐?' 가 정치질로 나오는데

그 '사람새끼' 수준이 안되는 0.4정도의 정확도에서도 인간 승률 상위권에 해당하는 승률을 가져가고 있는걸 확인할 수 있음

즉 저 피실험자 그룹이 전체 인간을 대표한다고 보면

브5 미만급 에임을 가지고도 골드~플레구간 정도 승률은 달성할 수 있는것임ㅋㅋㅋ

b)반속에 관해

똑똑한 개드리퍼라면 위 문장을 보고 의심부터 들었을거임 왜냐? 반속얘기는 안꺼냈으니깐

하지만 딥마인드가 반속에 대한 실험도 역시 했음ㅋㅋㅋㅋㅋ

이번엔 적을 만난 상황에서 p 확률로 총을 쏘지 않는 식으로 반응속도를 늦췄는데, 다음 그래프를 보자

제일 오른쪽 보라색 그래프가 인간, 나머지가 총을 안쏠 확률에 따른 FTW의 반속(파란색 박스플롯)과 승률(빨간점)

당연하게도 반속이 압도적인걸 볼 수 있음

개입이 없는 상황에서 FTW는 평균 200ms를 기록했는데 인간의 경우 평균 600ms 근방

p값이 0.9 정도가 되야 인간 승률이랑 비슷해지는데 그래봤자 평균 반속 400ms이 되버림

근데 개인적으로는 딥마인드가 왜 이렇게 반응속도를 설계했는지 잘 모르겠음.

p값을 0.5정도에서 유지시키면서 지연시간을 몇 ms정도 넣는것이 좀 더 자연스럽지 않았을까?

실제로 위 그래프를 보면 p값이 늘어나면서 자연스럽게 박스플랏의 박스 역시 커지는걸 알 수 있는데, 나는 이게 자연스러운 비교인지 잘 모르겠다.

혹시 그런 방식으로 비교하니 인간 승률에 비해 너무 낮아져서? 그건 내가 해당 알고리즘에 접근할 수 없으니 알 수 없는 노릇

c) 개선의 가능성에 관해

근데 왜 뜬금없이 개선 가능성에 관해 언급했을까 하는 의문을 품는 개드리퍼들도 있을 것 같다.

그건 이 알고리즘이 최선의 에임/반속을 가정하고 최적화가 진행된 구조기 때문이라고 논문에서 밝히고 있음

Note that in both (c) and (d), the agents were not retrained with these p values and so obtained values are only a lower-bound of the potential performance of agents – this relies on the agents generalising outside of the physical environment they were trained in.

c랑 d는 각각 정확도와 반속 그래프임.

어쨋든 스포츠계에서도 부상/노화에 따라 플레이 스타일이 바뀌는 경우가 빈번한데, 그럼 이전 스타일 말고 다른 플레이스타일을 찾을때 승률이 올라간다는거임

160km/h 볼로 타자를 압박하던 투수는 자기 장기인 구속에만 신경써도 탈삼진 오지게 올릴수 있겠지?

근데 140밖에 못던지게 됐을 때, 예전처럼 존 가운데로 윽박지르던 볼로는 배팅기계밖에 더되겠음?

당연히 존 구석으로 찌를 수 있는 제구력이나 다른 구종을 장착하거나 하겠지

근데 지금 딥마인드가 알고리즘 에이밍/반속을 너프하면서 새로 플레이스타일을 학습시킨게 아니라 기존 스타일대로 시행했음

즉 위 그래프에 비유하자면 구속은 5km/h씩 떨어트리면서 계속 스트라이크 존 한가운데 던져준거임

그래서 에임/반속을 인간 수준에 맞춘때 해당 알고리즘이 최적인지 보장할 수는 없고, 다만 최소한 이정도는 보장이 된다는 뜻

따라서 위 결과보다 개선될 가능성이 있다는 것임ㅇㅇ

3. 알파고는 최고의 파트너

이 부분은 데이터가 논문에 수록되어 있는 것은 아니고 다만 블로그와 논문에 언급된 내용임

이 실험에서 딥마인드는 다양한 구성원들로 구성된 다양한 팀들을 매칭해 승률을 비교했음

{[인간, FTW과 변형 알고리즘들] 중 택2}(= "다양한 팀")

vs

{"다양한 팀", 퀘이크 3 기본 봇 3명, 4명, 5명 중 택1}

그 결과 FTW 2개로 구성된 팀이 승률이 가장 높았다는게 이전까 내용이었는데, 그거 외에 한 가지 흥미로운 사실이 블로그에 소개되어 있음

In fact, in a survey@ among participants they were rated more collaborative than human participants.

(금지어때문에 @이걸 넣었어야 했음ㅅㅂ 승희야 이게 필터냐?)

참가자들은 실험 후 설문조사에서 다른 인간 참가자들 보다 FTW가 더 협력적인 모습을 보였다고 응답했다.

논문에서 역시 비슷한 문장을 찾을 수 있는데

This result suggests that trained agents are capable of cooperating with never seen before teammates, such as humans.

인간과 같은 한번도 보지 못한 팀원과도 훌륭하게 협력할 수 있었다고 함

???

결론)

알파고님께서 닝겐을 발라먹을 수 있었던 것은 에이밍과 반속도 있지만 그것이 전부는 아니다!

+++

개인적으로 이 논문이 재미있었던 것은 최적 해답을 찾아내는 것의 범위가 개인 agent를 넘어서서 agent간의 협력까지 증명하는 사례를 보여줬다는 것

일반적인 지능은 지능 -> 협력 -> 사회화 -> 자아의 순으로 발달한다고 어디서 들은 기억이 있는데(이 부분은 내 전공이 아니라 아님말고ㅎ)

현재 협력까지 온 인공지능이 앞으로 사회화 및 자아 단계까지 발전 할 수 있을지? 그럼 이 알고리즘을 어떻게 취급해야 하는지?

그 이후의 발전방향에는 어떤 것이 있을지? 인간과 AI의 관계는 어떻게 될 지? 그럼 우리의 자아에 관한 답도 찾을 수 있을지?

같은 답도 없고 끝도 없는 질문들이 떠올랐는데 거기까진 잘 모르겠고...ㅎ

========================================================================================================

쓰다보니 길어졌네

마무리를 어떻게하지

알파고님 충성충성충성^^7

7개의 댓글

TOE

2018.07.10

ㅊㅊ!

똥꼬맛생크림

2018.07.12

퀘3 진짜 개씹좆씹 오지게 많이 했는데.. ㅋㅋ irc 도 존나게 들락거리고.. 다들 어디서 뭐하고 살려나..

알파고

2018.07.12

각설탕맛탕

2018.07.12

^^7

죽죽

2018.07.13

사회화라고 쓰면 애들이 오해할 수 있다.
여기서 사회화란.
게임 이론처럼 자기한테 가장 이득이 되는 선택을 추구한다는 가정하에서
상대방을 돕는게 절대이득과 상대이득이 동시에 높아지는 조건을 발견했기 때문에
단지 나의 최선을 위해 상대방을 돕는 행동을 의미한다.

야수의심정

2018.07.13

@죽죽

ㅇㅇ 나도 그위에 썼지만 이번 실험의 결과는 협력이라고 봄

잠만자

2018.07.13

퀘이크 고인물들 듀얼같은 경우엔 에임핵 유저라도 포지셔닝하고 로켓 견제로 상대할만 하다고 생각하니 이번에 인공지능이 이긴게 "아니 ai에임이 당연히 이기지!!" 라는 생각은 확실히 좀 어폐가 있지

무분별한 사용은 차단될 수 있습니다.

번호	제목	글쓴이	추천 수	날짜
12462	[호러 괴담] [살인자 이야기] 귀신이 나온다는 버려진 호텔 1	그그그그	2	1 일 전
12461	[기타 지식] 2024년 방콕 중심지 지도 업데이트 16	쿠릭	19	2 일 전
12460	[호러 괴담] [미제 사건] 살해된 딸, 사라진 가사도우미, 그리고 의심받는... 4	그그그그	11	4 일 전
12459	[기타 지식] 나홀로 세계일주 9년차.ngm	김팽달	5	4 일 전
12458	[역사] 미중 경쟁의 시대 - 광해군의 중립외교에 관하여 (下) 25	골방철학가	26	6 일 전
12457	[과학] 현직 AI분야 교수님이 말하는 AI 트렌드 근황 34	nesy	23	6 일 전
12456	[호러 괴담] [미제 사건] 집에서 사라졌다? 일본 3대 실종사건 1편. 이시... 3	그그그그	7	8 일 전
12455	[과학] [수학 시리즈] 무한보다 더 큰 무한이 있다? 무한의 크기 비... 25	0년째눈팅중	16	8 일 전
12454	[기타 지식] 일본은 어떻게 위스키 강국이 되었는가? 편 2부 - 바텐더 개... 1	지나가는김개붕	15	8 일 전
12453	[기타 지식] 일본은 어떻게 위스키 강국이 되었는가? 편 1부 - 바텐더 개... 10	지나가는김개붕	11	9 일 전
12452	[과학] [수학 시리즈] 왜 0.999...=1 인가? 수학의 오래된 떡밥에 대... 67	0년째눈팅중	37	9 일 전
12451	[자연] 햄스터에 대한 몇가지 사실들을 알아보자 27	식별불해	7	10 일 전
12450	[자연] 세상에서 가장 빠른 생물을 알아보자 12	식별불해	11	10 일 전
12449	[호러 괴담] [살인자 이야기] 돈을 위해 천륜을 저버리다. 1	그그그그	3	10 일 전
12448	[역사] 미중 경쟁의 시대 - 광해군의 중립외교에 관하여 (上) 32	골방철학가	17	11 일 전
12447	[호러 괴담] [살인자 이야기] 공소시효가 끝나자 살인을 자백한 남성 6	그그그그	11	13 일 전
12446	[기타 지식] 세계 최고 부자가 만드는 술, 꼬냑 헤네시 편 - 바텐더 개붕... 15	지나가는김개붕	13	13 일 전
12445	[유머] 황밸 오지선다 4	Agit	4	15 일 전
12444	[기타 지식] 유럽 안에서 널리 쓰이는 유럽어 45	Overwatch	9	16 일 전
12443	[호러 괴담] [살인자 이야기] 그녀도 날 사랑하는데...카스카베 중국인 부... 4	그그그그	9	17 일 전

로그인

과학

공유하기

페이스북

트위터

네이버

밴드

카카오스토리

7개의 댓글

검색