알파고가 보면 죽는 사진: 적대적 공격(adversarial attack)에 대해 알아보자

읽을 거리 판

즐겨찾기

최근

전체

최근 방문 게시판

과학

알파고가 보면 죽는 사진: 적대적 공격(adversarial attack)에 대해 알아보자

https://www.dogdrip.net/275929351

데이비드 랭포드의 SF 소설에 등장하는 "블릿(BLIT)." 프랙탈 구조를 띄고 있는 이 이미지는 설정상 인간이 맨눈으로 보게 되면 뇌에 과부하가 일어나 죽는다.

"보면 죽는 사진," "들으면 죽는 단어," "보면 미쳐버리는 괴물" 같은 설정들은 SF나 코스믹 호러 장르를 좋아하는 친구들이면 익숙한 설정이야. 아무것도 모른채 있다가 알아차리는 것만으로도 무력하게 죽어버린다는게 무서운 포인트지. 넷플릭스의 "버드 박스"나 유명한 일본의 "쿠네쿠네" 괴담같이 말이야.

그런데 과연 현실적으로 이런 인지만으로도 사람을 죽이는 물건이나 괴물을 만드는게 가능할까?

놀랍게도 인간을 죽이는건 없지만, 인간의 신경망을 러프하게 본뜬 인공신경망 기반 기계학습 모델은 실제로 입력값에 사람은 눈치채지도 못할만한 값을 절묘하게 집어넣는거만으로도 완전히 망가뜨릴수 있어.

이게 지금부터 소개할 적대적 공격(adversarial attack) 이라는 기계학습 AI를 상대로 한 해킹기법이야. 이름 참 더럽게 비직관적이지? 얼마나 인지도가 없으면 한국 공식 번역명조차 없어. 이해가 안가... 이렇게 재밌는 개념이 왜 안알려져있지?

예시

왼쪽 사진을 보면 인공지능이 사진에 있는게 돼지라는걸 인식하지만, 중간에 있는 노이즈(처럼 보이지만 아닌) 픽셀값들을 더해서 나온 결과물을 다시 집어넣으면 엉뚱하게도 "여객기"라고 인식하는걸 볼수있어. 사람 눈에는 전혀 구별이 안되는데 말이야.

이건 2017년에 개발된 one pixel attack 이라는건데... 보는거와 같이 픽셀 딱 하나의 값을 의도적으로 바꾼것만으로 인공지능을 완전히 곱창내버리는걸 볼수있어.

이번엔 보면 죽는 이미지가 아니라 들으면 미치는 단어야. 리뷰를 분석해서 긍정적인 반응인지 부정적인 반응인지를 판단하는 AI 가 있는데, 긍정적인 형용사와 미사여구로 떡칠되어있는 영어 문장에 "zoning tapping fiennes" 를 어두에 삽입하자 바로 부정적인 리뷰라고 인지하는걸 볼수 있어(positive=>negative).

"근데 이거 그냥 난수 무작위생성해서 끼워넣으면 이렇게 되는거 아님? AI 좃밥이네ㅋㅋ" 라고 할수 있는데 절대 아님. 딥러닝 모델 해킹한답시고 아무생각없이 무작위 난수 집어넣으면 100% 막힘. 대부분의 딥러닝 AI는 개발자가 개병신처럼 데이터를 쓰레기장에서 주워왔거나 산업스파이가 아닌이상 앵간한 노이즈는 무시할줄 알아. 애초에 딥러닝의 수많은 개발목적중 하나가 이런 노이즈 면역도 있었음(Robustness). 그러면 이 개발자들은 어떻게 저 픽셀값이 이미지 인식을 망가트리고 저 세 단어가 결과값을 완전히 뒤집는다는걸 알았을까?

원리(비전공자 ver.)

답은 바로 기계학습 AI를 해킹하는 기계학습 AI를 만들고 학습시키는거야. 이 글에서는 대부분의 실사례처럼 타겟 AI의 내부구조를 전혀 모르고(black-box), 타겟 AI에 대한 무제한 접근이 허용되어있다고 가정하고 갈게. 알고리즘은 요약하자면 다음과 같아.

1. 입력값(배열, 이미지, 문장, 기타등등..)에 약간의 변동(픽셀값 추가, 단어 추가, etc..)을 줘서 오염시킨다

2. 오염된 값을 타겟 AI한테 먹여본다

3. 타겟 AI가 뱉어낸 답이 정답보다 최대한 멀어지게 변동을 주도록 학습시킨다

4. 어느정도 성능이 확보되면 학습을 멈추고 실전투입

설명이 이게 다냐고? 응 이게 다야

어차피 여기서 더 뇌절하면 뒤로가기 누를꺼잖아

디테일적으로 궁금한거 있으면 댓글에 ㄱㄱ 하고

일단 넘어갈게

의의/시사점

그래서 이걸 어따 써먹냐고?

위에서 말한 데이비드 랭포드의 SF 소설에서는 BLIT 개발로 인해 테러리스트의 무기도 총에서 스텐실판과 스프레이 깡통으로 바뀌었다고 하는데, 이런 소설이 미래에서는 현실이 될수 있어. 자율주행자동차가 대중화되었을때 만약에 어떤 미친놈이 반투명 셀로판지에 저걸 프린트해서 표지판에 붙히고 다닌다면? 상상도 못할 규모의 추돌사고가 일어나겠지.

완전한 사물인터넷 시대가 도래하고 이제 집문마저 음성인식으로 열리는 시대가 됐다고 하자. 강도가 위와 같은 음성파일을 녹음기에 틀고 문앞에서 대화를 유도하지. 그리고 어쩔줄 몰라 아무 생각없이 던진 "How are you?" 한마디가 "open the door"로 인식이 되어 집문이 열려버리고...

그 유명한 유튜브 알고리즘도 사실 wide-and-deep 기법을 쓴 딥러닝 모델이기 때문에 썸네일에 미세한 변동을 줘서 추천동영상에 뜨게 만드는것도 가능하지 않을까?

더 무서운 응용방법은 투자은행이나 헤지펀드들의 기업/주가 분석 AI에 adversarial attack을 거는거야. 사람이 보기엔 다 뒤져가는 기업인데 기계가 보기엔 1년내에 개떡상하는 기업이라고 판단하게 만들어 버리면 이게 4차산업시대의 네오-금융사기가 아니고 뭐겠어?

미래에는 인간이 알파고를 상대로 바둑에서 승리하는 유일한 방법은 이것밖에 안남을지도 몰라. 수싸움에서 이기는게 아니라 신경망에 버그를 내는 수를 둬서 이기는거지. 사실 이세돌의 신의 한수 78수는 adversarial attack이 아니였을까?

싸이버펑크 2077에 adversarial attack 있었으면 좋겠다.

이 글을 쓰게 된 계기는 ㄹㅇ 이거였음.

사이버펑크 2077에 구현되어있었으면 좋겠다. 만약에 진짜로 되어있으면 뭘 할수있을까? 막 주인공이 프린트된 사진을 CCTV에 쓰윽 들이밀어서 고장낸다거나 기계 뇌를 달고있는 적들한테 단어 몇마디 날려서 죽이는것도 될텐데...

이런 생각이 꼬리에 꼬리를 물고 늘어지다 보니 은근히 재밌어서 이 글까지 쓰게 됐음.

그리고 굳이 전공자급 지식이 필요한 개념이 아닌데도 불구하고 이렇게 묻혀있는게 너무 억울해서 써봄

만약에 데이터과학/머신러닝쪽을 파고있는 개붕이들이라면 adversarial attack에 관심을 가져보는건 어떨까? 아는 사람이 없어서 논문 쓸거리도 많아!

22개의 댓글

동그랑땡그랑동

2020.08.21

재밌네 저번학기에 추상추론 문제 해결하기(ARC)했는데 이것도 흥미롭다

대머리머대리머머리대대리

2020.08.21

@동그랑땡그랑동

NLP?

동그랑땡그랑동

2020.08.21

@대머리머대리머머리대대리

자연어처리는 아니었고 이미지 관련 추상추론 문제였음

다람쥐귀여워

2020.08.21

이런거좋아 더써줘요 ㅜㅜ 정보추

아스트레스받아

2020.08.21

오 흥미로워 오

개나리는노란색

2020.08.21

잘 봐씀

나멍

2020.08.21

미쳤다 공상같지가않네

가글멘

2020.08.21

매우매우 흥미롭다 adversarial attack 이라고 검색해보면 이런 내용을 더 볼 수 있는 겁니까

대머리머대리머머리대대리

2020.08.22

@가글멘

ㅇㅇ 자세한 설명은 이놈이 해줄거야

https://jsideas.net/Adversarial_Attack/

가글멘

2020.08.22

@대머리머대리머머리대대리

답변 고맙습니다

우리집소다냥

2020.08.21

사펑 마렵네

번탈옥한마약사범

2020.08.21

와치독스에서 주인공 cctv로 보면 모자이크 되는것도 이런 원리인가?

착한말착한말

2020.08.21

원리 전공자 버전으로도 써줘

공격은 무작위로 대입하며 학습시키는것 말고는 없나?

방어는 어떻게 할 수 있을까? 다른 학습과정을 가진 여러 ai를 겹쳐놓고 다수결로 일하게하면 어떨까?

대머리머대리머머리대대리

2020.08.22

@착한말착한말

기본적인 학습개념은 GAN의 generator 학습이랑 비슷해

https://jsideas.net/Adversarial_Attack/

요거 참고하고

방어는 현재 여러가지 방법론들이 개발중이야. 아직 adversarial attack에 우직한 기반이 안다져져있어서 발전이 늦는듯. 수요도 아직 얼마 없고

꿀잼댓글은놓치지않아

2020.08.21

gan을 조금 비틀면 어떻게 될거같기도 한데

Joji

2020.08.21

나 이거 써먹고왔음

https://www.dogdrip.net/276012707

Curriculum

2020.08.21

전공자가 댓글 남깁니다.

현대 인공지능은 매우 다양한 면에서 사람의 분별력을 능가하고 있습니다. 그런데 동시에 사람보다 명확히 떨어지는 면모도 발견되었는데, 그 중 하나가 '지나친 확신(overconfidence)'라는 것입니다.

어떤 인공지능이 이미지를 '개'와 '고양이'로만 구분하도록 학습되었다고 합시다. 이 인공지능이 학습시에 받은 모든 데이터는 '개' 또는 '고양이'였을 겁니다. 그런데 갑자기 '오리'가 들어있는 사진을 주면 어떻게 될까요? 이 인공지능은 아주 당당하게 이 사진이 '개'라고 하던가, '고양이'라고 구분할 겁니다(애초에 시스템상 둘 외의 다른 답을 낼 수가 없습니다).

사람은 아무리 어떤 논리를 학습하더라도 낯선 무언가를 만났을때 "이 문제는 잘 모르겠다"라고 분명하게 느끼는 반면, 인공지능에게는 그런 능력이 떨어집니다.

위의 예도 이러한 맥락으로 해석할 수 있습니다. 정상적인 이미지로만 학습한 인공지능은 노이즈나 픽셀이 깨진 이미지를 보고 낯설어하고 "잘 모르겠다"라는 답변을 내야 합니다. 그런데 시스템상 그렇게 할 수 없는 거고, 잘못된 답변을 아주 확신있게 내놓게 됩니다.

이를 해결하는 가장 일차원적인 방법은 "낯설다고 답변해야 할 사례 전부"를 또 인공지능에게 학습시키는 겁니다. 그런데 이 세상에 낯설게 느껴져야 할 문제는 얼마나 있을까요? 내가 알고 있는 문제를 제외한 모든 문제가 해당하므로 이 문제는 무한대이고, 데이터로 치면 유한개이지만 학습하기에는 너무 많은 양이 되버립니다

이 문제는 아주 최근에 들어서 조명을 받는 문제입니다. bayesian network, PGM, drop out 응용, stochastic regularization 같은 기법들이 속속히 연구되고 있고, 위에서 말한 '학습 과정을 가진 여러 ai 겹치기(앙상블)'도 여기에 포함됩니다.

대머리머대리머머리대대리

2020.08.22

@Curriculum

좋은댓글 고맙다. 말한대로 정석적인 방어법은 robust하게 모델을 만들어 공격자의 perturbation 학습을 굉장히 어렵게 만드는거니까

정공법과 더불어서 이게 실제로 문제가 될 날이 오면 산업계는 순수히 이론적 접근법이 아닌 기발한 꼼수도 개발해내겠지? 어떤 식으로 막을지 굉장히 기대가 되는 분야야.

splosion

2020.08.22

@Curriculum

명확하게 구분할 수 있는 사안에 대해서는 정말로 사람의 분별력을 능가함? ㄷㄷㄷ 정확성에 있어서도?

ㅇㅇ 동시에 너가 학습도 시켜줌

무분별한 사용은 차단될 수 있습니다.

번호	제목	글쓴이	추천 수	날짜
563	[과학] 경계선 지능이 700만 있다는 기사들에 대해 34	LinkedList	10	10 일 전
562	[과학] 번역)새들은 왜 알을 많이 낳는가? - 후투티의 형제살해 습성... 7	리보솜	3	2024.03.23
561	[과학] 학계와 AI, 그리고 Bitter Lesson (쓰라린 교훈) 26	elomn	35	2024.02.17
560	[과학] 지구의 속삭임, 골든 레코드의 우주 9	Archaea	10	2024.02.16
559	[과학] 잔혹한 과학실험 이야기 <1> 절망의 구덩이 19	개드립하면안됨	37	2024.02.15
558	[과학] 스트레스를 받으면 술이 땡기는 이유 12	동식	16	2024.02.10
557	[과학] 지능은 모계유전이 아니다. 40	울릉특별자치도	35	2024.01.26
556	[과학] 진화를 생각할 때 고려할 것들 23	날씨가나쁘잖아	12	2024.01.17
555	[과학] 학문적(과학적) 접근과 유사 진화심리"학" 26	날씨가나쁘잖아	19	2024.01.15
554	[과학] 호모 사피엔스의 야릇한 은폐된 배란에 대한 남녀 학자의 다... 14	개드립하면안됨	15	2023.12.29
553	[과학] 김영하의 작별인사를 읽고 느낀 점 (스포있음) 21	장문주의	2	2023.11.28
552	[과학] 제4회 포스텍 SF 어워드 공모전 ( SF 단편소설 / SF 미니픽션 ) 2	따스땅	1	2023.11.25
551	[과학] 펌) CRISPR 유전자 가위 치료제 "최초" 승인 12	리보솜	7	2023.11.25
550	[과학] 러시아는 기술산업을 어떻게 파괴시켰는가(펌) 9	세기노비는역사비...	15	2023.11.18
549	[과학] 고양이에 의한 섬생태계 교란과 생물 종의 절멸 (펌) 2	힘들힘들고	6	2023.11.16
548	[과학] 번역) 알츠하이머병 유전자는 어떻게 살아남았는가? 12	리보솜	10	2023.11.15
547	[과학] 『우영우』의 자폐 스펙트럼 장애 개념이 왜곡인 이유 (펌) 47	힘들힘들고	10	2023.11.12
546	[과학] 흑수저 문과충 출신 구글 취직하는 파이썬 특강 -1 14	지방흡입기	11	2023.09.27
545	[과학] 국가별 당뇨 유병율 이거 뭐가 바뀐건지 아는사람? 8	LAMBDA	1	2023.09.27
544	[과학] 물샤워 ㅇㅈㄹ 하는 놈들 봐라 171	철동이	48	2023.09.23

읽을 거리 판

과학

알파고가 보면 죽는 사진: 적대적 공격(adversarial attack)에 대해 알아보자

예시

원리(비전공자 ver.)

의의/시사점

싸이버펑크 2077에 adversarial attack 있었으면 좋겠다.

22개의 댓글

동그랑땡그랑동

대머리머대리머머리대대리

동그랑땡그랑동

다람쥐귀여워

아스트레스받아

개나리는노란색

나멍

가글멘

대머리머대리머머리대대리

가글멘

우리집소다냥

번탈옥한마약사범

착한말착한말

대머리머대리머머리대대리

꿀잼댓글은놓치지않아

Joji

Curriculum

대머리머대리머머리대대리

splosion

피넛버터

개드리리트

번째로 번개맞은놈

읽을 거리 판

읽을 거리 판 인기글

로그인

과학

예시

원리(비전공자 ver.)

의의/시사점

싸이버펑크 2077에 adversarial attack 있었으면 좋겠다.

공유하기

페이스북

트위터

네이버

밴드

카카오스토리

22개의 댓글

검색