비전공자를 위한 ChatGPT 설명 1. 트랜스포머의 이해

읽을 거리 판

즐겨찾기

최근

전체

최근 방문 게시판

과학

비전공자를 위한 ChatGPT 설명 1. 트랜스포머의 이해

https://www.dogdrip.net/463742910

오늘도 헬스장 사이클 돌리면서 뻘글 쓸 생각에 들뜬 애기 개붕이임.

지난 글이 댓글은 많이 받았는데 아쉽게도 좋아요가 10개는 못 넘어서 쓸까말까 고민했지만 걍 오랜만에 글로 누군가한테 설명하는 것도 재밌어서 한 번 더 씀

인공지능판에서 그림생성보다 요새 더 뜨거운게 아마도 ChatGPT인 것 같고, 공부하면서 이 모델만큼 다른 사람들 입에 인공지능 모델이 오르내리는 것도 못 본 듯 하여 오늘은

ChatGPT가 어떤 식으로 학습을 하고, 어떤 한계가 있는지 최대한 비전공자를 위해 써 보겠음.

어그로를 끌기 위해 사실 chatgpt라는 제목을 써 뒀지만, 이 모델 설명을 위해 피할 수 없는 모델은 바로 transformer라는 2017년도에 나온 자연어 인공지능 모델임.

그래서 사실 이 글의 대부분은 transformer 모델에 대한 설명이 대부분이 될 거고, 내가 탈수로 사이클을 멈추지 않는다면 아마 RL 과 human in the loop 설명을 쓸 지도 모름.

한영변환 귀찮으니 앞으로 트랜스포머라고 쓰겠음.

1. 그게 뭔데

워낙 모델이 좋아서 지금까지도 구조가 거의 많이 안 바뀌고 쓰이는 자연어 처리 모델. 처음엔 번역 목적으로 설계되었음.

요새는 그림이나 3차원 모델링 등 언어랑 전혀 상관 없는 분야에도 무슨 레고블럭마냥 쓰이는 인공지능 모델.

그래서 하는 일이 뭐냐,

"다음에 올 낱말로 알맞은 것은?" 을 연속해서 푸는 거임.

어릴 때 좋든 싫든 아래 그림 같은 거 풀어본 적 있을 거임.

오리지날 트랜스포머는 빈 칸 뒤에 추가 단어들이 없지만 여튼,

똑똑한 개붕이들이라면 뒤 단어 없이도 빈 칸을 채울 수 있을거임.

심지어 보기까지 있으면 쉽지.

할머니가 배추 다섯 ( )

1. 마리 2. 놀라게 3. 포기

정답은?

이걸 인터넷이랑 책에 있는 수많은 글들 기반으로 데이터셋을 구축해놓고, 다음 단어를 잘 맞출때까지 뺑뺑이 돌리는 방식으로 학습함.

2. 개쉬워보이는데 그 전엔 이걸 못 함?

하긴 함. 그리고 잘 못함.

딥 러닝의 선조분들께서 이 쉬워 보이는 문제에 도전 안 했을 리가. RNN이니 seq2seq이니 많았음.

3. 왜 그 전엔 못 함?

언어나 시계열 예측에서 다음 정보를 추론할 때 가장 문제가 되는 건 다음에 나올 정보를 추론할 때 필요한 사전 정보가 대체 어디에 있는지를 알기 어렵다는 데에 있음. 예를 들어,

"개붕이는 오늘 불금 퇴근길에 맥주 한 캔을 사서 치킨과 함께 축구를 볼 생각에 벌써부터 들떠 있었다. 내일은 ( )요일이니까 늦게까지 잘 생각이다."

이런 문장이 있다고 하자. ( )를 맞추기 위해 우리가 찾아야 하는 정보는 15단어 전에 있는 "불금" 임.

하지만 아까 처음 문제는 어땠지? "배추 다섯 ( )" 두 단어 전이면 충분함.

문제는 다르다는 거. 매번, 문장 구조마다, 단어가 주어지는 방식마다, 문맥마다 다름. 이게 "다음에 나올 낱말을 맞추시오" 처럼 쉬워 보이는 문제를 일반화 해서 풀 때 가장 골때리는 지점이었음.

트랜스포머 이전에 나온 언어모델들은 대부분 순차 정보 처리 기반이었고 아무리 용을 써도 오래 전 정보는 모델 자체에서 서서히 잊혀지는 걸 피하기 어려웠음.

4. 트랜스포머는 뭐가 다른데

이 위대한 인공지능 모델에는 정말 많은 좋은 아이디어들이 들어가 있지만, 가장 핵심은 attention mechanism 이라는 구조임.

사실 이 부분을 잘 이해하는건 모델의 한계점을 이해하는데에는 그닥 도움이 되지 않겠지만, 자연어 인공지능에 있어서 가장 커다란 터닝포인트가 된 아이디어라서 짚고 넘어가고자 함

어텐션=주목 이니까 우리말로 하면 "주목도 계산방식" 정도 될 것 같은데 전문 인공지는 번역가는 아니니까 이해를 위한 참고용으로만 생각하고,

여튼 이 어텐션 메커니즘의 가장 주요한 아이디어는 대략 세 개

- 문장 내 각 단어가, 문장에 있는 "자신을 포함한 다른 모든 단어"에 대해 각각 주목도 점수를 매긴다. (Attention score)

- (생성 시) 응답 언어랑 질의 언어의 단어끼리도 주목도를 계산한다. (Cross attention)

- 이걸 심판을 여러 명 두는 것 마냥 점수를 여럿이서 매긴다. (Multi-head attention)

다 설명하자니 슬슬 힘들어서 어텐션 스코어 원리만 설명하겠음.

이 모델은 문장에 각 단어를 세 벡터로 변환하는데 수학 나와서 미안. 이걸 수학 없이 설명하려니 진이 다 빠짐. 바코드라고 보면 됨. 단어 하나당 바코드를 세 개 만듬.

첫 번째 바코드의 역할은 내가 가진 정보의 방향.

두 번째 바코드의 역할은 다른 놈들이 가진 정보의 방향

세 번째 바코드의 역할은 내가 가진 정보의 크기.

를 함축한다고 보면 전공생들이 오면 방망이들고 뛰어올 거 같지만 반박시 님들 말이 다 맞으니 내스타일로 일단 끝까지 해 볼게. (주1)

"불금" 이라는 단어가 가진 정보를 생각해 볼게

불금이라는 단어에 있는 정보를 쪼개보면 (불탄다, 술, 만난다, 논다, 늦게까지, 금요일, 내일 휴일) 등등의 정보가 있다고 볼 수 있음.

여기서 불탄다, 술, 만난다, 논다, 각각이 방향이라고 보면 됨.

그럼 아까 문제에서 "내일은" 도 똑같이 생각해보면 (요일, 시간, 날짜, 오늘의 다음, 모래의 어제) 등등의 정보가 있을 거임.

어텐션 메커니즘이 하는 일은 이 서로 다른 단어의 정보를 곱했을 때(바코드를 겹쳐봤을 때), 상관 있는 방향끼리는(바코드가 겹치는 정보는) 높은 점수를, 상관 없는 방향끼리는 낮은 점수를 가지도록 인공지능을 훈련시키는 거임. 바코드의 정보가 올바른 방향끼리 계산될 수 있도록.

이렇게 하면 모든 단어에 대해서, 다른 모든 단어에 대해 가져야 하는 "주목도"를 계산할 수 있음.

이를테면 학습이 잘 진행된다면, 인공지능은 다음과 같이 계산하도록 설계되었다는거임.

"내일은"이라는 단어가 여러 정보 속성 중에 (요일) 방향의 정보를 가지고, "불금" 이라는 단어도 (요일) 속성 정보가 있으니

(바코드상에서 같은 위치에 있으니) 이 정보를 단어 정보에 추가해줘야겠다

라는 식임.

아까 세 번째 바코드가 정보의 크기를 나타낸다고 했지?

학습이 잘 끝나면 "내일은" 이라는 단어는 문장을 다음과 같이 보게 됨.

"개붕이는 오늘 불금 퇴근길에 맥주 한 캔을 사서 치킨과 함께 축구를 볼 생각에 벌써부터 들떠 있었다. 내일은 ( )요일이니까 늦게까지 잘 생각이다."

-> ".... 오늘 불금 퇴근길에 .. . .. .. ... .. 축구를 . ... .... .. ..."

다른 정보를 개무시하고 봐야 하는 단어에만 주목하게 됨. 그리고 이 정보를 세 번째 바코드에 곱해줌.

내일은: 오늘... 불금... 퇴근길.... 메모 (상상도)

1028612757_SMp52QzW_e32bdba9aa7d9ea9654272915fbb1d8297615c9e (1).jpg

이런 식으로 모든 단어가 각 단어의 자체 정보에다가 전체 문장에 있는 단어를 어떻게 보고 있는지 메모를 덧씌우는 거임.

5. 그래서, 장점은 뭐고 한계는 뭐고 왜 다른데서 쓰임?

힘들다. 무리야. 자전거 한 시간 돌렸어. 쇠질도 안 하고.

수학 없이 latent vecter cosine distance랑 query key value 설명하자니 땀이 절로 나네.

나중에 이어서 계속 쓸게.

좋은 저녁 되길.

(주1)

----수학 위험지역----

이 부분 쓰면서 예상하긴 했지만... 역시나 야생의 전공자분들께서 빠따들고 피드백을 주셔서 업데이트함.

정확한 설명을 위해 수학 설명을 첨부하며, 위의 설명은 비전공자들에게 '느낌적인 느낌'을 압축해서 전달하기 위한 부정확한 설명이라는 점을 밝혀둠.

수학적으론 위에서 언급한 세 백터 모두 그 자체는 전부 구조상 정규화랑은 크게 관계 없는 자유로운 크기를 가질 수 있는 고차원 벡터임. 벡터 1, 2, 3을 각각 원저에서는 query,key,value라 칭하며 통상 q, k, v 라 함.

수식에서 두 단어간 정보 유사도를 계산하기 위해 q와 k를 내적(스칼라곱)함. 고딩때 배우는 2차원 벡터의 내적이 |q||k|cos(theta) 임을 생각해 보면, 직관적으로 두 벡터의 사잇각이 작을 수록 값이 크고, 사잇각이 직각에 가까워질수록 0에 가까워지는 걸 알 수 있음. 즉 두 벡터가 가까울수록 절대값이 크고, 멀수록 0에 가까워 짐.이런 의미에서 이를 cosine distance 라고도 부름. 두 고차원 정보의 유사도를 측정하는 가장 단순한 방법 중 하나.

다만 2차원의 직관을 확장하면 오해가 오히러 커질 것 같아서 내가 차라리 바코드에 비유했는데, 고차원 벡터에서 두 벡터의 스칼라곱은 공통 차원의 값이 클수록 해당차원의 값이 커진다는 직관을 활용하기 위해서였음.

원글에서 방향을 강조한 이유는 정보 측면에서 잘 학습된 q,k의 코사인 거리는 effective하게 방향에 영향을 크게 받기 때문이고, 원 저자가 이를 기대하고 식을 디자인했을거라 추측했기 때문임. 정보가 고차원 벡터로 (잘; disentangle되도록) 인코딩 되면, 대부분의 차원은 0이 됨. 이를 sparse하다고 함. 이런 고차원 벡터를 내적하면 상상대로 대부분은 0이 되고 겹치는 차원만 유의미한 값을 갖게 될거임. (바닐라 트랜스포머의 q,k,v 차원이 충분히 고차원인지는... 논외로 하자.)

피드백 준 개붕이가 써준대로 key vector가 가지는 의미도 보다 풍부하게 설명하는게 물론 좋겠지만...거기까지 짚으려면 cross attention을 포함해 투머치를 피하기가 어려웠음. 그건 이 글이 의도한 바가 아니었고... 거기까진 무리였어 용서해줘 개붕씨...

혹시나 이 글을 보고 흥미가 생겨 정확한 수학적 이해를 원하는 개붕이가 있다면 이딴 똥글 말고 제발 꼭 반드시 수식과 원 논문을 참조하는걸 추천. 이해가 안 가는 대충 넘어가는 부분이 대해 물어보면 어떤 의미인지 답을 해줄수 있지만 수식 정의는 원문이 짱임.

-----수학위험지대 끝----

47개의 댓글

아름다운새끼

2023.02.14

잘 보고있다 개붕아

내가 어렸을때 MLM을 했었을 줄이야.... 개붕이가 보여준 예시 보고 깨달았다.... 나도 사실은 고도로 발달된 ( 그러다가 어딘가 고장난) AI 모델이 아닐까

번호	제목	글쓴이	추천 수	날짜
563	[과학] 경계선 지능이 700만 있다는 기사들에 대해 34	LinkedList	11	13 일 전
562	[과학] 번역)새들은 왜 알을 많이 낳는가? - 후투티의 형제살해 습성... 7	리보솜	3	2024.03.23
561	[과학] 학계와 AI, 그리고 Bitter Lesson (쓰라린 교훈) 26	elomn	35	2024.02.17
560	[과학] 지구의 속삭임, 골든 레코드의 우주 9	Archaea	10	2024.02.16
559	[과학] 잔혹한 과학실험 이야기 <1> 절망의 구덩이 19	개드립하면안됨	37	2024.02.15
558	[과학] 스트레스를 받으면 술이 땡기는 이유 12	동식	16	2024.02.10
557	[과학] 지능은 모계유전이 아니다. 40	울릉특별자치도	35	2024.01.26
556	[과학] 진화를 생각할 때 고려할 것들 23	날씨가나쁘잖아	12	2024.01.17
555	[과학] 학문적(과학적) 접근과 유사 진화심리"학" 26	날씨가나쁘잖아	19	2024.01.15
554	[과학] 호모 사피엔스의 야릇한 은폐된 배란에 대한 남녀 학자의 다... 14	개드립하면안됨	15	2023.12.29
553	[과학] 김영하의 작별인사를 읽고 느낀 점 (스포있음) 21	장문주의	2	2023.11.28
552	[과학] 제4회 포스텍 SF 어워드 공모전 ( SF 단편소설 / SF 미니픽션 ) 2	따스땅	1	2023.11.25
551	[과학] 펌) CRISPR 유전자 가위 치료제 "최초" 승인 12	리보솜	7	2023.11.25
550	[과학] 러시아는 기술산업을 어떻게 파괴시켰는가(펌) 9	세기노비는역사비...	15	2023.11.18
549	[과학] 고양이에 의한 섬생태계 교란과 생물 종의 절멸 (펌) 2	힘들힘들고	6	2023.11.16
548	[과학] 번역) 알츠하이머병 유전자는 어떻게 살아남았는가? 12	리보솜	10	2023.11.15
547	[과학] 『우영우』의 자폐 스펙트럼 장애 개념이 왜곡인 이유 (펌) 47	힘들힘들고	10	2023.11.12
546	[과학] 흑수저 문과충 출신 구글 취직하는 파이썬 특강 -1 14	지방흡입기	11	2023.09.27
545	[과학] 국가별 당뇨 유병율 이거 뭐가 바뀐건지 아는사람? 8	LAMBDA	1	2023.09.27
544	[과학] 물샤워 ㅇㅈㄹ 하는 놈들 봐라 171	철동이	48	2023.09.23

로그인

과학

공유하기

페이스북

트위터

네이버

밴드

카카오스토리

47개의 댓글

검색