Diffusion 모델 등 생성ai의 한계와 미래

읽을 거리 판

즐겨찾기

최근

전체

최근 방문 게시판

과학

Diffusion 모델 등 생성ai의 한계와 미래

https://www.dogdrip.net/463407343

인공지능 관련 일 하고 있는 애기 개붕이임.

현업 입장에서 하루가 멀다하고 미드저니 같은 그림 인공지능 써서 짤져오는 글이나 ChatGPT 이야기가 올라오는 환경이 재미있음. 이제 비전공자나 일반인들도 이쪽 관심이 많아지고 있어서 n년차 설명충이 나름대로 쉽게 이런 것들이 어떤 원리인지 쉽게 설명해보려고 함.

헬스장에서 자전거 돌리면서 쓰는 글이라 정리도 없고 퇴고도 없을거라 조금 엉성할 수 있음. 밥먹고 이 고민만 하는 게 일이라 머리속으로는 정리가 잘 되어있는데 글이 얼마나 깔끔할진 모르겠다.

먼저 그림 그리는 생성인공지능에 관해 써 보겠음.

1. 왜 요새 핫한가?

여러 이유가 있겠겠지만 제일 중요한건 언어로 제어가능하도록 만들었다는 점이 되겠음.

이전에 그림찌는 모델이 없었던 건 아님. Diffusion 이전에 가장 핫했던 건 GAN 이라고 만드는 놈(Generator)이랑 잘 쪘는지 심판보는 놈(Discriminator) 이랑 같이 학습시켜서 심판이 좋아지면 만드는놈도 잘만들어야 하는 경쟁 방식을 썼음.

이 모델도 결과물 자체는 그럴싸 했는데 결정적인 건 내맘대로 조절이 어려웠음. Latent space controllability 라고 하는데 쉽게 개붕이들 눈높이에 맞춰 설명하자면 게임 캐릭터 커마 같은거라고 보면 됨.

캐릭터 커마 하면 눈코입 조절하는 막대기들 있을거임. 예전 방식은 막대기 하나 조정하면 다른 막대기들이 미쳐날뜀. 딱 상상해보면 이걸로 원하는 걸 만드는게 그지같이 어려울거라는 상상이 될 듯. 이 설명도 어려우려나...

예전 모델들이 이랬음. 입맛대로 바꾸기가 미친듯이 어려웠음.

2. 요새는 문장 써서 만들던데?

예전과 요즘이 가장 다른 게 그 포인트임.

Diffusion 말고 CLIP이란 모델이 있음. 이 모델이 하는 가장 중요한 역할은 다음으로 요약 가능함.

그림을 암호화 한 숫자 = 문장을 암호화 한 숫자

가 되도록 메인 학습 전에 예습을 시킴.

이게 되면 뭐가 좋냐,

문장을 암호화 한 숫자를 "그림처럼 취급이 가능" 함.

3. 그래서?

AI 학습 해본 사람은 알겠지만 학습 초기에는 결과물이 생 그지같이 나옴. 이걸 원하는 형태로 도자기 작업하는거마냥 깎아나가는 과정이 학습임.

생성모델도 처음엔 노이즈에서 시작해서 데이터에 있는 그림이랑 비슷하게 만들어가도록 그림을 쪄나가는데, 이 과정에서 우리가 알고 있는 원본 그림이랑 비슷하게 만드는게 좋겠지?

이 때 앞서 설명한 CLIP을 쓰면

주어진 그림이랑 비슷하게 만드는 과정 = 주어진 글이랑 비슷하게 만드는 과정

이 됨.

잘 학습이 끝나면 개붕이가 쓰는 글이 AI 모델에게는 수학적으로는 그림처럼 취급이 되고 그 그림이랑 비슷한 걸 찌게 됨.

이래서 제어가 가능해졌다는거.

4. 한계

Diffusion 모델을 공부해 본 개붕이들이 있으면 알겠지만, 이 모델은

원래 있는 그림에서 '적당한' 노이즈 조금씩 추가 -> 조금씩 노이즈 복원 의 무한반복임.

수학적으로는 우리가 알고 있는 정규분포를 가정하고 각종 식전개 무쌍을 동원해서 기가막힌 조건을 유도하지만 이건 전공생들한테도 어려우니 넘어가고,

요는 " '적당한' 노이즈를 추가해서 복원한다. " 는 개념임.

쉽게 생각해서 아까 게임 캐릭터 커마 이야기로 돌아가면

커마용 막대기를 불편한 골짜기로 조금 일부러 보내놓고, 이쁜 얼굴이 대충 막대기가 어디에 있어야 하는지를 학습하는 과정의 반복임.

이게 뭐가 한계라는 걸까. 다시 말해 문제일까.

못생기거나 기상천외한 걸 못 만듬.

고상한 말로 데이터셋의 분포 안에서 놀게 된다고 할 수 있는데. 주어진 데이터 셋의 분포랑 가장 유사한 분포밖에 만들지 못함.

조금 극단적으로 말하면 (수학적으론 틀린 설명이지만)

얼굴인지 아닌지 긴가민가 한 얼굴

건물인지 뭔지 애매한 건물

이런건 못 만든다는 거임.

5. 예전에도 그랬잖아?

맞음.

잘 만들고, 언어로 제어가 가능해 진 것이지, 주어진 데이터셋의 분포를 벗어나는 걸 할 수 없음.

인간의 창의성은 이유에 대한 설명과정임.

온갖 어처구니 없는 바보같은 상상도 자기가 가지고 있는 논리로 조합만 되면 자기합리화 하는게 인간의 창의성이 가진 어찌보면 위대한 점임.

아직은 그런거 못 함.

6. 그런게 나올까?

나올거라고 봄. 빠르면 올해 늦어도 3년 안에. 주변에 이런 소리 하면 놀라지만...

슬슬 자전거만 돌렸는데도 땀이 나서, 오늘 글은 여기까지.

반응 좋으면 연재각도 재볼게.

좋은 하루 되길.

51개의 댓글

charlote

2023.02.15

@년째설명충

아 그 회사 창업자가 나랑 친한 선밴데 평생의 목표가 AI 사회주의 낙원 만드는거라서 AI열심히 연구하더라고. 그 선배에게서도 한번씩 인공지능 얘기 듣는데 흥미롭달지 무섭달지.....

무분별한 사용은 차단될 수 있습니다.

읽을 거리 판

인기글

번호	제목	글쓴이	추천 수	날짜
563	[과학] 경계선 지능이 700만 있다는 기사들에 대해 34	LinkedList	11	14 일 전
562	[과학] 번역)새들은 왜 알을 많이 낳는가? - 후투티의 형제살해 습성... 7	리보솜	3	2024.03.23
561	[과학] 학계와 AI, 그리고 Bitter Lesson (쓰라린 교훈) 26	elomn	35	2024.02.17
560	[과학] 지구의 속삭임, 골든 레코드의 우주 9	Archaea	10	2024.02.16
559	[과학] 잔혹한 과학실험 이야기 <1> 절망의 구덩이 19	개드립하면안됨	37	2024.02.15
558	[과학] 스트레스를 받으면 술이 땡기는 이유 12	동식	16	2024.02.10
557	[과학] 지능은 모계유전이 아니다. 40	울릉특별자치도	35	2024.01.26
556	[과학] 진화를 생각할 때 고려할 것들 23	날씨가나쁘잖아	12	2024.01.17
555	[과학] 학문적(과학적) 접근과 유사 진화심리"학" 26	날씨가나쁘잖아	19	2024.01.15
554	[과학] 호모 사피엔스의 야릇한 은폐된 배란에 대한 남녀 학자의 다... 14	개드립하면안됨	15	2023.12.29
553	[과학] 김영하의 작별인사를 읽고 느낀 점 (스포있음) 21	장문주의	2	2023.11.28
552	[과학] 제4회 포스텍 SF 어워드 공모전 ( SF 단편소설 / SF 미니픽션 ) 2	따스땅	1	2023.11.25
551	[과학] 펌) CRISPR 유전자 가위 치료제 "최초" 승인 12	리보솜	7	2023.11.25
550	[과학] 러시아는 기술산업을 어떻게 파괴시켰는가(펌) 9	세기노비는역사비...	15	2023.11.18
549	[과학] 고양이에 의한 섬생태계 교란과 생물 종의 절멸 (펌) 2	힘들힘들고	6	2023.11.16
548	[과학] 번역) 알츠하이머병 유전자는 어떻게 살아남았는가? 12	리보솜	10	2023.11.15
547	[과학] 『우영우』의 자폐 스펙트럼 장애 개념이 왜곡인 이유 (펌) 47	힘들힘들고	10	2023.11.12
546	[과학] 흑수저 문과충 출신 구글 취직하는 파이썬 특강 -1 14	지방흡입기	11	2023.09.27
545	[과학] 국가별 당뇨 유병율 이거 뭐가 바뀐건지 아는사람? 8	LAMBDA	1	2023.09.27
544	[과학] 물샤워 ㅇㅈㄹ 하는 놈들 봐라 171	철동이	48	2023.09.23

읽을 거리 판

과학

Diffusion 모델 등 생성ai의 한계와 미래

51개의 댓글

charlote

배달 기사 VS 아줌마

쉬면 죽는 한국의 2030 청년들

좆소에서 지각하면 생기는일.jpg

지금이라도 당장 니 엉덩이에 하고 싶어.mp9

읽을 거리 판

읽을 거리 판 인기글

로그인

읽을 거리 판

과학

Diffusion 모델 등 생성ai의 한계와 미래

공유하기

페이스북

트위터

네이버

밴드

카카오스토리

51개의 댓글

charlote

배달 기사 VS 아줌마

쉬면 죽는 한국의 2030 청년들

좆소에서 지각하면 생기는일.jpg

지금이라도 당장 니 엉덩이에 하고 싶어.mp9

읽을 거리 판

검색

읽을 거리 판 인기글