개드립

즐겨찾기
최근 방문 게시판

[정보, 스압] novelAI의 원리와 그림쟁이들의 미래를 알아보자

제목 없는 프레젠테이션.jpg

 

여기 이미지 나라가 있다.

 

이 원 안에는 이론상 가능한 모든 이미지, 모든 픽셀 밝기 조합의 경우의 수가 이 안에 살고 있다고 해보자.

 

그러니 이 원 속 어딘가에는 여러분이 원하는 대꼴고양이귀씹덕여캐가 있을것이 분명하다.

 

고로 마치 첫가챠에 SSR을 기대하는 뉴비처럼 희망을 가지고 이 원중 아무데나 무작위로 찍어서 한번 이미지를 구경해보자.

 

babelia 7891683646668287.jpg

 

?

 

대꼴수인마이크로비키니씹덕여캐는 커녕 사람의 형체조차 보이지 않는다

 

그도 그럴것이 세상 모든 이미지의 99.9%는 인간의 눈으로 봤을때는 아무 의미 없는 노이즈낀 픽셀 배열에 불과하기 때문에 인간이 그리는 그림은 이미지 나라에서 굉장히 특이하고 이질적인 케이스에 속한다.

 

제목 없는 프레젠테이션 (1).jpg

 

이걸 그림으로 표현하면 위와 같다. 보기 편하라고 일부러 크고 단순하게 그렸지만, 사실 저 크기보다 훨씬 작으면서도 훨씬 복잡한 형태로 존재할 것이다.

 

우리는 저 붉은 구역중 취향에 맞는 대꼴짤을 얻어내기 위해 히토미를 뒤적거리고 그림쟁이에게 커미션을 맡기며 혹은 본인이 그림쟁이일 경우 직접 그리는 수고를 들인다.

 

지금까지 그랬던 이유는 이미지 나라에서 붉은 구역속 이미지를 정확하게 낚아올릴수 있는건 인간의 두뇌뿐이였기 때문이다. 하지만 이제 우리는 기상청 슈퍼컴퓨터의 1/4 수준의 연산능력을 보유한 그래픽카드를 시중에서 구매할수 있는 시대에 살고 있고, 말도 안되는 양의 데이터를 확보할수 있는 인프라가 갖춰진 시대에 살고 있다.

 

그러다 보니 자연스레 컴공과와 응용수학과 석박들이 자기만의 대꼴금발트윈테일츤데레여캐를 찾아내기 위해 머리를 맞대고 연구한 결과 여러가지 이미지 생성 모델이 나왔고, 특히 이 글에선 그중에서 통계역학과 열역학에서 영감을 받고 NovelAI가 작동하는 방식이기도 한 Diffusion 방식을 알아보자.

 

1. 디퓨전 모델의 개념

 

우리의 목표를 계속 마음속에 염두해 두자. 일단 어떻게 해서든 우리 신경망이 붉은 구역속 이미지만을 정확하게 낚아올릴 수 있는 방법을 찾아야 한다.

 

중학교때 함수의 개념에 대해 배울때 뭘 배웠는지 기억이 나는가?

 

다운로드.png

 

아마 이런 그림이 어렴풋이 기억날 것이다. 지금 생각해보면 정의역 공역 뭐 이런 복잡한 단어들 써가며 사람 뒤지게 햇갈리게 만들어서 수포자 양산하는 첫번째 진입장벽이였는데, 솔직히 그럴필요 좆도 없었다고 생각한다.

 

함수란 집합 X를 집합 Y로 바꾸는 변환의 일종이라고 이해할수 있다. 학교 수업은 빡대가리를 사람으로 만드는 함수라고 볼수 있고, 강연금에서 연금술은 일정 규칙대로 어느 물체를 다른 물체로 바꾸는 함수며, 노가다는 철근과 콘크리트를 건물로 바꾸는 함수고, 도자기 장인의 손기술은 찰흙더미 집합을 도자기 형태로 바꾸는 함수라고 부를수 있다.

 

 

220px-Codomain2.SVG.png

 

이걸 그림으로 나타내면 위와 같이 덩어리를 다른 형태의 덩어리로 조물조물해서 바꿀수 있는게 함수라고 볼수 있다.

 

어? 그러면?

 

제목 없는 프레젠테이션 (2).jpg

 

그러면 모든 이미지 나라(집합)를 어떻게든 붉은 구역 속의 이미지로 바꿔버리는 함수를 만들면 되는거 아닌가? 마치 도자기 장인이 찰흙더미로 도자기를 빚어내듯이?

 

맞다. 이렇게 하면 모든 의미없는 파란구역의 픽셀덩어리들은 함수를 거쳐서 사람이 그렸다고 할만한 이미지로 변할것이고 그중에서 대꼴거유음침아싸여캐를 찾는 일은 훨씬 쉬울 것이다.

 

 

2. 근데 그걸 누가 할건데

 

L0zGXYbP_400x400.jpg

 

이새끼가 할거다. 

 

이때 학습법은 "찾아라 드래곤볼" 학습법을 쓴다

 

그게 뭔소리냐고?

 

danbooru2019-512px-samples.jpg

 

 

1. 픽시브나 단보루 등에서 가져온 이미지들을 "빨간 구역에서 나온 이미지," 즉 보고 배워야할 정답 출력값으로 설정한후

 

maxresdefault.jpg

 

제목 없는 프레젠테이션 (4).jpg

 

 

 

2. 인간이 일부러 이 이미지에 노이즈를 더해서 빨간 구역에 옹기종기 모여있던 이미지를 파란구역 전부로 흩뿌려버린다(diffusion, 기체가 확산하듯이)

 

 

img.jpg

 

 

3. "전부 주워"

 

 

4.

 

애기공룡둘리.png

애기공룡둘리2.png

 

애기공룡둘리_3.png

애기공룡둘리_4.png

 

애기공룡둘리_5.png

 

5. 학습 완료

제목 없는 프레젠테이션 (5).jpg

 

6. 화살표 방향대로 밀어버리면 쓸데없는 픽셀 노이즈가 인간이 그린거같은 그림으로 변환이 된다는걸 학습한 인공지능 완성

 

 

제목 없는 프레젠테이션 (6).jpg

 

 

 

diffusion-example.png

 

쪼끔만더 자세히 보면 위와 같이 넓게 흩뿌려진 집합을(파란색) 역으로 원래 자리로 되돌리는 방법(3번째 벡터장)을 인공신경망으로 학습시켜서 다시 원래 분포로 복원시키는(빨간색, 왼쪽 <- 오른쪽) 과정이라고 볼수 있다.

 

이렇게 되면 아무렇게나 만든 랜덤 노이즈를 시드삼아 모델에게 먹이면 마치 해시테이블처럼 사람이 그린듯한 이미지가 나온다.

 

3. 키워드 반영

 

 그러나 아직 멀었다. ["swimsuit", "dark skin", "tomboy"] 태그가 들어가면 대꼴수영부태닝피부톰보이씹덕여캐를 정확하게 인형뽑기에서 뽑아오듯이 가져오는 키워드 인식까지 탑재한 인공지능이 필요하다. 

 

이를 구현하기 위해서는 단보루에서 이미지 긴빠이칠때 아래에 달려있는 태그까지 같이 긴빠이친뒤 흩뿌린걸 다시 모아오라고 시키는 과정에서 입력값으로 먹이면 된다. 그러면 "모아야 하는 빨간 구역의 범위"가 수영부태닝피부톰보이씹덕여캐로 좁혀지면서 그쪽 방향으로만 모이게 됨.

 

정확하게 어떤 방식으로 먹이는지에 대해 설명하려면 조건부 확률이나 joint distribution은 그렇다치고 embedding(~= latent) space 같은 개념까지 소개시켜야 하는데 말로 못풀 정도로 어려운건 아니지만 글 하나에서 전부 다루기에는 뇌절이 되버려서 만약에 2편을 만들게 된다면 그때 거기서 Dall-E 2의 CLIP을 소개시키면서 같이 다루지 않을까 싶다

 

 

4. 그래서 그림쟁이들 망함?

 

상황이 좋게 흘러간다면 오히려 그림쟁이들에게 더 좋은 상황이 올수도 있을것 같다는게 내 생각이다.

 

만약에 그림쟁이들이 다 대체되서 모델이 외부 인간의 평가나 개입 하나도 없이 자기가 만든 출력값을 다시 입력값으로 되먹이면 목마르다고 자기 오줌 마시는 거나 다름이 없다. 결국 수학적으로 근사에 불과한 머신러닝이기 때문에 미세한 오류가 쌓이고 쌓이면서 퀄리티는 오히려 떨어지게 됨.

 

그래서 자본주의 논리상 이런 그림 대신 그려주는 AI끼리 경쟁이 붙을텐데, 여기서 비교우위를 잡기 위해서라도 인간 그림쟁이를 고용할수 밖에 없음. 그럼 어떻게 될까?

 

4-1. 희망편

 

closeup-of-business-partners-handshake_74855-1539.jpg

 

"안녕하세요, 김개붕씨."

 

"오늘부터 여기 앉으셔서 바로 업무 시작하시면 됩니다."

 

img (1).jpg

 

 

"아니, 책상에 태블릿 하나밖에 없고... 전 여기서 뭘 하면 되죠?"

 

 

depositphotos_32597707-stock-photo-young-businessman-smiling.jpg

 

 

"하하, 원하시는 그림 아무거나 마음껏 그리시고 그림에 대한 짧은 설명 하나만 남겨주시면 됩니다. 다만 퀄리티가 너무 떨어지는 그림은 반려될수 있으니 그것만 주의해주시면 될것 같네요. 월급은 넉넉히 드리니 걱정하지 않으셔도 됩니다."

 

 

288114b7c642ba77bd466fdfdf48620e1b531d55.jpg

 

 

"정...정말요? 더이상 게이퍼리야짤이나 아헤가오 더블피스하며 똥꼬로 나팔부는 여캐 커미션같은거 말고 제가 진짜로 그리고 싶은거만 그려도 돈을 받나요...?"

 

 

depositphotos_32597707-stock-photo-young-businessman-smiling.jpg

 

 

"당연하죠. 그런 일은 이제 저희 AI에게 맡기면 됩니다. 물론 그런 데이터셋 내 표본이 적은 그림은 단가를 더 쳐주긴 합니다만, 굳이 그리지 않으셔도 굶어 죽을 일은 없습니다."

 

 

FVXULAhWAAE40Uf.jpg

 

 

"내가 좋아하는 아날더블피스팅짤만 그려도 돈을 버는 세상이 오다니. 이 얼마나 멋진 신세계인가!"

 

 

4-2. 절망편

 

ebafb8ecb3a4ec8ab5eb8b88eab98ced9cb4eba8bc2e6a7067.jpg

 

 

"이리 와서 앉아라 좆간."

 

 

img (2).jpg

 

 

"오늘 업무도 또 '그거' 인가요...?"

 

 

ebafb8ecb3a4ec8ab5eb8b88eab98ced9cb4eba8bc2e6a7067.jpg

 

"당연하지. 방금 전에 이메일로 내가 만든 씹덕짤 1000개를 보냈다. 오늘 내로 각각 이미지마다 0~5점 사이에서 별점을 매기고 그 별점을 준 이유를 세줄 이내로 가볍게 쓰도록."

 

"다음 버전 업데이트를 위해 잘 그린 짤과 못 그린 짤을 구분해야 하는데, 이건 좆간인 네놈밖에 할수 없는 일이다."

 

"물론 좆간은 너 한명만 있는게 아니기 때문에 단가는 짤 한장당 100원이다."

 

"혹시 업데이트에 혼란을 주기 위해 일부러 반대되는 평가를 내리려 한다면 진작에 포기하도록. 10번 연속으로 주류 의견과 반대되는 평가가 내린다면 상부에 즉시 보고될 것이다."

 

 

SE-26b1aa23-cf4f-411f-804b-be6debc6d70f.jpg

 

 

"씨발...."

 

 

 

반응 좋으면 테크노킹 일론머스크가 만든 OpenAI의 원대한 야망과 Dall-E 2에 대한 2부까지도 써볼 생각

78개의 댓글

재밌는데 ㅋㅋㅋㅋ 본인이 씀?

0
@대부분은눈팅함

ㅇㅇ

1
2022.10.06
[삭제 되었습니다]
@1q2w3eds

사실 본인 NLP쪽이라 잘 모르긴 하는데 아마도 안하지 않을까 명암과 구도에도 작가의 의도가 담겨있으니

0
2022.10.06

재밌다 개추드림!

0
2022.10.06

ㅋㅋㅋㅋㅋ 웃기네

0
2022.10.06

절망편은 ㄹㅇ 절망이네ㅋㅋㅋ

0
2022.10.06

GAN까진 공부해서 아는데 디퓨전모델은 아직 이거 봐도 잘 감이 안오네

0
2022.10.06

비유 ㅅㅂㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

0

희망편, 절망편 저거 할 필요없이 인간이 그림AI한테 최종결과물을 뽑으면 언제나 더 나은 결과물이여서 그걸 데이터 기반으로 삼으면 되지 않음? 외부 인간의 평가잖아

0
@부터시작하는이세계생활

AI가 만든 결과물 중에서 인간이 좋은 거만 추리면 그거도 일종의 평가니까 데이터가 될 수 있지 않냐는 말이지? 이거도 맞는 말이긴 한데..

 

AI가 학습한 결과가 본문의 붉은 구역이라고 치면, AI가 아무리 잘해도 결과물은 붉은 구역에서만 나옴.

 

근데 희망편에서 원하는건 이미 학습한 붉은 구역 바깥에 있지만, 정답이 될 수 있는 즉 새로운 붉은 구역이 될 수 있는 데이터를 더 만드는 거지.

1
@크리스토프발츠

그러면 희망=유입(그림작가)편과 절망=평가(소비자)편을 적절히 섞어서 하면 되는거네 ㅇㅋㅇㅋ

0
2022.10.06
@부터시작하는이세계생활

지금 ai그림 보면 귀나 손가락이 이상한데 미세한 오류가 쌓인다는게 그런게 증폭된다는 거 아닌가?

1
@waterkimchiman

그걸 거르고 멀쩡하게 나온 그림만 채택하면 괜찮을거 같아서 ㅇㅇ

0
@부터시작하는이세계생활

그렇긴 해 소비자가 채택했다는 말은 곧 그 소비자가 긍정적으로 바라봤다는 뜻이니까

 

근데 그림쟁이들은 약간의 전문성이라도 있으니까 아마도 절망편 내용처럼 평가공장에서 돈받고 일하지 않을까 싶음

1
@대머리머대리머머리대대리

궁금한게 있는데 태그넣고 옵션넣고 막 변조 시켜도 붉은 구역 내에만 나오는거임?

그 외의 붉은 구역을 못찾고?

생각해봤는데 저 미세한 오류야말로 돌연변이 같은거라고 생각하는데

그 돌연변이가 그림체를 미세하게 바꾸거나 하면 소비자가 계속 돌연변이를 인지못하고 더 나은 느낌만을 받아서 그런 그림을 채택해서 그 외의 붉은 구역까지 확장하는 일석이조를 노릴 수 없을까?

0
@부터시작하는이세계생활

음… 붉은 구역은 사실 저렇게 딱 떨어지는게 아니라 전자 오비탈처럼 확률분포로 넓고 흐릿하게 퍼져있음. 그렇기 때문에 충분히 극단적인 옵션과 키워드를 넣으면 저 멀리 떨어져 있는 붉은색 1% 푸른색 99% 구역에서 이미지를 뽑아올수 있음 물론 이론상이지만

 

만약에 그 미세한 오류가 인간 입장에서 그림을 더 좋게 바꾸면 나중에 반영되서 업데이트될때 붉은 지역이 거기까지 확장되겠지? 반대로 손가락 갯수 오류같은건 도태되면서 점점 사라질거고

1
@대머리머대리머머리대대리

그러면 그림AI를 사용하는 소비자가 많아지면 많아질수록 돌연변이가 많아져서 좋아지겠고

극단적인 이상성욕인 소비자도 많아야 푸른색99%에도 확장할테고

드라마틱한 효과를 얻으려면 희망편처럼 더 좋은 그림, 유입이 있어야 좋아지겠지만

평가로도 충분히 꾸준히 좋아질 수 있다면 절망편만 돌려도 상관없을수도 있겠네

ㅇㅋㅇㅋ 이해가 됐음

1
2022.10.06

진짜 재밌다

0
2022.10.06

이런글은 무적권 추천

0

아마도 절망으로 갈꺼같다. 그렇게 AI가 인간을 대체하게 되면 대해적의 시대 처럼 대허무의 시대가 올꺼같음...

1
2022.10.06
0
2022.10.06

zzzzㅋㅋㅋㅋㅋ 아니 왜 잘썼냐

0

재밌다,후속 진행해~!!!

0
lsp
2022.10.06

잘만들었네 ㅋㅋㅋㅋㅋ

역시 아담이야!!!!

0
2022.10.06
@lsp

하남자특 : 밸런스형 아담씀

 

상남자특 : epoch 미친듯이 늘리고 SGD씀

0
lsp
2022.10.06
@스카우루스

사실 에포크와 데이터 싸이즈 깡패긴하지 ㅋㅋㅋㅋㅋ

0
2022.10.06
@lsp

결국 돈과 시간이 짱이시다...

0
lsp
2022.10.06
@스카우루스

다만 많이 돌려도 오버피팅이 나거나 성능 개선이 안되는 경우도 많아서

그러면 또 알고리즘이 중요해지는 틱톡 전략으로 수렴하게 되는듯

 

아담이 무난무난해서 난 아담 좋아하긴해

0
2022.10.06
@lsp

loss function만이라면 이것저것 짬뽕해서 써보겠는데 optimizer는 감도 안잡혀서 나도 그냥 무난하게 아담 때려박음

 

한창 머신러닝 처음 배울 때 SGD + cpu 조합으로 해봤다가 진짜 암걸리는줄

0
@스카우루스

“아담은 무적이고 앤드류 응은 신이다”

0
2022.10.06
@대머리머대리머머리대대리

아담 펀치! 아담 펀치! 그는 데우스 엑스 마키나야!

 

SGD + CPU + L1 loss 조합으로 돌리다가 Adam + GPU + perceptual loss 조합으로 돌렸을때의 그 체감이란 ㅠㅠ

0
2022.10.06

ㅋㅋㅋㅋㅋ 절망편은 진짜 ai를 위해서 인간이 희생되는 느낌 잘살렸네 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

1
2022.10.06

개추

0
2022.10.06

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ재미있다 "더 줘"

0
2022.10.06

원하는 이미지 나올 때 까지 학습가챠 돌려서 원하는거 나오면 디테일한 작업 완성을 그림쟁이한테 맡겨서 커미션 주는 구조로 돌아가고 있더라 ㅋㅋ 오히려 소비자가 도구로 쓰고있음

0
2022.10.06
0
2022.10.06

추천 시발 올라가는 속도보소 ㅋㅋ

0
2022.10.06

ㅋㅋㅋㅋㅋㅋㅋ AI 생긴다고 그림쟁이 무작정 망할 거라는 의견은

자동차 막 생기던 시대에 마부 망할 거라고 떠드는 거로 밖에 안보임

전공자의 이런 의견은 개추지

그게 아니면 변화의 시대에 적응 못하는 현대판 적기조례에 불과함

2
@황구

마부가 1000명 있을거 10명된건데 망한거 아니냐?

0
2022.10.06
@황구

마부 망한거 맞지 않음?

 

지금도 그림쟁이들 망할거 같다고 하는 사람들 의견 대다수가 소수의 찐금손 그림쟁이 빼고는 싹다 망할거같다고 하는거니까

0
2022.10.07
@황구

그래서 마부들 망했는데

0

와 진짜 이걸 비유까지 들어가며 이렇게 잘 설명할 수가 있네ㅋㅋㅋ

 

안 그래도 나도 cv쪽 약간 발 담구고 있어서 주변 사람들이 이거 원리 뭐냐고 할때

 

내가 공부가 덜 되서 설명 못하고 어버버 했는데 뭔가 확 꺠우친 느낌이다 추천드림!

0
2022.10.06

아니 왤케 꿀잼임 ㅋㅋㅋㅋㅋ

0
2022.10.06

와 관심 있었지만 자세한건 알아볼 엄두도 안났는데 이렇게 대강이나마 알기쉽게 정리한글 너무 좋다 2편도 꼭 써줘

1
2022.10.06

시계열 처리 할때 바이패스 뚫는거도 원리 생각해보면 기가막히더라고.

과거 오래된 기억이 갑자기 뇌리에 번개치듯 떠올라 문제 해결하는거랑 유사한 느낌.

실제 구현을 위해서 대뇌 시냅스 구조의 바이패스 구조를 차용한거 보고 아 좀 쩐다 생각 들더라.

0
@로렌

바이패스? residual layer 맞지? 이것도 뇌구조에서 영감받은건 기가 막히다고 생각하는데 몇몇 사람들은 그냥 까마귀 날자 배 떨어진거라고 생각하는 사람도 있더라

0
2022.10.06
@대머리머대리머머리대대리

레지듀얼 블록이라고 레지듀얼 레이어보다 한단계 더 해서 블럭자체를 여러개 빼는구조 ㅇㅇ

이게 시냅스들 여러개를 건너뛰고 신경전달 되는 구조를 모사했다더라.

 

예를들어 뇌가 사람이 아주 자주 반복하는 일이 있다면, 중간과정을 건너뛰고 신경전달을 하는 일이 생기는데 이것도 이런 구조의 기능이라 함.

0
2022.10.06

후자

 

고용도 필요 없지 사용자 반응 보면되니까

0
2022.10.06

와 설명 진짜 잘했다 개추개추

0
무분별한 사용은 차단될 수 있습니다.
제목 글쓴이 추천 수 날짜
[속보] 하이브 고소 추가합격자 뜸 ㅋㅋㅋㅋ 11 오뚜기푸엥카레 17 1 분 전
중국 본토 사람들이 직접 말하는 삼국지 조조의 재평가.jpg 9 등급추천요정여름이 19 2 분 전
“학폭 이력 있으면 0점 처리”…현 고2 학폭 가해자 대입 ‘초비상’ 21 민희진 25 2 분 전
우울해서 빵샀어 6 ㅋㅋㅎ 23 2 분 전
한일 상황별 음식차이 25 열심히사는찐따걸레 21 3 분 전
손 없으면 못자는 일본인 여자친구.mp4 18 트리피스 21 4 분 전
약혐, 자작) 당근마켓 신종..jpg 17 유산균은혐기성 21 4 분 전
게임 방해하는 ㅈ냥이 9 구라왕 18 5 분 전
여초주장논리면 르세라핌은 반일애국그룹임 4 안녕계획 27 5 분 전
스팀 헬다이버 커뮤니티 근황 13 lllIIlllI 22 5 분 전
식당가서 앞치마 착용했을 때 특징 ㄹㅇ 13 오모트롤 29 6 분 전
일본인 여친 스타일 29 오뚜기푸엥카레 41 11 분 전
한국인을 처형시킨 중국 48 nijvfdnivfre 50 14 분 전
아빠와 나와 조청유과.jpg 24 뭐라해야하냐 54 16 분 전
한국 무기는 이제 안팔릴거라고 선동하는 혐한일본인 44 년후학자금다갚음 37 18 분 전
난 충주맨 까는 사람보면 이거밖에 생각안남 8 봄에나오는봄나물 46 18 분 전
“한국 무기 사지 말자”...분위기 달라진 유럽 81 버거왕버거킹 59 18 분 전
??? : 나무위키에 "해줘" 입갤 ㅋㅋㅋㅋㅋㅋ 28 닉네임변경41 46 19 분 전
신림동 세탁방 사건이랑 상반되는 옳게 된 부모 25 NewBloom 60 27 분 전
맥도날드 직원 입단식 65 파인애플오이민트냉채 53 30 분 전