과학

현직 AI분야 교수님이 말하는 AI 트렌드 근황

Screen Shot 2024-06-10 at 1.18.09 AM.png

 

 

 

LeCun 교수님이 LLM의 한계를 지적한데 대해 의견이 분분하다.

나도 몇 마디 거들면,

 

- AI의 미래에 대한 정답은? 아무도 아는 사람이 없다. 서로 모르는 것을 필요 이상으로 주장하지 말고 그냥 하던 대로 연구하면 된다. LLM이 AI의 미래라는 의견도, LLM은 미래가 없다는 의견도 자신의 지식과 경험에 기반한 믿음에 불과하다. 과학기술의 발전이 그러했듯이 과거의 유산을 계승 발전시켜 좀 더 똑똑하고 경제적인 AI를 만들기 위해 노력하면 된다. LLM에 대한 지나친 추종자나 비판자가 되는 것은 하이브-민희진 사건에 과몰입하는 것만큼 무가치하다.

 

- Transformer는 현존 최강의 building block이며 경험 많은 전문가들만 인지할 수 있는 비밀 ingredient들이 많이 들어가있다. 아주 잘 만들어진 building block이다. 그러나, CNN, LSTM이 없었다면 Transformer는 탄생하지 못했을 것이다. 또한 Transformer의 강력한 위력은 충분한 데이터와 계산을 담보로 한다. 제한된 환경에서는 CNN이나 Conv+MHSA 조합이 더 높은 성능을 보일 수 있다. 더 제한된 환경에서는 전통적인 ML기법이 CNN보다 높은 성능을 보일 수도 있다. 즉, Transformer를 맹종하면 안되고 문제와 상황에 가장 적합한 building block을 선택해야 한다.

 

- LLM과 Transformer는 다르다. Transformer는 MHSA, FFN, LN, skip connection, PE등으로 구성된 building block, 또는 architecture이고 LLM은 AR방식에 의해 과거의 context로부터 다음 token을 예측하는 AI모델이다. 일반적으로 대규모 SSL에 의해 pretraining하고 SL이나 RL에 의해 fine-tuning한다. LLM이 Transformer decoder, 또는 encoder-decoder 조합에 의해 구현되기 때문에 둘을 혼동하는 사람들이 많다. LLM은 CNN이나 RNN으로 구현할 수도 있다. 단, 성능은 Transformer기반 LLM보다 못하다.

 

- LLM은 명시적인 다단계 추론 기능이나 World Model이 없다. (RAG는 매우 제한적인 형태의 World Model로 볼 수 있다.) 엄청난 파라미터수와 학습 데이터에 의해 깊은 사고가 요구되는 작업을 단순 작업처럼 처리할 뿐이다. 예를 들면, 복잡한 수학문제는 고도의 사고를 요구하지만, 선행학습에서 비슷한 유형의 문제를 접한 학생은 피상적인 사고력만으로 풀 수 있다. (선행학습은 사고력 훈련을 암기력 훈련으로 대체한다.) 이러한 LLM의 동작은 추론능력이 아니라 추론을 simulate하는 능력이다. (Weak AI는 다 그런 방식으로 만들어지므로 문제는 아니다.) 단, LLM은 규모에 의존하기 때문에 비효율적이다.

 

- LLM의 한계가 Transformer의 한계는 아니다. 예를 들어, JEPA는 LLM이 아니지만 Transformer를 이용해 구현되기도 한다. 차세대 AI에서 Transformer를 배재할 이유는 없다.

 

- LLM이 왜 그렇게 강력한 성능을 보이는지 정확히 이해하는 사람은 없다. 그러나, 짐작하는 사람은 좀 있다. LeCun 교수님도 그 중의 한 분이다. 이분의 의견이 100% 맞는지는 모르겠으나 함부로 무시할 레벨은 결코 아니다. LeCun 교수님의 의견을 무시할 자격이 있는 딥러닝 전문가가 세계에 몇 명이나 있을까? 한국에 있기는 할까?

 

- LeCun 교수님이 지적한 LLM의 한계에 대하여 기술적으로 정확한 반박은 찾기 어렵다. LLM이 현존 최강의 AI임을 반복하며 LeCun 교수님이 LLM을 능가하는 방법을 보이지 못했음을 지적할 뿐이다. 이런 식의 LLM 옹호는 별로 생산적이지 못하다. LLM이 현존 최강임과 기술적으로 한계가 있음은 모두 맞는 말이다.

LLM이 아무리 강력해도 계속 한계를 지적하고 개선책을 찾는 것이 연구자의 길이다. LLM의 기술적 의미를 인정하면서도 한계를 지적하는 것은 얼마든지 가능하다.

 

- LeCun 교수님이 AI 학생들에게 LLM에 뛰어들지 말라고 하신 이유는 LLM 분야가 빅테크 기업들의 무대라서 대부분의 사람들은 할 수 있는 것이 별로 없기 때문이다. LLM의 기술적 한계와는 또 다른 이슈이다. 당신이 LLM을 scratch부터 학습할 만한 인프라를 갖지 못했다면 LLM의 핵심에 접근하기는 어렵다.

 

- LLM을 직접 만들지 않아도 상당히 많이 이해할 수 있다. 딥러닝 전문가라면 LLM에 사용되는 기술에 대해 대부분 익숙하다. 또한 LLM의 구조와 학습방법은 과거 AI 기술에 비해 매우 단순하다. 요즘 발표되는 LLM 논문들은 고액의 연구비를 사용했음을 쉽게 알 수 있지만 기술적인 깊이는 매우 얕다. 수학적으로는 Wasserstein GAN이나 DDPM보다 훨씬 피상적이다. 그럼에도 실제 LLM을 학습해본 분들의 경험과 노하우는 매우 가치있다.

 

- 우리나라가 AI 강국이 되려면 LeCun 교수님과 일론 머스크의 논쟁을 단순히 실어 나르기보다는 자신의 기술적 의견을 제시하거나 깊이 있는 해설을 해주는 사람이 많아야 하지 않을까?

 

447213749_7607889872599500_3391269298298620152_n.jpeg

34개의 댓글

결론은 나도 모르고 너도 모른다는거네. 개인적인 예측으로는 AGI 수준의 AI가 나오려면 진짜 ML model에서 무슨 일이 일어나는지 이해해야 한다고 봄.

0
4 일 전
@부분과다른전체

AGI로 가려면 지금의 모델 아키텍처로는 아무리 무슨일이 일어나는지 들여다봐도 한계가있음. 지금의 아키텍처는 컴퓨터가 계산하기 쉬운 구조로 되어있어서 어설프게 뇌를 모방하고 있음.. 여튼 돈과 연구자를 쓸어간 openai와 nvidia가 머지않아 그 모델 아키텍처와 연산용 칩 만들겠지

0
4 일 전
@부분과다른전체

챗지피티도 왜 작동하는지 이유 모른다던데..

0
2 일 전
@부분과다른전체

딥러닝 쪽이 좀 이럼 그리고 llm에 뛰어들지 말라는 말에 공감이 되는데 하드웨어 성능을 너무 많이 요구함 기술의 발전이 아니라 딥러닝 모델을 감당할 하드웨어의 발전에 가깝고 나도 이쪽 연구하지만 왜? 라는 질문에 답하기 참 어려움

0
4 일 전

미래는 아무도 모르지.

난 AI가 인간과 친구가 되기를 바래.

도덕적인 친구.

1
4 일 전

정말 잘쓰셨네

0
4 일 전

Ok 알았다

0

완벽히 이해했어.

 

근데 진짜로 엘엘엠은 내 습자지같은 견해로 보기에도, 그게 최종판은 확실히 아닐거 같음. 지금은 모르는 뭐가 나오겠지.

0

정말 elegance하고 brilliant한 analysis네요.

0
4 일 전

근데 진짜 인간 뇌 시뮬레이션 가능해지는 때에 도달하면 그땐 볼장 다 본거 아님? 뇌 수만개 만들어서 다 AI 고급인력으로 만들고 연구시키고 두뇌회전율 10배 시켜놓으면 기술발전 더 심화되지않을까

0
4 일 전

차분히 읽어보려했으나 어질어질하군 ㅋㅋ

0
[삭제 되었습니다]
@년차html개발자

이건 맞긴 함

학부는 물론이고 대학원 수준으로도 LLM을 연구분야로 잡고 뛰어들기엔 적절치 않아서, 빅테크들도 미국의 매그니피센트7정도만 가능한 수준이니

1
4 일 전
@년차html개발자

그런곳에 취직을 하고싶은거라면

0
@년차html개발자

난 Vision쪽 하는데 초창기엔 LLM 쪽이 엄청 인기였는데.. 과제도 많고 기업들에서 사람도 많이 뽑아가서 분야 잘못 골랐다고 생각했었는데

0
4 일 전

싯가 3천-5천짜리 카드 여러장으로 묶인 서버 여러 대로 돌리는게 llm인데... 어케 접근이 가능하겠어

1
4 일 전
@anywhere

연구 준비물만 수십이 필요한 분야인가 ㅋㅋ

0
@움몽

미국 빅테크 기업의 5년내 AI 투자 예상액이 1조 달러임. ㅋㅋㅋ

MS가 2030년까지 투자할 예상 금액이 130조원 정도 되고, 구글이나 아마존도 비슷한 수준임.

그에 비해 네이버는 1조 정도? 미국의 빅테크 말고는 할 수 있는 뭐가 아닌 분야임.

0
4 일 전

이제 고성능 AI는 돈이 없으면 연구조차 못하는 시대 개같이 생긴 AI 학부들 문닫고 소수만 살아남겠네

0
4 일 전

주식교수인 나: '미래의 주식 아무도 모른다.'

0

좋은글추

0
4 일 전

저게 정확하고 중립적인 의견인듯

 

LLM으로 agi를 곧 만들어낼 수 있다고 주장하는 엔비디아나 오픈ai는 매출 더 내려고, 투자 더 받으려고 하는거같고

너무 LLM의 한계를 강조하는 얀르쿤도 자기 포지션의 정당성을 부여하려는거같고

0
4 일 전

현재 AI 성능 및 가능성에 대한 가장 객관적 평가라고 봄. 전문가들도 앞으로 어찌될지 모른다가 정답인데 특정 전문가 한명의 말만 듣고 앞으로 미래가 없다, 혹은 25년 AGI가 도래한다 이런 식의 예측은 무의미하다고 생각함.

0
4 일 전

혹시 LeCun이 말한 LLM의 한계들에 대해 좀 더 자세하게 말해줄 수 있음?

추론 기능이나 World Model이 없다가 그것인가?

혹시 맞다면, World Model을 지향하는 딥러닝 모델의 예시도 좀 소개해주면 좋겠음.

0
4 일 전
@0년째눈팅중

나도 잘 아는건 아니고, 아마존에서만 발표한거 대충 듣고 설명함.

본문에서 언급한 매우 제한적인 모델인 rag가 있음.

 

여기서 rag는 문서를 벡터화 해서 벡터 db에 저장하소, 질문이 들어오면 해당 질문 또한 벡터화 해서 질문과 연관도가 높은 문서들을 가져온 다음,

 

딥러닝 모댈이 질문에 답변하기 전에 미리 문서를 먹여준다음 답변하게 하는 방식을 거리킴.

 

(텍스트를 벡터화 하는 모델은 따로 있는지, llm 모델에 포함 되는지는 모르겠음)

 

최근 아미존에서 발표한 방식 중 하나는,

1.유저가 모델에게 질문을 시도하면,

2. rag를 써서 질문과 연관된 문서를 모델에 제공.

3. 그리고, 질문에 곧바로 답변하는게 아니라

4. 해당 질문과 연관된 질문을 더 생성함.

5. 2-3 몇번 반복후 원래 질문에 답변함.

 

인간으로 예를들면,

어떻게 해야 스카이림 누드 패치를 할 수 있냐고?

스카이림, 누드 패치 등으로 구글 검색

음 스카이림이란게 이런거구나. 누드 퍄치는 이런거고. 근데 넥서스는 뭐지? 모드 충돌은 뭐지?

다시 구글 검색.

 

몇번 반복후 답변.

그카이림 누드 패치를 하려면, 이 링크에서 다운받고어쩌고ㅠ저쩌고.

0
3 일 전
@광어튀김

일종의 self-consistency 같은 엔지니어링이네 구조적으로 "world"라고 부르기는 좀 민망함.

0
4 일 전

전체적으로 잘 쓰신 글 같음.

얀르쿤은, LLM의 한계 때문에 안 될거라고 현재 지식으로 이야기 한거고. 그 지식을 무시할 수준이 아님.

다만, 현재 가장 강력한 AI가 현 트랜스포머 방식 LLM이고, 학습 한번 하는데 수십,수백억이 필요함. 그러니 제대로 들여다본 사람이 별로 없음. GPT5는 학습에 1조 정도가 들어갔다는 당황스러운 카더라도 나오는 마당이라, 문제는 정말 그 정도 들어가면...그리고 openAI가 그동안 보여줬던 퍼포먼스를 생각하면 다음 모델에서 무언가를 보여줄 가능성도 있음.

이건 지금 우리가 알고 있는 지식으로 판단하기 힘듬. openAI 내부자들만 알겠지.....

 

일리야 슈츠케버도, 대학과 기업은 가는 길이 달라졌다고 한 적 있었음.

즉, 어마어마한 돈이 들어가는 LLM 분야는....대학과 연구소가 최전선이 아니라, 대기업이 최전선일 수 있음.

그래서, 알트만이 투자를 위해서 허풍을 치고 있는건지, 진짜 뭔가가 있는 건지 우리는 알 수가 없다.

openAI의 차기모델을 보고 짐작할 뿐.

 

영상생성에서 갑툭튀한 SORA나

진정한 멀티모달이라 할 수 있는 GPT4o를 보면

분명 뭔가 해내는 기업은 맞다고 봄.

 

다만 SORA가 약간 옆그레이드, GPT4o는 조금 업그레이드.

AGI를 위한 명확한 추론능력 향상. 장기기억. 이런 건 아직 명확히 보여준 적이 없으니까.

GPT5가 일단 제대로 나오면, 어느정도 정리 될 것 같음.

0
3 일 전

LLM 등의 대규모 모델로 먹고 살기에는 초대기업만 가능하므로, 실시간 임베디드 온디바이스 AI로 먹고 사는 길을 선택하였으나, 시발 ㅈ같은 제조업의 한계를 벗어나지 못해서 못 해먹고 퇴직할 생각임.

0
3 일 전

알트만 예전 인터뷰를 보면 GPT는 새로운 기술이 아니라 기존의 기술을 집약했다고 함. 이게 거짓말이 아니라면 당장 하루에도 수백편씩 SOTA 달성했다고 논문이 쏟아지는 마당에, 그런 기술을 다 일일이 적용해서 trial-and-error로 쩌는 모델을 찾아낸거라고 하면 충분히 설득력 있지 않을까 한다.

 

다만 오늘날 딥러닝 씬에서 아쉬운 건 응용분야로서 과다대표 현상이 있음. 흔히 수학 기반이라고들 이야기 하지만 정작 현실에서 주목 받는 건 그런 분야가 아님. optimization, kernel method, functional analysis 같은 수학 기반의 모델링 연구가 이전에 비해 주목을 많이 못 받는듯. (저 글에 나온 diffusion도 정작 원리를 수학적으로 정확하게 이해하고 쓰는 연구자가 몇이나 될까?) 어느 정도의 이론에 입각해서 가설과 검증을 제시하기 보단 돈 발라서 만든 데이터에, 돈 발라서 만든 컴퓨팅 리소스로 "이거봐 잘 된다 신기하지?" 같은 부류의 논문이 트렌드를 이끌고 있음.

 

심지어 취업으로 넘어가면 더욱 심각하지. 사실상 수학이나 원리는 개나 줘버리고, 빠르게 잘 되는 모델 가져다 우리 파이프라인 연결하고 eval 해서 서비스만 어떻게든 내라는 식이고 자연스레 AI 보다는 백엔드에 더 기우는게 실제 "인공지능" 개발자 취업 현실이라고 봄. (이럴거면 왜 석사를 보나 몰라)

 

그리고 아직 두각을 드러내진 않은듯 한데 transformer 대체재로 Mamba 쪽에 살짝 기대를 걸어보고 있음. control theory 기반이라 정확이 이해하진 못했지만 적어도 목적은 transformer와 RNN의 장점만을 가져왔다 정도로 보면 꽤 흥미로움.

0
2 일 전
@자살의합리성

잘 모르지만 너무 궁금해서 물어보는건데

mamba는 뭐고 control theory는 뭔지 간략하게만 알려줄 수 있어?

0
2 일 전
@만주의schd

이건 정확한 대답은 아니니까 틀리면 누가 수정해주길 기대함

 

직관적으로는 비행기 운행 같은거 떠올릴 때, 비행기는 정해진 항로가 있고 이걸 따라가잖아 그런데 현실에서는 난기류 같은 여러 변수가 있으니까 조금씩 어긋날텐데 이걸 바로 잡을거임. 그러니까 현재 “상태”가 있고 이상적인 상태가 있는데 (항로를 유지하는), 이상적인 상태로 유지하기 위해 현재 상태에서 조종간을 움직이는 등 행동을 하겠지? 이 과정을 이론적으로 정립한 게 control theory임

 

그리고 Mamba라는 건 transformer의 대체재로 거론이 되기도 하는데, 이건 transformer가 구조적으로 갖는 치명적인 단점을 보완하기 때문임

 

Transformer는 구조적으로 입력의 길이가 길어지면 그 길이의 제곱만큼 메모리 사용량이 올라감. 그런데 메모리양이 무한하지

않으니까 일정 수준 길이가 넘어가버리면 그대로 뻗어버리거나 더 많은 메모리를 쏟아넣어야 하는 거지. 그래서 기존 연구는 sliding window를 응용해서 입력의 길이를 어떻게든 늘려보려는 시도가 많았고

 

그런데 mamba의 경우는 앞서 말한 문제를 해결하겠다고 나온 연구임 메모리 사용량은 리니어하게 올라가고, 그렇다고 RNN 계열처럼 gradient vanishing/exploding으로 고생을 하지도 않는 무언가임

 

Control theory와는 뭔 상관이냐? 그건 mamba의 수식이 control theory에서 튀어나왔기 때문임 (이 부분은 누구한테 설명해줄 수준이 아니라 패스, 대신 블로그 레퍼런스 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mamba-and-state)

2
2 일 전
@자살의합리성

친절하게 알려줘서 고마워 박학한 개붕:)

0
2 일 전
@자살의합리성

transformer 좋기는한데 하드웨어를 너무 많이 요구하기는 하는듯 솔찍히 gpt같은거 할거 아니면 dillation cnn이나 병렬 처리나 이쪽이 맞다고 봄 근데 앞으로는 어떻게든 메모리 줄이겠지?

0

모른다는 건 인류에게 엄청난 동기부여가 됨

공포이든, 호기심이든, 절망이든 희망이든

0
무분별한 사용은 차단될 수 있습니다.
번호 제목 글쓴이 추천 수 날짜
12461 [기타 지식] 2024년 방콕 중심지 지도 업데이트 10 쿠릭 10 1 일 전
12460 [호러 괴담] [미제 사건] 살해된 딸, 사라진 가사도우미, 그리고 의심받는... 3 그그그그 8 2 일 전
12459 [기타 지식] 나홀로 세계일주 9년차.ngm 김팽달 4 2 일 전
12458 [역사] 미중 경쟁의 시대 - 광해군의 중립외교에 관하여 (下) 22 골방철학가 22 4 일 전
12457 [과학] 현직 AI분야 교수님이 말하는 AI 트렌드 근황 34 nesy 23 4 일 전
12456 [호러 괴담] [미제 사건] 집에서 사라졌다? 일본 3대 실종사건 1편. 이시... 3 그그그그 7 6 일 전
12455 [과학] [수학 시리즈] 무한보다 더 큰 무한이 있다? 무한의 크기 비... 23 0년째눈팅중 15 6 일 전
12454 [기타 지식] 일본은 어떻게 위스키 강국이 되었는가? 편 2부 - 바텐더 개... 1 지나가는김개붕 15 6 일 전
12453 [기타 지식] 일본은 어떻게 위스키 강국이 되었는가? 편 1부 - 바텐더 개... 10 지나가는김개붕 11 7 일 전
12452 [과학] [수학 시리즈] 왜 0.999...=1 인가? 수학의 오래된 떡밥에 대... 67 0년째눈팅중 37 7 일 전
12451 [자연] 햄스터에 대한 몇가지 사실들을 알아보자 27 식별불해 7 8 일 전
12450 [자연] 세상에서 가장 빠른 생물을 알아보자 12 식별불해 11 8 일 전
12449 [호러 괴담] [살인자 이야기] 돈을 위해 천륜을 저버리다. 1 그그그그 3 8 일 전
12448 [역사] 미중 경쟁의 시대 - 광해군의 중립외교에 관하여 (上) 32 골방철학가 16 9 일 전
12447 [호러 괴담] [살인자 이야기] 공소시효가 끝나자 살인을 자백한 남성 6 그그그그 11 11 일 전
12446 [기타 지식] 세계 최고 부자가 만드는 술, 꼬냑 헤네시 편 - 바텐더 개붕... 15 지나가는김개붕 13 11 일 전
12445 [유머] 황밸 오지선다 4 Agit 4 13 일 전
12444 [기타 지식] 유럽 안에서 널리 쓰이는 유럽어 45 Overwatch 8 14 일 전
12443 [호러 괴담] [살인자 이야기] 그녀도 날 사랑하는데...카스카베 중국인 부... 4 그그그그 8 15 일 전
12442 [호러 괴담] [살인자 이야기] 언니의 이상한 죽음. 동생은 아버지가 의심... 2 그그그그 5 16 일 전