1. 현재 코드 베이스는 이미 50% 가량이 LLM 작성. 업계에선 내년에는 80% 예상
2. 며칠전 나온 UCLA 연구에서 AI의사가 전립선암 진단 성공률이 84퍼일 때 인간 의사 67%(..) + 칭화대에서 스탠포드 25 마을사람 시뮬보고 벤치마킹한 의료 AI 시뮬 돌렸는데 며칠만에 만 명 넘게 진료봄
3. Oai가 뒤에서 브로드컴과 ASIC칩 생산 의논. -> 트랜스포머가 답이라 생각하고 올인박는거냐, 두려움이 없네 다들 평가함. 즉, OAI는 몰.빵.중.
4. 2022년부터 지금까지 매년 1/10 씩 토큰예측 비용이 싸지고 있음
5. 오늘자 뉴스. 합성데이터로 훈련시킨 개방형 모델이 실제 데이터를 쓴 모델을 박살냄. 합성데이터는 실제데이터를 못이긴다는 선입견이 깨지는 순간.
흐름이 느껴지지 않습니까
전쟁반전쟁
엔비디아 세일중이다 탑승해
개드립이맛에함
5번은 개소리인게 애초에 합성데이터는 실제 데이터를 못이긴다는게 선입견이 아니라
정보이론의 법칙 같은거임 저건 그냥 무한동력을 개발했다 급의 개소리.
물론 합성데이터가 실제데이터를 이길수 있겠지,
그건 아래와 같은 경우임
1. 합성데이터 만드는 과정에서의 개발자개입
-> 지도 학습이랑 똑같음. 결국 지도학습의 경우에는 합성데이터+개발자의지도 방향 원본데이터
가 포함되는거라 오히려 더 정제된 원본데이터가 들어가는 것이기 때문에 합성데이터쪽에는 더 많은 원본데이터를 포함하기때문에 불공정한 비교임.
2. 학습효율 문제로인한 현상
-> 개발자 개입없는 합성데이터라고 치더라도 원본에서 변형해서 합성데이터가 만들어지는건데, 이건 단순히 학습모델의 속도나 성능향상관점에서 합성데이터를 쓰는게 효과적인거지 결국 정보관점에서는 합성데이터가 원본데이터의 정보량을 초과할수가 없음
3. 원본데이터가 다른 합성데이터
-> 당연히 원본이 다르면 실제 원본데이터는 구린 데이터고 합성데이터의 원본은 좋은데이터면 합성데이터쪽이 학습이 훨씬잘됨
4. 평가용 data의 vias
-> 말은 어렵지만 그냥 우연으로 테스트한두번 잘나온거임. 쉽게말해 그냥 운좋게 찍어서 잘맞춘정도는 충분히 나올만함
말은 길게 썻는데 합성데이터로 원본 데이터보다 학습을 잘할수 없다는 명제는 정보이론관점에서 공리같은거지 무슨 그걸 깨거나 할수 있는게 아님
합성데이터로 학습을 더 잘한 사례가 나왔다고 기존 상식을 깰정도로 특이점이 온게 아니라, 다른 개입의 문제임
JoanChamoro
그러네 5번이 진짜면 그냥 특이점 오는거네
천원쓰
LLM : 뒤지게 큰 "문장 생성" (NLP + 엄청 많은 파라미터) AI. 보통 VRAM 이 많고, 연산기가 많고, 하드웨어 적으로 연산 최적화가 더 잘된 높은 아키텍쳐의 GPU 를 사용해야 하는 AI. 모델은 보통 트랜스포머 기반으로 디자인되며, 모델 구성, 학습 데이터 정제, 학습, 그리고 추론서비스까지 하나하나가 시간이 많이 걸리고 돈도 엄청 들어감. 동작 방식을 정말 간단하게 묘사하자면 현 시점까지 입력+생성된 단어 (토큰) 를 기반으로 다음 단어 (토큰) 를 확률 기반으로 하나하나 선택하는 방식.
의료 AI : 기존 LLM 은 특정 Task 에 대한 단어, 혹은 문장 생성만 가능했음. 그런데 Multi-head self-attention (트랜스포머) 등의 논리연산 구조라던가, In-context Learning 등의 프롬프트 엔지니어링이라던가, CLIP 등 멀티모달이라던가 등 다양한 기법에 의해 NLP에 무수히 많은 Task 가 짬뽕 될 수 있게됨. 이중 대표적인게 의료 AI임. 기존 문장을 입력하는 대신 이미지를 입력해주면 해당 이미지를 프롬프트에 맞춰 분석할 수 있음. 이미 의료 AI는 "부분적으로" 의사가 진단하는 효율성과 비등, 성능은 더 뛰어난 경우가 꽤 나오는 상황임. 근데 의료의 경우 대부분의 국가법 상 특정 병원의 진료 데이터를 타 병원에서, 타 국가에서 쓰지 못하게 해서 데이터 확보도 어렵고, 하더라도 상업화가 어려움. A 병원이 데이터를 제공한다고 해도, 그걸로 학습해봤자 다른 병원에서 쓰지 못해서 그 병원에서만 써야 함. 상업화 하려면 각 병원마다 데이터 받아서 각각 학습해줘야 하는데 그럼 모델 성능이 제각각이고 학습에 돈도 많이 들겠지? 게다가 AI가 진단해줘야 하는 병의 경우 최소 X-Ray 데이터, 혹은 CT 데이터 정도는 있어야 하는데, 한국을 제외한 대부분의 나라에선 저런거 받는데에 대한 진입장벽이 굉장히 높아서 실질적인 효용성이 막 높지 않음. 저런거 쉽게 받을 수 있는 부자동네는 어차피 의사가 있을거고, 의사가 부족한 곳은 저런걸 쉽게 받지 못하는 병원 or 돈 없어서 받지 못하는 경우가 빈번. 그래서 현 시점에선 성능적으로 의사의 수동 검증을 압도해야만 상업적으로 최소한의 효용성이 있을 것이라 예상하고 있음.
ASIC 칩 : 트랜스포머 구조체 자체가 대부분 연산 바운드보다 메모리 바운드라 그냥 GPU를 쓴다고 되는게 아니라, NVIDIA 의 하이엔드 GPU 클러스터를 사용해야 함. 무슨 소리냐면, 연산을 하기 위해선 VRAM 위에 모델을 올리고, VRAM 에서 L2Cache 로 데이터 일부를 떼어오고, Computing Unit 에서 L2Cache 의 데이터를 읽어와서 연산이 진행됨. 위 각 스텝이 전부 메모리 이동인데, 트랜스포머 구조체 자체가 용량이 과도하게 커서 저 메모리가 왔다갔다하는 시간이 실제 연산량보다 훨씬 큰 경우가 많음. 게다가 VRAM, L2Cache 가 충분히 커야되는데 이걸 늘리는건 더럽게 비쌈. 그렇다고 GPU 여러개 다는 것으로 간접적으로 VRAM 총 용량을 늘리자니 이제 GPU와 GPU 간의 통신까지 최적화를 해야 함. 이건 더 느림. 이런건 진짜 하드웨어 로우레벨에서 최적화를 하지 않으면 쉽게 해결할 수 없고, 그걸 유일하게 상업적으로 성공한게 NVIDIA 의 DGX 스테이션임. 그리고 이런 문제를 해결하기 위해 트랜스포머 구조체 연산만 최적화 해서 돌릴 수 있는 맞춤형 반도체 칩이 ASIC 칩임. 이것만 할 수 있는데, 이거 하나 만드는데 설계부터 최적화, 생산까지 비용이 엄청나게 들어감. 심지어 트랜스포머 구조체만 돌릴 수 있으니 범용성도 좆박는것.
토큰 예측 비용 : LLM 설명에서 쓰여 있듯이 모델 한번 돌릴때 현재까지의 단어(토큰)들을 모델에 집어넣고, 단어(토큰) 하나씩 생성하는 걸 문장이 끝날때까지 (eos 토큰이 나올때까지) 반복함. 이런 방식으로 문장을 생성하는 걸 Auto-Regressive 모델이라고 함. 한번 할 때 마다 모델 한번씩 돌려야하니 비용이 굉장히 비싼 편인데, 더욱이 데이터 하나만 처리하면 연산 효율성이 좆박아서 더 안좋음. 다양한 방식으로 이걸 최적화 하는 중 (양자화, 커널 단위 스케쥴링, 연산자 단위 스케쥴링, 모델 단위 스케쥴링, 커널 최적화, 연산자 최적화, 모델 최적화, 하드웨어 맞춤 최적화 등등등). 참고로 요즘 LLM 추론에 쓰이는 GPU 는 H100, A100 정도 라인업인데, 각각 GPU 별로 700W, 400W 잡아먹음. 쥰내 큰 모델은 이거 GPU 한개만 쓰는게 아니라 여러개 쓰고, 그럼 전력 소모량도 비례해서 늘어남.
Synthetic Data : 이건 "실제같이" 재현된 가짜 데이터임. 보통 실제 데이터로 학습/검증 하기 어려운 상황에서 Synthetic Data 로 하는 실험이 많았는데, 당연하게도 원본 데이터를 쓰는 것보다 성능이 안나옴. 그런데, Synthetic Data 로 학습했는데 원본 데이터로 학습한 모델을 이겨버렸다는 논문이 나왔음. 이 논문은 읽어보진 않았는데, 이건 좀 설레발로 보임. 조건을 너무 타는 기법이라 아마 제한적인 상황에서 해당 Benchmark 에 맞춤으로 학습했을 확률이 높음.
개드립이맛에함
너도 알겠지만 5번은 애초에 설레발이 아니라 그냥 불가능함 조건타서 저렇게 나왔을 확률 100%임
천원쓰
synthetic 데이터가지고 장난치는건 많이 봤지만 제대로된건 못봤긴 함 ㅋㅋ 대부분 Chinese Optimization 해놔서
nesy
설명 추
진인사대천명
와 이런쪽 지식 쌓을라면 머 공부해야하나요.. 존경스럽네
걱정만잔뜩인찐찌버거
이거보고 엔비디아 주식샀다
이쁘게말하자
특이점 갤러리는 매순간 특이점을 기도하고 있는 갤러리임?? 개웃기네
규르맛
오 정보추