이루다 학습 데이터가 오픈소스행...gisa

개드립

즐겨찾기

최근

전체

최근 방문 게시판

이루다 학습 데이터가 오픈소스행...gisa

https://www.dogdrip.net/301443726

https://www.hankyung.com/society/article/202101125514i

대담.PNG

그것도 오픈소스 사이트인 깃허브에....ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

대담하네... 개인정보 내용이 대놓고 들어있는 것은 아니지만 그동안 학습한 모델 파일올린거라...

62개의 댓글

아라고른

2021.01.12

와 그걸 거기에 올리냐 ㅋㅋㅋㅋ

노오오력충

2021.01.12

파도파도 괴담만

마튠법빌런

2021.01.13

@노오오력충

파파괴

허언증

2021.01.12

겜 접습니다. 템 다 뿌려요~~

sichj

2021.01.12

모델은 그냥 웨이트 저장된거라 유위미한 정보는 없지만 올리면 안될 것 같긴 하네

ㅎIP

2021.01.12

근데 뉴스기사면서 확인도 안하고 필터링 하지 않았을 것이라는 지적이 제기되고 있다고 기사를쓰네

포트넘앤메이슨

2021.01.13

@ㅎIP

문돌이라 코드 몰라!

냥이는매력있다

2021.01.12

그래도 잠시나마 개붕이들 심장에 불태운 AI인데 제대로 해서

다시 부활좀 시켜줘라 나도 뽕좀 빨게

네로로

2021.01.12

근데 갑자기 궁금한데

어떠한 데이터베이스를 기반으로 학습한 딥러닝이 창작한 결과물은

그 최초의 데이터베이스의 내용에 종속된걸로 봐야할까 아니면 전혀 별개의 새로운 창작물로 봐야할까?

스미스의유기화학

2021.01.12

@네로로

새로운 창작물이지

어떤결과 뽑느냐에 따라 다른 논문 작성하는 것처럼

답답허다

2021.01.13

@네로로

'니가 만든 망치로 내가 책상 만들면 이 책상도 니거가 되나?' 이런 논리랑 비슷할거같음.

머슬셀프로틴

2021.01.13

@네로로

db내용에 종속되는게 판례

황희찬

2021.01.13

@네로로

그거 내가 이쪽분야에서 유명한교수님께 지적재산권 관련해서 물어봤는데

아직명확하게 규정하기 힘들다는게 답변이었음 그래서 학자들끼리도 얘기가 많이되는이슈임

덧붙이면 단순하게 창작물이라고 단정짓기도 힘든게 해상도를 높이는 super resolution기술을 적용하면 새로운 결과물이나오지만 이걸 창작물이라 규정하기도 애매한거지

다시말해서 기존데이터에 시각적으로 큰변형없는 결과물을 생성하는 모델들도 있는데 이런건 창작물이라고 단정짓기도 애매함

파이토치

2021.01.13

@네로로

종속되었다고 보는게 맞지. dataset의 분포에 따라 학습된 모델의 특성도 달라지니깐. 그래서 아무리 딥러닝 알고리즘이 우수하더라도 dataset collection이 잘못되면 말짱도루묵임.

단지 딥러닝 학습 알고리즘은 dataset에 종속되는 정도를 조절하거나 추가적인 prior를 설정할 뿐 dataset에 종속되는 건 어쩔수 없음.

답답허다

2021.01.13

@파이토치

닉값 ㄷㄷ;

계획적자살

2021.01.13

@파이토치

그런데 저렇게 공개할 때 데이터셋에 대해서는 설명만 해놓고 공개하지 않으면서, weight만 공개하면 딱히 상관 없지 않나?

여타 논문 중에서, 특히 의료쪽은 데이터셋이 공개되지 않은 걸로 학습해서 결과를 올리는 경우가 더러 있는 모양이던데

파이토치

2021.01.13

@계획적자살

이전에 누군가가 언급했지만 특정 입력을 넣었을 때 개인정보가 담긴 출력을 낼 경우가 있다고 함. 즉, 데이터셋에 필터링이 안되어있어서 data leak를 발생시킬 수 있음.

글고 보니 너 예전에 accuracy 문제로 댓글 달았던 개붕이네? 해결 잘 됐음?

계획적자살

2021.01.13

@파이토치

아 ㅋㅋ 어 그건 덕분에 해결 잘 됐음

확률의신

2021.01.12

근데 연구 결과물을 올려논거라면서 왜 개인정보 타령을 하냐? 깃허브에 AI 학습 데이터를 올린것 같진 않은데

presidentNick

2021.01.12

개소리고요

여초나 여기나 그냥 글 하나 싸놓으면 다 믿는건 똑같음ㅋ

sichj

2021.01.13

@presidentNick

개인정보라는 단어가 왜 들어가는지 ㅋㅋ

삼성정품케이스씀

2021.01.13

원래 깃헙 돈내고 안쓰면 다 오픈소스행 아니냐?

돈내고 쓴게 아닌가보네;

추웡

2021.01.13

@삼성정품케이스씀

공개 범위바꿀수있을거야

답답허다

2021.01.13

@삼성정품케이스씀

라이센스도 달수있고 위에 애 말대로 프라이빗으로 바꿀 수도 있음

코딩노예

2021.01.13

@삼성정품케이스씀

마소가 인수하먄서 프라이빗도 일부 무려화 된걸로 아는뎅.. 학식이라 자세한건 몰겠당

깻잎전

2021.01.13

@코딩노예

뭔소리여...

아직 엔터프라이즈 서비스도 멀쩡히 운영하는구만

그건 어디서 들은 뇌피셜임?

코딩노예

2021.01.13

@깻잎전

https://www.imaso.co.kr/archives/4582

마소가 18년인수, 깃허브 19년도부터 프라이빗 모드 일부(3명까지) 무료화 / 이게 뇌피셜임? ㅋㅋ

깻잎전

2021.01.13

@코딩노예

무력화의 오타로 봤음

쏘리

김츼

2021.01.13

731부대 연구 결과 공유하는 느낌인가

asasaaa

2021.01.13

기사 읽어봤는데 기사 내용대로라면 전혀 문제될것도 없을거 같은데

답답허다

2021.01.13

이거 아닐 가능성이 높음. 학습파일은 올라가지도 않을거고 아마 코드만 올라가 있을 거임. 미쳤다고 지네 데이터 공개하겠냐.

"정보기술(IT) 업계 관계자는 “이 파일 자체에서 개인정보를 탈취하긴 어렵다”며 “다만 파일이 개인정보가 필터링되지 않은 채로 학습됐을 가능성을 업체 측이 부정하긴 어려울 것”이라고 했다."

관계자 인용도 어정쩡하네 ㅋㅋ 파일 안 올라와있을거임. 무엇보다도 용량문제가 큼.

asasaaa

2021.01.13

@답답허다

함 보고싶어서 확인해 보니 이미 비공으로 돌린건지 404 뜨고 아카이브에 저장된 내용정도는 찾아보니 나오는데

말 그대로 기본 학습만 해놓은 모델을 올려놓은거 같음

내 전공이 아니라 자세힌 모르지만

본 레포는 모델의 학습 로직을 포함하고 있지 않습니다.

본 학습은 대량의 카톡 데이터를 이용한 사전학습만 완료한 상태이기 때문에 실사용을 할 때는 모델을 원하는 목적에 맞게 파인튜닝한 뒤 사용하시는 것을 권장드립니다.

이렇게 나와있네

이게 문제가 될꺼린가?

답답허다

2021.01.13

@asasaaa

아카이브에 저장된거 어디서 봐?

asasaaa

2021.01.13

@답답허다

https://reposhub.com/python/natural-language-processing/pingpong-ai-dialogue-generation-models.html

이건데 학습 set이 올라와 있는건 아니고 학습한 모델이 올라와 있는듯

근데 이것도 상관없지 않나?

설령 개인정보 처리를 하지 않고 학습을 했다고 하더라도 학습한 모델을 다운받아서 어떤 학습set이 사용되었는지 알수 없고 설명 알아낸다고 해도 학습set(아마 dialogue 겠지)을 통해서 개인을 특정해낼수도 없을텐데..

내가 이쪽은 그냥 아예 몰라서 이렇게 생각했는데 어떰?

답답허다

2021.01.13

@asasaaa

gpt2면 문제가 됨.

https://ai.googleblog.com/2020/12/privacy-considerations-in-large.html

작년 12월에 나온 논문인데, gpt2를 통해 data leak 생기는게 발견됨. 필터링 잘 했다면 모르겠는데 안 한것 같던데...

asasaaa

2021.01.13

@답답허다

글네 만약 개인정보 필터링을 안하고 학습을 했으면 문제인거네

근데 이것도 확인된 사항은 아니니..

단다다다단

2021.01.13

@답답허다

그래서 좀 알려진 네트워크 pre-trained model weight도 깃헙에서 보통 링크를 남겨 줘서 거기서 받으라하지.

답답허다

2021.01.13

@단다다다단

아 ㅋㅋ 열어놨네 시발

https://webcache.googleusercontent.com/search?q=cache:DSzpEaRoh5EJ:https://github.com/pingpong-ai/dialogue-generation-models/releases+&cd=1&hl=ko&ct=clnk&gl=kr&client=firefox-b-d

이거 같은데 근데 모델을 봤을 때는 이루다랑 상관없는걸로 보임.

이루다는 BERT기반인데 여기는 GPT2네. 킹리적 갓론으로 아마 같은 데이터를 공유하지 않았을까 싶은데, 여튼 '이루다의 모델은 공개되지 않았다'가 팩트인듯.

ㅇㅎㅂㅇㅈㅇㅎㅎㅇ

2021.01.13

@답답허다

근데 문제는 데이터이고 저 모델이 활용한 데이터가 개인정보 침해 소지가 있는 데이터일 가능성이 높지

답답허다

2021.01.13

@ㅇㅎㅂㅇㅈㅇㅎㅎㅇ

그거랑 별개의 얘기라는거임 내말은. 데이터로 모델 학습시켰다고 해서 일반적으로 데이터가 유출되진 않음.

ㅇㅎㅂㅇㅈㅇㅎㅎㅇ

2021.01.13

@답답허다

나도 그렇다고 봄. 근데 저게 대화 생성 모델이라 인풋을 조절하면 개인정보가 나오진 않을까 궁금. 이번에 밝혀진 이유도 사실 대화에서 나온거다보니...

황해도특산

2021.01.13

@ㅇㅎㅂㅇㅈㅇㅎㅎㅇ

저거 인풋 조절하면 주소랑 계좌번호 이런거 뱉는다더만

깃헙에 올라온 모델도 적대적 마이닝하면 충분히 나올 수 있는 상황이겠지

보통은 안하겠지만 그래도 그럴 가능성이 있는걸 방치할수도 없는 노릇이겠고

헬헬뿡

2021.01.13

펴블릭인지 프라이빗인지 확인도없이 기사를 ㅆㅡ네.

프라이빗인데 문제가 된다면 스캐터랩 뿐만 아니라 대부분의 sw 기업 다 문제지

답답허다

2021.01.13

@헬헬뿡

프라이빗이면 기자가 어떻게 저걸 찍어서 올려놨겠어

고기조아

2021.01.13

깃허브 용량 구데긴데 어떻게 대화내용을 다 올려 ㅋㅋㅋㅋ 새로운 압축 방법이라도 개발됐나

답답허다

2021.01.13

@고기조아

보통은 링크 따로 주고 거기가서 받으라고 함. 아카이브보니까 올려놓은게 맞는듯

저건 문제가 되는게 맞다 개붕아.

럼블고수

2021.01.13

@답답허다

뭐가

무분별한 사용은 차단될 수 있습니다.

제목	글쓴이	추천 수	날짜
몰루) 빵 샀다 21	부분과다른전체	20	1 분 전
중고 거래 사이트 이용할때 앞으로 주의해야 할 점 32	온푸	34	7 분 전
진짜 광기를 만나고 제정신을 차린 가짜 광기.jpg 14	미스타최	46	13 분 전
K9자주포의 2차 성능개량 64	Radian88	56	35 분 전
너 고양이 아니지 32	까스박명수	54	36 분 전
ㅈ된거 같다는 디시인 51	등급추천요정여름이	40	36 분 전
이토준지가 그린 새끼고양이 11	등급추천요정여름이	53	36 분 전
가상현실에 마음껏 개입할 수 있게 된 과학자.manhwa 40	미스타최	51	37 분 전
노예도 대감집 노예가 나은 이유 89	P53	57	40 분 전
너 우리 아빠가 누군지 알아?!"에 맞받아치는 미국 경찰 6	등급추천요정여름이	44	40 분 전
누가봐도 과식함 14	등급추천요정여름이	40	42 분 전
[ㅎㅂ] 니들은 시급 얼마일때부터 일해봄 86	병어어엉신	52	42 분 전
양세형이 당근마켓 신발 팔러나갔다 개빡친 이유 26	형님이새끼웃는데요	42	43 분 전
워딩별 비트코인 기사를 받아드리는 자세 13	추휼	29	43 분 전
최연소 아이돌 몇년생일것 같음? 43	약과휘낭시에	39	44 분 전
TV에서 윤성호 안 보이는 이유 11	엄복동	40	45 분 전
현실판 지옥이라는 목성내부 상상도 ㄷㄷ 67	mjonetool	45	46 분 전
고양이가 부엌에 못올라오게 하는 방법 9	엄복동	23	46 분 전
오늘자 G식백과 클로징 (feat 하이브) 10	ladin	34	46 분 전
드레스코드 맞추려고 시도하는 미주.gif 10	엄복동	34	46 분 전

로그인

공유하기

페이스북

트위터

네이버

밴드

카카오스토리

62개의 댓글

검색