플젝 주제: 혐오 표현 사용 실태 조사
구체적으로는 흔히 "웅엥웅", "냄져", "소추" 이런 혐오표현이 정말 '혐오'의 의도로 쓰였는지 document level에서 sentiment analysis를 할 수 있지 않을까 함. 여기서 더욱 구체적으로 데이터는 대표적인 여초, 남초 커뮤 스크래핑 하면 될듯하고, 문제는 레이블링인데 혹시 가능성 있다 생각하는 사람 있냐?
이쯤되니 뭐 페미에 먹히네 마네를 떠나서 플젝으로서 재밌는 주제 같은데
여기서 더 나아가면 각 커뮤의 특정 유저가 해당 커뮤 내에서 쓴 댓글이나 글을 수집해서, 해당 유저의 어떤 주제에 대한 시각을 정도로 (가령 -1 to 1) 만들어내고, 전체유저를 시각화 해서 커뮤의 성향을 알아내는 것도 떠올려봄. 이정도면 좀 할만하지 않을까?
11개의 댓글
무분별한 사용은 차단될 수 있습니다.
번호 | 제목 | 글쓴이 | 날짜 | 조회 수 |
---|---|---|---|---|
646708 | 816 독립투사들이 왜 이래 많노? | poloq | 방금 전 | 16 |
646707 | 개그맨 김영민 폭탄선언 “尹 국정기조 문제없어…총선 졌다고 ... 3 | 엄복동 | 1 분 전 | 53 |
646706 | 펨코 특징인지는 모르겟는디 존나 공격적임 3 | 이문동부대찌개킬러 | 2 분 전 | 46 |
646705 | 윤석열 항복해야지 안하면 디지는거고. | 브브라운베베어 | 2 분 전 | 19 |
646704 | 의대 호소인 등장 | 자유의이차선 | 3 분 전 | 25 |
646703 | 이민자 받을 때 돼지고기 풀코스 정식 먹이고 시작해 돼 | 소름 | 3 분 전 | 17 |
646702 | 의도했는지 안했는지 모르겠다만 2 | tpecnoc | 3 분 전 | 51 |
646701 | 윤석열 항복선언이 맞는이유 | tpecnoc | 4 분 전 | 54 |
646700 | 황운하, "조국혁신당, 도덕적 우위 있어야..꼬투리 잡히... 5 | tpecnoc | 8 분 전 | 91 |
646699 | 저러니깐 더 채상병 특검 해야하지 않냐 ㅇㅇ 1 | 해법수학 | 8 분 전 | 61 |
646698 | 동아일보 칼럼) 김건희 여사 엄정한 사법처리만이 尹정권 살... 5 | 에너지보존법칙 | 9 분 전 | 97 |
646697 | 에이 설마 이슈 못하게 하려고 같은 시간에 했겠어? 1 | 엄복동 | 9 분 전 | 75 |
646696 | 총리·비서실장 인선 난항…'순장조 될까' 하마평 인... 1 | 혜윰 | 9 분 전 | 46 |
646695 | 건설업은 특례법 없나? 1 | Pietà | 14 분 전 | 53 |
646694 | 윤두창 채상병 특검에 쫄아 4 | 야그걸믿냐 | 14 분 전 | 129 |
646693 | 또 비공개로 만나겠지?ㅋㅋ 1 | 암막커튼 | 15 분 전 | 74 |
646692 | 조정훈이 당권 먹으면 3 | 준선생님 | 16 분 전 | 81 |
646691 | 尹 "당선 축하" 李 "감사" 3 | 혜윰 | 17 분 전 | 136 |
646690 | 민주당 "3시30분부터 4분여 동안 윤석열-이재명 통화" 9 | 혜윰 | 19 분 전 | 150 |
646689 | 민주당 "이재명, 尹에 민생 어려움 많다며 빨리 만나자 ... | 혜윰 | 20 분 전 | 83 |
스카우루스
그거 머신러닝 팀플 주제로 해보려다가 뭐 그딴걸하냐고 눈총받았음ㅅㅂ
자살의합리성
팀원한테? ㅋㅋㅋㅋㅋ
스카우루스
ㅇㅇㅋㅋㅋ
아나키스트
ㅠㅠ
오늘도연구실
다른 연구실에서 지역혐오로 기사 댓글 비슷하게 분석하는거 본적 있음..그거랑 별개로 네이버 댓글 머신러닝하기전에 휴먼코딩하는거 알바해봤는데 진심 정신병걸리는줄...
흰껄룩기획
저걸 하려면 결국 정답 데이터 처리는 또 어떻게 할건데 적어도 이 문장이 혐오문장이다 아니다 labeling은 해야하지 않나. 그럼 그 라벨링할 데이터는 어떻게 뽑아야 할것이며 어디서 뽑을 것이며 그 중 혐오문장이 저 데이터의 몇%를 차지할것인가...
흰껄룩기획
아 근데 이거 막상 생각해보니까 별로 어렵진 않을것같네 데이터 처리만 완료하면 걍 라이브러리 써서 돌리면 되는거 아녀
자살의합리성
ㅇㅇ 그래서 위에 써놨듯이 label이 가장 큰 문제임
근데 좀 찾아보면 clustering이 있지 않을까 싶기도 함
lsp
클러스터링으로 하면 할수도 있을거 같긴함
로무새
여기만 해도 한남 소추 존나 쓰지만 거의 대부분 비꼬는거긴 하지
남초에서 남혐표현과 여초에서 여혐표현은 비꼬기/사태전달 쯤으로 간주하면 레이블링 과정이 좀 편해질거같음
느그본체만수무강
데이터 찾기 힘들듯.