기타 지식

[노잼주의] 통계의 함정

통계는 흔히 누구나 다 쉽게 접할 수 있고, 가시적으로 보이기 때문에 좋은 지표라고 생각하는데,


하지만 이 통계엔 큰 함정이 있음에도 이를 망각하고 무시하는 경우가 있어.


이 글은 그런걸 한번 더 생각해보라는 식으로 쓰는 글이야.


+ 그러니까 이 글에선 통계가 어떠어떠한 방법이 있어서 이런 주작을 막는다는 걸 초점에 두지 않았어.


다만 이런식으로 결과의 주작이 가능할 수 있으므로 주의하라는 의미에서 쓴 글이야.


분명 여러 통계법들은 이러한 주작이 가능한 부분을 주작이 아니라고 증명하기 위해 만들어졌지만,


오히려 결과를 주작하기 위해 가짜 통계로 사람을 함정에 빠트리는 경우가 있으니 그에 조심하라는 거지.


이걸 언급하고 넘어갔어야 했는데 내 실수야. 미안.


진짜 통계는 이러한 주작을 방지하고, 자기가 주작이 아님을 알리기 위해 여러가지 검증법을 쓴다. 가짜 통계를 주의해.


-----------------------------------------------


우선 먼저 요약을 하고 갈께. 글 안읽어도 좋아.


1. 통계는 표본만 잘 만지면 주작이 쉽다.


2. 표본은 분명 전체 의견이 아님에도 전체 의견처럼 보이게 한다.


3. 그래프를 보여주면 멍청한 사람은 속아넘어가기 쉽다.


그럼 이게 왜 문제인지 하나하나 알아가보도록 하자.


-------------------


통계는 표본의 차이에 의해서 값이 쉽게 휙휙 바뀌게 되어 있어.


같은 모집단에서 나온다 하더라도, 표본의 비율이 다르게 되면 완전 상반된 결과가 나오기도 하지.


그럼 우선 표본의 정의부터 하고 넘어가볼까.


전혀 도움 안되는 한국 위키피디아에선 표본의 정의는


"통계학에서 표본(sample)은 모집단(population)의 부분집합이다. 전형적으로, 모집단은 매우 크며, 모집단의 모든 값에 대해 전수조사(census)나 전부 조사(complete enumeration)을 하는 것은 실용적이지 않거나 불가능하다."


라고 하고 있어.


그냥 봐선 전문 지식이 없으면 쉽게 이해가 가지 않겠지?


그러니까 차근차근 알아가보자.


우선 표본은 쉽게 풀어쓰면 분석 대상이야. 우리가 보고자 하는 부분을 추린거지.


모집단은 그 데이터 전체를 말해. 음, 쉽게 이해가 안간다면, 모집단은 케잌이고, 표본은 케잌 조각인 셈이지.


그런데 케잌에 항상 똑같은 위치에 토핑이 놓여있지는 않아. 어느 쪽은 생크림이 많이 올라가 있을 수도 있고, 어느 쪽에는 과일이 많이 올라가 있을 수도 있지.


자 그럼, 이게 왜 문제되는지 알아보자.


케잌 한조각만 따로 떨어트려 놓고 본다면, 분명 케잌 끼리는 커다란 편차가 존재하게 돼. 한쪽에는 생크림만 있고, 한쪽에는 과일이 올라가 있으니.


그런데 사람들에게 보여주는거야. 이 케잌은 생크림만 있고, 이 케잌은 과일이 올라가 있으니 과일이 올라간 케잌이 더 좋은거라고.


둘이 같은 케잌에서 나왔음에도, 따로 떨어트려 놓고 하나씩 보여주면서 어느게 좋냐고 물어보면 당연히 후자가 좋다고 하겠지.


분명 반박할 수 없겠지?


실제 데이터로 두고 보면 여기서 주작이 발생 할 수 있어.


따라서 모집단에서 표본을 추출할때, 만약 남녀간의 차이를 보고 싶다 하면 남 녀 표본을 50:50으로 맞춰야 되는거야.


만약 시간의 흐름에 따른 변화를 보고 싶다, 하면 나이로는 10대 20대 30대 표본을, 시간으로는 년단위 혹은 분기단위로 나눠야 하는거지.


그런데 막 키배 붙어서 열심히 쌈박질 하고 있는데 저쪽에서 리얼 팩트니까 입 다물어라 하고 그래프를 딱 보여줘


조심해. 그 그래프는 쉽게 조작할 수 있고, 팩트가 아닐수도 있어.


표본은 절대 전체가 아니야. 특정 일부분만을 떨어트려놓고 분석한거라구.


따라서 표본을 추출할때, 50 : 50 으로 추출하지 않고, 25 : 75 식으로 추출하면 당연히 한쪽 의견으로 치우치겠지.


또한, 시간의 흐름을 봐야 되는데, 시간의 흐름에 따라 변할 수치가 없다? 그럼 절대 변하지 않아.


그러니까 통계라고 가져오는 자료가 있으면 꼭 한번 표본은 어떻게 추출했는지를 봐야돼.


또한 그 통계에 대한 검정은 어떻게 되었는지도 확인해봐야되고.


그러니까, 멍청하게 통계라고 무조건 믿지 말고, 잘 읽어봐.


그게 진실이 아닐 수도 있어.


------------------------------------------------


긴 글 어차피 도움도 안되고 다 아는 내용인거 같지만 걍 써봤어.


그림같은것도 막 삽입해서 보여줄까 했는데, 오히려 방해될거 같아서 뺐어.


여기까지 쓸게, 어차피 안보겠지만 읽은 애들은 고마워.


+ 통계 내는 곳 여러곳에서 비슷한 결과를 보여주었다, 정도로 할거면, 해당 표본의 크기를 살펴봐. 표본의 크기가 작으면 또 통계 데이터는 거짓말을 하거든.


++ 추가로, 이 글의 예시에서 표본을 나누는 방법은 무작위 추출법이라고 해서, 랜덤하게 아무나 뽑았을때 그게 남자, 여자이냐를 구분해서 그게 50:50이 되게 해야 한다는 거였어.


+++ 또한 실제 통계에선 진짜 1000명을 기준으로 남녀 각각 500명씩을 대상으로 하는 통계가 진짜 통계겠지? 만약 이런 문구가 없으면 통계에 신뢰성이 어떻게 되는지 요청해봐.


13개의 댓글

2016.10.27
이거 덕에 심리학이 과학인가에 대해 논란이 있었지

특정 기간 동안 특정 저널들에 올라온 논문 900편 정도를 몇번에 걸쳐 다시 실험해보니 재현율이 30% 정도 밖에는 안된다는 결론이... 물론 이것도 통계지만 애초에 재현율이 이 정도로 낮으면 예전엔 과학은 재현이 될 수 있어야 한다고 했으니 적어도 심리학이 과학이라도 대다수의 학계의 연구자들의 연구 방법은 전혀 과학적이지 않다는 말이겠지.

재현이 너무 어려운게 아닌 이상 통계를 좀 더 과학적으로 엄밀하게 재현을 무조건 몇번을 해서 어느 정도 일관성을 가져야 저널에서 받아주게 만들어야 할 것 같다.
0
2016.10.27
짧네 삽입안한 아다인줄 알았는데 이게 다라니
0
예시를 더 들었으면 좋았을건데 그래도 기초 다듬는 글이라 좋네.
0
2016.10.28
@엄격진지근엄함
예시를 좀 더 들어볼까 하다가 오히려 예시가 방해가 될 여지가 있어보여서 써놓고 삭제했어.

더 늘려도 되기는 하지만, 예시가 더 자의적이니 '진짜 이렇게 될까? 아닐거 같은데'란 마음이 들더라구.
0
2016.10.27
통계학 잘 모르지만
통계 리얼루 하면 글케 단순하진 않을텐데..
표본검증이라던가1종오류 2종오류 이딴거 신뢰수준 몇프로 이런거 다 있을텐데 표본추출법? 그런것도 따로있는걸루 알구.
0
2016.10.28
@꺄울
응, 사실 몰라서 안쓴게 아니야.

표본 검증에도 여러 종류가 있고, 오류에도 여러종류가 있고, 표본을 검증함에 있어 몇퍼센트 이하로 떨어져야 해당 귀무가설을 기각할수 있는지를 알고 있지.

내가 이 글을 쓴 이유는 이런걸 다 아는 사람이어야지 해당 통계가 잘못되진 않았는가? 를 알아볼 수 있었기 때문이야.

따라서 데이터 조작이 가장 편한 표본 추출에 대해서 이러이러한 방법으로 조작할 수 있으니 조심하라고 쓴 글이고.

의견 고마워.
0
2016.10.28
샘플린 과정이 그렇게 단순하지 않은데... 케잌 예를 들었으니 그거대로 말해보자면 당연히 잘린 한 조각 가져오면 편향 발생하는 거 맞음. 근데 케익을 수직이 아니라 수평으로 존나 얇게 자른다고 생각하면? 대충 그 케익의 단면의 분포는 거의 정확하게 볼 수 있는거지. 거기다 좀 더 맞추자면 분자 단위로 내부 외부 가릴 거 없이 여기저기서 완전 무작위로 뽑아오는거야. 그럼 대충 케익의 내용물이 어떻고 평균적으로 어떤 맛일지 추측이 가능한거지. 어차피 자연에서 발생하는 현상 중에 완전 비연속적으로 작용하는 건 거의 없으니 표본만으로도 거의 모집단 즉 그 실체를 파악하는 데 충분한 도움이 됨.

머 물론 이 샘플링 과정이 그리 간단하지 않다는 건 사실이고 그 때문에 좀 이상한 결과 나오기도 하는 거 사실임. 근데 통계 내는 회사들이 이런거도 생각 안 할까? 무작위 샘플링 말고도 계층화 머 별의 별 샘플링 방식이 다 있음

글쓴이가 하고 싶었던 말은 여론조사 같은 게 조작되기 쉽다는 거 말하려고 한 거 같은데 머 그건 맞긴 함. 근데 그건 단순 표본의 문제가 아님 남자 75 여자 25 머 이런 건 진짜 정상적인 통계자료라면 상상할 수 없는 내용임. 그렇게까지 편향 발생했으면 애초에 잘못 설계된 통계고 그런 걸 믿는 게 바보임

통계 자체가 문제인거보단 통계를 만드는 사람과 받아들이는 사람이 문제라고 봐야됨. 표본은 얼마나 크고 또 얼마나 적절한지 통계의 방식은 어떤 방식이었는지 설문이었다면 설문의 질문은 어떤 식으로 표현되었는지를 볼 필요가 있음
0
2016.10.28
@앙김무성띠
추가로 표본의 크기가 1000정도 되면 대충 신뢰도 95퍼 정도 되는걸로 기억하는데 잘 모르겠다. 이거보다 더 커져도 신뢰도는 그렇게 크게 증가하지 않고 설문 통계 비용만 커져서 거의 1000명 정도로 맞추는 거임. 표본의 크기보다는 그 표본이 어떤 식으로 샘플링 되었는지가 더 중요함
0
2016.10.28
@앙김무성띠
음... 마냥 통계를 믿지 말라는 의미에서 쓴 글이었어 내 글은.

말해준것과 같이 샘플링이 중요하지. 샘플링에 따라서 결과가 달라지니까.

그래서 이런식으로 잘못된 설계를 할 수 있고, 그에 따라서 이게 과연 진짜 통계인가에 대한 시점도 가져보라는 의미에서 쓴 글이야.

의견 고마워.
0
2016.10.28
더써줘 ㅋㅋㅋ잼따야
0
2016.10.28
윗 게이들이 지적한 부분은 작성자도 알지만
제목이 통계의 "함정" 인것 처럼
누군가 그함정을 이용해 통계를 조작할 수있으니 조심하라고하는것이기에 안쓴것 아닐까?
0
2016.10.28
세상제일의 사기중에 통계가 꼽히기도하지
0
2016.10.30
모든 문장을 엔터 두 번으로 끊는 게 아니고, 중심 문장이 달라질 때마다 더 띄우면 가독성 면에서 더 나아질 듯.
0
무분별한 사용은 차단될 수 있습니다.
번호 제목 글쓴이 추천 수 날짜
12374 [기타 지식] 카우치 사건은 정말 인디 음악을 끝장냈는가? 19 프라이먼 12 15 시간 전
12373 [호러 괴담] [살인자 이야기] 1년마다 1명씩 잠을 자다 사망한 가족. 홀로... 1 그그그그 3 19 시간 전
12372 [역사] 송파장과 가락시장 2 Alcaraz 5 20 시간 전
12371 [호러 괴담] [살인자 이야기] "괴물을 쓰러뜨렸다." 어머니에... 2 그그그그 3 1 일 전
12370 [기타 지식] 알코올 중독에 빠질 수 있는 칵테일, 브랜디 알렉산더편 - 바... 1 지나가는김개붕 4 1 일 전
12369 [기타 지식] 세계에서 제일 잘 팔리는 칵테일 중 하나, 위스키 사워편 - ... 2 지나가는김개붕 3 2 일 전
12368 [기타 지식] 왜 나는 독일을 포기하고 캐나다로 왔는가 26 상온초전도체 10 2 일 전
12367 [역사] 미국인의 시적인 중지 2 K1A1 12 2 일 전
12366 [기타 지식] 독한 칵테일의 대표, 파우스트편 - 바텐더 개붕이의 술 이야기 5 지나가는김개붕 2 2 일 전
12365 [호러 괴담] [살인자 이야기] 아무도 듣지 못한 죽음의 비명이 들린 357호실 1 그그그그 6 4 일 전
12364 [기타 지식] 칵테일에도 아메리카노가 있다. 편 - 바텐더 개붕이의 술 이야기 6 지나가는김개붕 6 5 일 전
12363 [역사] 역사학자: 드래곤볼은 일본 제국주의사관 만화 16 세기노비추적꾼 13 5 일 전
12362 [과학] 번역)새들은 왜 알을 많이 낳는가? - 후투티의 형제살해 습성... 5 리보솜 3 6 일 전
12361 [호러 괴담] [살인자 이야기] 20년만에 해결된 미제사건 4 그그그그 9 9 일 전
12360 [호러 괴담] [미스테리] 고립된 남극 기지에서 사망한 남성. 근데 무언가 ... 14 그그그그 12 11 일 전
12359 [호러 괴담] [살인자 이야기] 문자를 차단했다고 살인까지? 3 그그그그 5 13 일 전
12358 [기타 지식] 미국은 왜 틱톡을 분쇄하려 하는가? 14 K1A1 29 13 일 전
12357 [기타 지식] 아마도, 미국에서 가장 사랑 받는 칵테일 마르가리타편 - 바... 7 지나가는김개붕 9 14 일 전
12356 [역사] 애니메이션 지도로 보는 고려거란전쟁 6 FishAndMaps 6 16 일 전
12355 [기묘한 이야기] 일본 멘헤라 아이템에 대해서 알아보자 25 Overwatch 17 16 일 전