• 페이스북
  • 트위터
  • 이메일보내기
  • URL복사
사회

[빅데이터 뉴스] 빅데이터는 트럼프 승리 알고 있었다

등록 2016.11.10 20:50 / 수정 2016.11.10 20:57

  • 페이스북
  • 트위터
  • 이메일보내기
  • URL복사


Q. 어제 미국 대선 결과에 놀라신 분들 많으시죠? 여론 조사 결과와 실제 결과가 달라서 더 그랬을 겁니다. 그런데 빅데이터는 트럼프 승리를 알고 있었다고 합니다. 정말일까요? 서울대 빅데이터연구원 장슬기 연구원에게 물어보겠습니다. 장 연구원, 빅 데이터는 예측을 했다고요? 

A. 네, 저희 데이터저널리즘 연구팀에서 미국 전국 단위로 진행된 여론조사 3318건을 시간 흐름에 따라 살펴봤습니다. 이렇게 많은 여론조사를 함께 보게 되면 각 여론조사 회사나 여론조사 자체가 가지고 있는 편향이 상쇄되기 때문에 실제 지지율에 가까운 숫자를 확인할 수 있습니다. 여론조사에서 클린턴 후보와 트럼프 후보의 지지율 차이를 선으로 그려봤습니다. 마지막 FBI의 이메일 수사 재개 이후 두 후보자 간의 차이가 거의 0에 가까워진 걸 볼 수 있는데요, 선거 전날인 11월 7일을 보시면 두 후보간의 차이가 2%밖에 되지 않습니다.

Q. 결국, 예측대로 클린턴이 유권자 득표에서는 앞섰지요. 그래도 승자 독식을 기반으로 한 선거인단 제도 때문에 트럼프 후보가 뒤집었던 건데, 이것도 예측이 가능했습니까.

A. 지금 보시는 화면이 대선 예측으로 유명한 네이트 실버가 선거 직전 예측한 결과입니다. 보시면 플로리다, 펜실베니아, 뉴햄프셔 등 대표적인 경합주들이 모두 파란색, 즉 민주당 표로 예측된 것을 볼 수 있습니다. 하지만 네이트 실버가 놓친 부분이 바로 숨은 표입니다.

최근 3달 동안의 주 단위의 여론조사 1천건을 선거인수와 당선가능성을 점쳐봤는데요, 여론조사 결과를 그대로를 사용하면 힐러리가 308 선거인단을 얻어 대승을 거둡니다. 하지만 경합주들에서 트럼프 지지자들이 1%p만 숨었다고 가정해도, 트럼프의 당선 가능성이 26%로 뜁니다. 조금 더 올려볼까요? 1~2%p조정으로 넘어가면서 선이 교차되는 것을 보실 수 있습니다. 트럼프 지지자가 여론조사에서 1~2%p 사이 정도로 숨어있다고 하면, 트럼프가 매직 넘버인 270을 넘기고 당선 확률이 66%가 됩니다.

이게 실제 선거결과입니다. 아까 경합주로 설명드린 곳 가운데 파랗게 표시됐던 지역이 붉게 물든 것을 보실 수 있죠? 결국 여론조사에서 숨은 표를 제대로 잡아내지 못했기 때문에 예측이 틀렸던 것이라고 할 수 있습니다.

Q. 이번 뿐만 아니라 영국 브렉시트때, 또 지난 4월 치러진 20대 우리나라 총선 여론조사도 결과 예측에 실패했는데, 왜 이렇게 여론 조사는 숨은 표를 잘 못 찾는 겁니까.

A. 응답자들이 대답을 회피하거나 거짓말을 하는 등 ‘숨는 현상’이 나타나기 때문인데요, 그런데 이 ‘숨는 현상’에는 방향성이 있습니다. 

Q. 특정한 유권자 층이 응답을 하지 않는다, 즉 숨는다는 말씀이신거죠?

A. 맞습니다. 보통 보수적인 성향을 지닌 유권자들이 여론조사에서 숨는 경향이 강하게 나타납니다. 이번 미국 대선이나 브렉시트, 모두 마찬가지죠. 실제로 CNN도 이번 여론조사가 틀린 이유를 트럼프를 지지하는 것이 socially unacceptable, 사회적으로 받아들여지기 힘든 선택이라고 인식하고 있기 때문에 여론조사에 솔직하게 대답하지 않았을 것이라고 분석했습니다. 

Q. 내년 우리 대선에서도. 샤이 유권자들, 숨은표가 어디로 갈지 잘 예측해야겠군요. 오늘 감사합니다.

Copyrights ⓒ TV조선. 무단전재 및 재배포 금지 제보하기