Link Search Menu Expand Document

통계학과 빅데이터 분석

요즘 한창 뜨는 머신러닝을 통계학적 개념없이 하는 사람이 종종 있다. 특히 학내 최초의 빅데이터 동아리를 지도한다는 컴퓨터 공학과 교수라는 사람도 그 개념을 정확히 이해하지 못하고 말하는 것을 보면.

‘때로는 실세계 분포는 bimodal과 같은데, 통계학자가 말하는 분포는 normal distribution과 같다. 즉 통계분석은 부분데이터 기반으로 전역 패턴을 예측하기에 오류를 수반할 수 밖에 없다. 빅데이터 분석은 데이터를 바탕으로 전역 패턴과 개별 패턴을 예측하는 것이다’

일단 통계학은 저렇게 샘플링 하지 않는다. 일단, 실세계 분포가 어떻게 생겼는지 모른다. 그래서 알고 싶다. 그러기위해 많은 연구를 바탕으로 실세계가 어떤 모습인지 이해하고자 한다. 국민들 중 대통령을 지지하는 사람이 몇퍼센트 인지 정확히 말할 수 있는 사람이 있는가? 불가능 하다. 그것을 알고자 통계조사도 하는 것이다.

우리는 모르는 것을 알고 싶다. 그것을 우리가 이해 할 수 있게 알고 싶어 한다. 우리는 사실을 우리의 관점을 통해 받아 들인다. 즉 정확한 분포보단, 우리가 이해할 수 있는 방식으로 이해한다. 사실을 다차원적인 관점으로 받아 들일 수는 없다. 그리고 그런 정보는 사실 의미 없다.아래가 우리가 알 수 없는 실세계 전역분포라고 하자. 하지만 우리는 이를 간소화 해서 이해한다. 그러기 위해 통계적 모델을 사용한 것이다.

아마 이렇게 사실의 미세한 부분을 무시하고 전체적인 평균을 내는 것을 보고 통계가 의미가 없다고 하신것 같다. 이는 통계를 반만 알고 있는 것이다. 우리는 이 세세한 분포를 알기 위해 대략적인 분포를 알고자 하는 것이다. 대략적인 분포를 바탕으로 해당 세세한 분야의 오차를 이해하는 것이다. 그런 점이 그 교수가 찾고자 하는 이상치, 즉 개별 패턴 분석을 하고자 하는 것이다. 개별 패턴 분석은, 전역 분석을 하기 전에는 할 수 없는 것이다.

실제로 통계학에서는 잔차분석이라는 것을 시행한다. 통계학을 반만으로 공부한 사람에게 회귀분석이란 대략적으로 직선을 긋는 것이다. 통계학은 그런 것이 아니다. 아래의 그림을 보자. 통계학자는 저렇게 직선을 긋지 않는다. 사실 통계학자가 아니라도, 생각없이 직선을 긋지 않는다. 다음은 linear regression의 위키피디아에서 첨부한 plot이다.

위키피디아

왼쪽 위에 그림을 제외하고는 전부 틀린 직선이라고 말할 수 있다. 통계학이 전역 분석만을 한다면, 4개의 동일한 직선 모두 올바르다고 해야 할 것이다. 통계학은 그런 학문이 아니다.