두꺼운 꼬리 분포, 긴 꼬리 분포, 멱함수 분포

유투브 채널 “Science, Technology & Future” 2016년9월16일 영상

통계학에서 꼬리(tail)라는 단어는 확률적으로 일어나기 어려운 양극단의 사건을 지칭하는 단어입니다. 확률적으로는 잘 일어나지 않지만, 굉장히 극단적인 영향을 미치는 이벤트들을 의미하는 이 꼬리 사건은 정규 확률분포에서는 크게 의미를 주기 어렵습니다. 왜냐하면, 확률분포가 양극단으로 치우치면 치우칠수록 발생할 확률이 굉장히 작아지기 때문이지요.

하지만, 현실세계에서는 양극단의 꼬리 사건들이 발생할 확률이 정규 확률분포에서 그려주는 것보다 훨씬 높은 확률로 발생합니다. 극단적인 사건이 발생할 확률도 생각보다 높지만, 그러한 사건의 파괴력 또한 우리가 미처 상상하기 힘든 정도로 엄청난 강도로 발생하게 됩니다.

그렇게 두꺼운 꼬리 분포로 발생하는 확률분포는 굉장히 다양한데, 그 중에 가장 잘 알려져있는 게 멱함수 분포(Power law distribution)입니다. 위의 영상은 멱함수 분포에 대해 잘 설명해주는 유투브 영상인데, 상당수의 재해들이 발생하는 확률을 관찰해보면, 10배 큰 규모의 사건이 10분의 1의 확률로 발생하는 일정한 패턴을 보인다는 겁니다. 이정도면 정규분포에서 볼 수 있는 극단적인 사건들의 발생확률보다 엄청나게 빈번하게 발생하게 되는겁니다. 이렇듯 멱함수 분포는 두꺼운 꼬리 분포 중 대표적인 형태 중 하나입니다.

유투브 채널 “Systems Innovation” 2015년4월10일 영상

이번에는 긴꼬리 분포를 설명하는 영상입니다. 어떻게 본다면, 두꺼운 꼬리 분포나, 긴꼬리 분포나 같은 의미일 수 있지만, 긴꼬리 분포는 낮은 확률로 발생하는 극소수의 사건발생이 전체 모집단의 평균값을 완전히 바꿔버려서 모집단의 성격까지 변질시켜버릴 정도로 극단적인 사건이 발생할 수 있는 확률분포를 특정할 때 쓰는 용어입니다.

보통 사람들의 평균적인 키가 170센티미터라 할 때, 10만분의 1 정도로 매우 낮은 확률로 키가 2미터 이상인 사람이 나타날 수 있습니다. 수천명 이상을 측정해나가다 간혹 키가 큰 사람이 한 명 포함된다 하더라도, 전체 키 평균은 별로 달라지지 않습니다. 그런데, 사람들이 가지고 있는 재산을 측정하는 경우라면 상황이 달라집니다. 수천명을 대상으로 평균 재산이 1.5억 정도로 측정되는 와중에, 낮은 확률이지만, 이재용의 재산이 측정값으로 들어왔다고 가정해봅시다. 그러면, 그동안 수천명의 재산을 측정해서 나온 평균값 1.5억원은 아무런 의미가 없습니다. 이재용 한 사람의 측정값이 더해졌을 뿐인데 갑자기 평균 재산은 수십억에서 수백억으로 확 튀게 될 수 있는겁니다.

이렇게, 낮은 확률로 발생하는 산발적인 이벤트 한두건에 의해 그동안 측정되어온 모집단의 평균으로 대표되는 집단의 성격마저 변질되버릴 정도의 큰 변화가 얼마든지, 그리고 언제든지 발생할 수 있는 확률분포 시스템을 긴꼬리 분포라 부릅니다. 사람들이 특별히 긴 꼬리 분포를 두꺼운 꼬리 분포와 구분해서 다루는 이유는 유명한 과학저널리스트인 크리스 앤더슨이 2004년 이 롱테일 이론을 와이어드에 기고한 후 나중에 이를 경제학에 접목해 “롱테일 경제학”을 주창하면서 큰 반향을 불러일으켰기 때문입니다.

두꺼운꼬리 분포에는 이렇게 멱함수 분포와 긴 꼬리 분포 외에도 로그 정규분포, 파레토 분포, 웨이불 분포(Weibull distribution), 로그 로지스틱 분포, 로그 감마 분포, 프레셰 분포, q-가우스 분포, 로그-코시 분포 등 다양한 수학적 확률분포가 존재합니다. 물론, 우리가 이들을 세부적으로 전부 알아야 할 필요는 없겠지만, 현실세계에서 두꺼운 꼬리 분포를 보이는 사례들이 매우 다양하게 존재할 수 있으며, 그런 사건들을 무조건 멱함수 분포나 긴 꼬리 분포 같이 널리 알려진 특정 형태의 확률분포라고 단정할 필요는 없겠다는 것 까지만 이해하고 있어도 충분하지 않을까 합니다.

댓글 남기기