표본분산, 표본 표준편차에서 n-1 자유도를 이용하는 직관적인 이해.

2021. 6. 11. 14:50공학,과학/확률론

반응형

 이 내용에 대해서는 고등학교때부터 여러번 반복해서 공부를하게 되지만 수학적으로 수식을 유도를 하더라도 개념적인 부분에서부터 명확하게 이해시켜주는 사람은 매우 드물다고 생각한다.

 특히 온라인 상으로 여러 자료를 찾아보면 다양한 방식으로 표본의 분산과 표준편차를 구하는데 n-1이 타당하다는 것을 수학적으로 증명을 하고 있지만 직관적이지가 않기 때문에 해당 내용을 모르는 사람에게 그 이유를 설명시키기에는 역부족이다.

 그런데 따지고보면 이것은 통계학에서의 자유도 개념을 (degree of freedom [for statistics]) 명확하게 받아 들일 수 있다면 직관적으로 합리적임을 인식 할 수 있을 듯하다.

 통계학에서의 자유도란 자유롭게 변화할 수 있는 데이터의 수를 의미한다. 예를 들어 N개의 데이터를 가지는 모집단의 자유도는 N이라 생각할 수 있다. 그리고 여기서 n개의 표본 데이터를 뽑는 행위는 n개의 자유도를 가지는 집단을 만드는 행위 같아보이지만 , 표본에서 특정 대표값을 이용하는 행위는 n-1의 자유도에 관여되는 행위가 된다. 그렇기 때문에 뽑혀진 n개의 데이터가 가지게 되는 실제 분산이 ((Xi - X_bar)^2)/n의 총합이라 하더라도, 모집단의 분산을 평가하기 위한 표본분산은 n-1을 분모에 두어야 한다.

 이렇게만 말하면 바로 이해가 안 될 수 있다. 좀 더 첨언을 하자면, N개의 데이터 집단에서 n개의 표본을 뽑는 행위는 N-n개의 데이터를 거르는 행위와 같이 발생한다. 그렇기에 n개의 표본을 뽑는 행위는 직관적으로 느껴지는 것과는 달리 n개의 자유도를 가지는 행위가 될 수 없다. 그렇다면 이 과정을 비틀어 생각하면 모집단 안에서 고른 표본에서의 평균값이 구해지고 해당 평균값에 맞추어 분산이나 표준편차를 구하는 행위로 인식을 한다면 필연적으로 n-1의 자유도를 가지는 행위가 된다. 먼저 좀더 알기 쉬운 내용으로 접근해 보자면, N개의 모집단에서 N개의 표본을 뽑는다면 N-1번째의 데이터를 뽑고나면 N번째의 데이터는 값이 정해지게 된다. 마찬가지 접근 방식으로 표본을 채취하는 행위를 생각하고자 한다면, n개의 데이터의 평균값 X_bar와 N-n개의 데이터 X_bar_2가 있고 이 전체의 조합이 전체 모집단의 평균이 된다는 구속조건이 있다는 것을 인식하면 된다. 그렇기 때문에 표본을 뽑는 행위를 실행하는 시점에 평균값(혹은 기준으로 잡을 어떤 값)이 고정이 된다고 인식하면 뽑혀진 표본 데이터를 n-1번 까지 확인하게 되면 n번째 표본자료는 이미 결정되게 된다. 따라서 표본의 평균을 통해 전체 모집단의 평균을 추정하는 경우, 혹은 표본의 어떤 통계적 수치를 통해 모집단의 수치를 평가하는 경우에 표본의 자유도는 n-1개를 가진다고 보는게 합당하다.

 이를 인지하고서 표본의 평균, 모집단의 평균, 모집단의 전체 데이터 개수, 표본의 데이터 개수를 바탕으로 특정한 통계수치를 유도하는 경우 좀 더 직관적으로 이해하기 쉽다.

 

사실 이와 같은 개념적 이해를 통한 접근 방식을 사용하면 굳이 유도를 할 필요가 없이 수식이 어느정도 정리가 되기에 유도과정을 서술하지는 않지만(어차피 자명하게 느껴진다면, n-1과 N으로 굳이 수식을 처음부터 분리시켜서 이러한 개념 형태를 의도적으로 만드는게 귀찮은 느낌이다.), 이 접근 방식이 이해가 안되는 경우를 고려하여 일반적인 접근 방식에서 수식적으로 유도하는 자료는 아래 첨부하는 링크를 참조하면 될 것이다.

https://hsm-edu.tistory.com/15

 

[통계 기초] 4. 표본분산의 기댓값이 모분산과 같은 이유

표본분산의 기댓값이 모분산인 이유를 증명하겠습니다. 표본분산을 불편추정량으로 만들기 위해 n-1로 나눈 이유를 수학적으로 이해하게 되실 겁니다. 모집단이 하나 있습니다. 이 모집단의 평

hsm-edu.tistory.com

추신- 댓글에서 수학적으로 해당 직관을 묘사할 수 있는지에 대한 문의가 들어와 추가로 남긴다.

위의 설명이 어떻게 수학적으로 묘사가 되는지 고려할 예를 들자면 표본집단 분산의 기댓값은 아래 수식과 같이 나온다는게 직관적으로 연결된다는 의미가 된다. 시그마는 모집단의 표준편차에 대한 값이며 E(S^2)은 표본의 분산 값이다. u는 모집단의 평균 값이다. 모든 (x_i-u)의 기댓값은 모집단에서의 시그마 값과 동일하다.

여기서 위에서 서술한 논리를 다시 생각해보자. 이것들의 평균을 구하는 행위는 앞서 말한 자유도의 개념을 적용하면 모집단에서의 특성 값에 맞추는 효과를 고려하여 모집단의 값을 빼고 n-1의 자유도로 나누는 과정이 된다.  (마찬가지 개념으로 표본의 평균 역시도  (x_i)의 총 합에서 u를 추가로 빼서 구한 값을 n-1로 나누는 것으로 이해 할 수 있다.) 

편의를 위해 수식을 직접 적지 않고 https://hsm-edu.tistory.com/1185 게시글에서 화면 캡쳐를 한 점 양해 바랍니다.

그런데 이것만으로는 표본의 분산을 구할때 n-1로 구하는것과 바로 연관시킬수는 없다. 그것은 표본의 평균을 n-1로 나누어 구하지 않는것과도 같다. 이제 중요한 것은 중괄호 {}안에 대응하는 수식이 표본의 무엇과 대응하는지 유도하는 과정이 필요하다. 사실 그렇기 때문에 위의 수식이 아래와 같은 수식과 동일하다는건 중괄호 안의 수식이 무엇과 대응되는지 미리 알고 있지 않다면, 직관만으로는 도저히 유도가 안될 내용이기도 하다. (이 수식을 유도할 간단한 방법은 위에 첨부한 링크의 블로그 글에서 초반부터 다루고 있으니 잠시라도 참고하면 좋을 듯 하다.)

다만, 마찬가지로 표본의 평균을 구할때도 (n-1)*u가  (n-1)* (1/n)* sigma (x_i- Xbar) 라는 것을 구해서  [ (n-1)* u / (n-1) ] 에 대입하는 것으로 인식을 한다면 이 내용 역시도 전체 유도 과정 중 {}안의 수식만 유도하는 것만으로 대체할 수 있다는 점은 받아들일 수 있다. (사실 평균같은 겨우야  u 자체가 (1/n)* sigma (x_i- Xbar) 로 바로 구해지기 때문에 이러한 개념을 고려할 새도 없이 바로 직관적으로 구해지기에 오히려 이러한 자유도 개념을 생각해보기 어렵습니다.) 

 

그렇기 때문에 이런 직관적인 이해 방법은 수학적으로 전체과정을 유도하는 과정이 선행되어야만 하며, 이러한 유도 과정 중 이러한 개념이 수식 안에 내포되어 있다는 것을 이해하여 그 개념을 체화시키는게 적합하다고 생각된다. 나같은 경우도 앞서 이러한 유도 과정이 자명하게 느껴져서 유도를 안한다고 하였지만, 그것은 해당 내용을 유도하는 과정을 여러번 보고 그렇게 유도가 되는것이라는 중간 과정을 그냥 그대로 받아들이고 있는 부분들이 있기 때문에 이런 직관이 적용 가능할 뿐이다.

 

 

 

=================================

23년 2월 3일에 추가하는 내용:

내가 수학적 직관에 관해 도움을 받고자 시청하는 유튜브 채널이 있는데 최근 거기에 이와 관련한 내용이 올라와 이해하는데 도움이 될 듯 하여 링크를 추가한다

 

https://youtu.be/TckEM-6tdrc

반응형