기술(Tech, IT)/머신 러닝(Machine Learning)

[ML] P-value (유의 확률, Probability value)

Daniel803 2023. 9. 20. 04:10

위키피디아에 따르면 P-value에 대한 정의는 아래와 같고, 다른 곳 역시 비슷하다.

: In null-hypothesis significance testing, the p-value is the probability of obtaining test results at least as extreme as the result actually observed, under the assumption that the null hypothesis is correct.

: 통계적 가설 검정에서 유의 확률 (significance probability, asymptotic significance) 또는 p-값 (p-value, probability value)은 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다.

 즉, 통계적으로 유의한지를 평가하는 지표가 된다.

 

 가장 많이 언급되는 P-value가 0.05라는 것은 어떤 사건이 우연히 일어날 확률이 0.05 (5%) 라는 것을 의미한다.

P-value가 0.05 보다 작다면 우연히 일어날 확률이 5% 보다 작은 것으로, 우연히 일어날 확률이 매우 낮고 인과 관계가 존재한고 추정할 수 있다.

 이 때 중요한 점은 귀무가설 (Null Hypothesis) 가 참이라고 가정을 하는 것이다. 귀무가설이라 참이라 가정했을 때 우연히 일어날 확률인 P-value가 0.05 (5%) 라는 것은 우연히 일어날 확률이 매우 낮으므로, 인과 관계가 존재한다고 추정돼 귀무가설은 기각이 되고, 이는 대립가설 (Alternative Hypothesis) 을 채택하게 되는 것이다.

 

참고 자료에서 보듯이 여러 자료를 찾아봤지만, 말이 다소 헷갈릴 수 있기에 다양한 예시를 통해 이해를 돕는 것을 추천한다. 뿐만 아니라 P-value는 편리하지만 P-value만을 참고했을 때 오류에 빠질 수도 있기 때문에, P-value가 갖는 한계점 역시 같이 알아둬야한다.

 

참고

- https://ko.wikipedia.org/wiki/%EC%9C%A0%EC%9D%98_%ED%99%95%EB%A5%A0

- https://blog.naver.com/beanalogue/222459346801

- https://angeloyeo.github.io/2020/03/29/p_value.html

- https://bodi.tistory.com/entry/%EA%B0%80%EC%84%A4%EA%B2%80%EC%A0%95-P-value%EB%9E%80%EC%96%B4%EB%96%A4-%EC%82%AC%EA%B1%B4%EC%9D%B4-%EC%9A%B0%EC%97%B0%ED%9E%88-%EB%B0%9C%EC%83%9D%ED%95%A0-%ED%99%95%EB%A5%A0

- https://adnoctum.tistory.com/332