728x90
SMALL
- 세상은 우연의 연속인 것처럼 보이지만, 사실 대부분의 일에는 특정한 확률이 숨어있기 마련입니다. 어떤 이벤트에 당첨되는 것도, 출근길에 지하철을 놓치는 것도 완전한 우연이라고 말하기 어렵습니다.
- 데이터 분석은 이런 '우연'을 수학적으로 계산하고, 그 안의 패턴을 찾아내는 일이라고 할 수 있습니다. 그 중에서도 확률은 데이터가 세상을 설명하는 방식 중에 하나입니다.
확률도 종류가 다양하던데 어떤 게 있나요?
- 흔히 우리가 표현하는 P(A), P(B) 같은 확률은 비조건확률이라고 합니다. 한계 확률이라고도 불리는 이 확률은 이름대로 아무런 조건이 없는 상황에서 특정 사건(A, B)이 일어날 확률입니다.
- 또 두 개 이상의 사건이 동시에 일어나는 확률은 결합 확률이라고 부릅니다. P(A∩B)로 표시해, 사건의 교집합이라고도 볼 수 있습니다.
- 그리고 무조건 알아야 하는 조건부 확률은 먼저 조건을 주어 표본 공간을 한정지은 뒤에, 다른 조건의 확률을 구하는 것이기 때문에 결합 확률보다 확률 값이 높게 측정됩니다.
- 모두 아시다시피 P(B|A)와 같이 표현하고, 이 표현에선 A 사건이 먼저 전제되는 조건을 의미합니다.
새로운 정보가 생기면 확률도 달라지나요?
- 확률은 한 번 정해지면 그걸로 끝 ! 이런 값이 아닙니다. 새 정보를 얻을 때마다, 그 정보는 기존 확률에 영향을 주게 되고 확률 값을 갱신하는 과정을 거칩니다.
- 그래서 이렇게 새로운 근거를 통해 확률을 다시 계산하는 방식을 베이지안 이론이라고 합니다.
- 베이지안 이론의 핵심은 사건이 발생하기 전에 이미 가지고 있는 사전 확률 p(A)와 새로운 정보인 우도 확률 p(B|A)를 안다면, 사후 확률 p(A|B)를 계산할 수 있다는 것입니다.
- 즉, 특정한 사건 A가 발생하면 그 사건의 원인이 되는 사건들의 사전 확률을 이용해서 사건 A의 원인이 될 수 있는 사후 확률을 알아내는 방식입니다.

- 예를 들어서 어떤 커뮤니티 사이트를 운영하고 있는 사람이 사이트의 규모에 비해 광고 수익이 영 나오지 않아(광고 클릭율인 CTR이 1% 밖에 되지 않음) 수익을 늘리는 방안을 고안하고 있다고 가정하겠습니다.
- 그래서 이용자를 분석하는 도중 이용자의 남녀 성비가 8:2라는 정보를 알게 되었습니다. 그래서 남성을 타겟으로 배너 광고만 올리면 되겠다 ! 싶었습니다.
- 그런데 더 파고 보니 남성의 광고 CTR은 0.5%인데 반해, 여성은 3%나 되는 것이었습니다. 이런 경우에는 어떤 성별을 타겟으로 하는 것이 좋을지 또 고민이 되었습니다.
- 그래서 먼저 광고를 클릭하는 사람 중 남성의 비율을 계산해보니 P(남성|클릭) = P(클릭|남성) * P(남성) / P(클릭) = 0.005 * 0.8 / 0.01 = 0.4 = 40%였고, 광고 클릭하는 사람 중 여성은 P(여성|클릭) = 60%였습니다. 결국 여성을 타겟으로 하는 것이 맞겠다로 결론이 바뀌었습니다.
- 위와 같은 예시와 같이 단순히 남녀로 분류되는 것이 아니라, 10대 여성, 20대 남성, ..., 60대 여성 등으로 더 복잡하게 분류되면 베이지안 이론이 더 유용하게 활용될 수 있습니다.
확률 변수는 무엇인가요?
- 측정 값이 변할 수 있는 확률로 주어진 변수가 확률 변수입니다. 표본을 어떻게 추출하는가에 따라 통계량이 달라지는 표본 평균이나 표본 분산과 같은 것이 대표적인 확률 변수라고 할 수 있습니다.
- 그 중에서도 이산 확률 변수는 주사위와 같이 변수가 가질 수 있는 값이 셀 수 있는 실숫값인 변수입니다. 그리고 변수가 각 실숫값을 가질 수 있는 확률이 주어져 있습니다.
- 연속 확률 변수는 가질 수 있는 값이 무한대이기 때문에 특정 값을 가질 수 있는 확률은 0이라고 할 수 있습니다. 그래서 특정 구간이 나올 수 있는 확률을 구하는 식으로 접근을 해야하는 변수입니다.
확률이 같은데 결과가 다를 수도 있나요?
- 어느 기업에서 직원들의 글로벌 역량 강화를 위해 전사적으로 영어 실력 테스트를 진행했다고 가정하겠습니다. 개인 사정으로 테스트를 보지 못한 직원들은 따로 추가 테스트를 진행했습니다.
| 본 테스트 합격률 | 추가 테스트 합격률 | 평균 합격률 | |
| A 부서 | 70% | 90% | 80% |
| B 부서 | 80% | 60% | 70% |
- 결과가 위와 같을 때, 두 부서 중 어떤 부서의 글로벌 역량이 더 높은가에 대한 논의가 이뤄졌습니다. 이 결과는 전 글에서도 언급한 적이 있는 가중 평균과도 관련이 있습니다. 각 테스트 참여 인원에 따라 실제 평균은 다를 수 있기 때문입니다.
- 이처럼 데이터를 어떻게 나누고, 결합하고, 가공하는가에 따라서 결과가 정반대로 바뀔 수도 있음을 경계해야 한다는 것을 심슨의 역설이라고 부릅니다. (계산할 때 세심하게 잘하고, 전처리도 잘하자...)
참고 도서
- 『데이터 분석가가 반드시 알아야 할 모든 것』, 저자 황세웅, 위키북스
728x90
LIST
'데이터 분석 > 이론' 카테고리의 다른 글
| 데이터는 우연 속에서 패턴을 찾는다 (0) | 2025.12.03 |
|---|---|
| 평균은 시작일 뿐이다 (0) | 2025.10.20 |
| 데이터한테도 MBTI가 있다...? (0) | 2025.10.16 |
| 고양이 100마리로 서울의 모든 고양이 수를 알 수 있을까? 🐈 (0) | 2025.10.15 |
| 데이터를 다룬다면 통계학은 선택이 아니라 '기본'이다 (2) | 2025.10.14 |