베이지안 네트워크

주데아 펄은 The Book of Why의 3장에서 베이지안 네트워크의 발전과 의미를 설명한다. 베이지안 네트워크는 (이후 장에서 서술할) 인과 다이어그램의 기초가 된다.

베이즈 규칙

베이지안 네트워크를 이해하기 위해서는 베이즈 규칙을 먼저 알아야 한다. 베이지안 네트워크는 베이즈 규칙을 그림으로 압축해서 표현한 것이기 때문이다.

손님이 카페에서 차와 스콘을 구입한다고 해 보자. 6명 중에서 4명이 차를 구입했고, 그 4명 중에서 다시 2명이 스콘을 구입했다.

이 경우 다음 세 개의 질문에 답을 해보자. (1) 차와 스콘을 모두 구입할 확률은? (2) 차를 구입한 사람이 스콘을 구입할 확률은? (3) 스콘을 구입한 사람이 차도 구입할 확률은? 손님이 차를 구입할 확률을 P(T), 스콘을 구입할 확률은 P(S), 차를 구입한 사람이 스콘도 구입할 확률을 P(S | T)로 표기하자.

차와 스콘을 모두 구입할 확률(P(T ∧ S))은 (4/6)*(2/4)로 1/3이다. 손님이 차만 구입할 확률 P(T)는 4/6이다. 그런데 스콘을 주문한 손님이 차를 구입할 확률은 얼마일까? 문제에서 P(T)와 P(S | T)가 주어졌으므로 둘 다 구입할 확률은 둘을 곱하면 될 것이다.

표를 그려서 답을 확인해보자.

손님

스콘

A

O

O

B

O

X

C

X

X

D

O

O

E

X

O

F

O

X

P(AB)P(B)=P(BA)P(A)P(A|B)*P(B) = P(B|A)*P(A)

위에서 보이는 것처럼 P(A), P(B), P(A | B), P(B | A) 중에 셋을 알면 나머지 하나를 구할 수 있다. 여기서 눈여겨 볼 점은, P(A | B)를 구하는 것과 P(B | A)를 구하는 방식이 수학적으로 동일하다는 것인데, 두 사건 사이의 비대칭이 없으므 베이지안 네트워크에는 인과가가 아니라 상관관계 만을 뜻한다.

정방향 확률과 역방향 확률

사람은 정방향 확률과 역방향 확률을 다르게 인식한다. 이를 확인하기 불(Fire)과 연기(Smoke)의 사례를 생각해보자. P(F)는 불이 날 확률, P(S)는 연기가 날 확률이라고 하자. 불이 났을 때 연기가 피어오를 확률 P(S | F)은 실험을 통해 쉽게 구할 수 있다. 10개의 건초 더미에 불을 질렀을 9개의 연기 기둥이 피어오른다면 P(S | F) 0.9이다.

이번에는 연기를 보고 불이 났을 확률을 구해보자. 앞선 상황과 달리 쉽사리 계산할 방법이 떠오르지 않는다. 시간을 거슬러 생각하는 건 어렵다. 피어오르는 연기만 보고 불이 났을 확률을 구할 수 있을까? 어쩌면 발전소 굴뚝이거나, 온천, 생선 굽는 연기일 수도 있다.

베이즈 규칙은 역방향 확률을 수학적으로 구하는 방법을 일러준다. 동네에서 불이 자주 났다면, 이번에도 불이라고 생각하겠지만, 불이 난 빈도보다 연기가 피어오른 빈도가 훨씬 높다면 대수롭지 않게 생각할 것이다.

P(AB)=P(BA)(P(A)/P(B))P(A|B)= P(B|A)*(P(A)/P(B))

정방향 확률과 역방향 확률을 구하는 것은 수학적으로는 동일한 문제인데도 불구하고 우리의 직관은 정방향 확률 계산에 더 익숙하다. 시간의 흐름에 익숙한 인지 구조가 두 사건에 공평하게 반응하지 않기 때문이다.

베이지안 네트워크

베이즈 규칙은 확률 추론에 있어 유용한 도구이지만, 이걸로 복잡한 세계를 나타내기에는 너무 많은 표와 변수가 필요하다. 하나의 수식을 화살표 하나로 추상화하고 복잡한 계산은 컴퓨터에게 맡겨버리면 좋을 것이다.

베이즈 규칙 동일한 진술이므로, 베이지안 네트워크의 화살표 또한 인과가 아닌 상관관계를 나타낸다. 그럼에도 불구하고 베이지안 네트워크는 상당히 유용하다. 알게 모르게 기계학습, 음성인식 소프트웨어, 스팸 필터링, 날씨 예보, FDA의 의료기기 승인, XBOX의 스킬 랭크, 전자 신호의 복호화 등에 사용되고 있는데, Judea Pearl은 이를 두고 "우리는 베이즈 규칙의 헤비 컨슈머"라고 표현한다.

Last updated