인과추론의 두가지 도구

과학적 사고는 "왜?"라는 질문에서 출발한다고 할 수 있습니다. 이 책의 저자 쥬데아 펄은, 그럼에도 그간 연구되어온 통계와 데이터 분석 기법들과 도구들도 "왜?"를 어떻게 표현하고 다룰 것인지를 등한시 해왔다는 점을 지적하고 있습니다. 곰곰히 생각해보면 지금까지 우리가 익히 보아 온 수식 표기법에는 인과관계를 표현할 수 있는 방법이 거의 존재하지 않습니다. 간단한 예를 들어볼까요. 기압계의 눈금이 가리키는 측정치(B)는 당연하게도 기압(P)을 반영하여 표시될 겁니다.

k는 고정된 상수일 뿐이니 무시하셔도 좋습니다. 너무나 간단한 수식이죠. 그리고 여러가지 다른 방법으로 변형할 수 있습니다. P = B/k, k = B/P, B–kP = 0 등으로요. 그런데 이들이 동일한 수식이라는 사실은 인과관계를 표현하고자 하는 관점에서는 치명적인 약점이 존재합니다. PB의 원인인지 혹은 반대인지에 대한 정보가 누락되어 있기 때문입니다. 즉, 이 수식만 봤을 때는 기압계 눈금이 기압에 영향을 미치는 것으로 잘못 해석할 우려가 있습니다. 이 예는 너무나 단순해서 누구나 쉽게 눈치챌 수 있지만, 실제로 데이터 분석에 막 입문한 분들이 쉽게 저지르는 실수 중 하나입니다. 수식만 보고 상관관계를 인과관계로 오인하는 것이죠.

문제는, 그간 학자들은 이 한계점에 대해 '상관관계는 인과관계가 아니다'라고만 말할 뿐 '인과관계가 무엇인지'에 대해서는 수식적으로 정의하려 시도하지 않았다는 점입니다 (물론 진정한 인과관계란 무엇인지에 대해서는 철학적인 고찰이 필요하기도 합니다만). 일례로, 데이터로 약을 먹은 사람은 먹지 않은 사람보다 빨리 회복될 확률이 높다고 말할 수는 있어도 명확하게 왜 회복되었는지를 말해주지는 않습니다.

쥬데아 펄은 인과추론을 '계산해내기 위해' 이전까지 사용해왔던 수학적 도구들 외에 추가적인 방식을 제안합니다. 첫번째는 우리가 '알고 있는' 인과관계를 표현하기 위한 인과관계 다이어그램(causal diagram)이고, 두번째는 우리가 '알고 싶은' 것을 질의하기 위한 do 연산자입니다. 이 도구의 의미를 이해하려면 쥬데아 펄이 설명하는 인과추론의 사고 흐름을 먼저 살펴보아야 합니다.

이 그림에 따르면, 인과 모델(Causal Model)은 우리가 갖고 있는 지식(Knowledge)와 가정(Assumptions)들을 기반으로 생성됩니다. 기계학습에서는 데이터를 기반으로 모델을 생성하는데 반해, 이 흐름에서는 데이터가 아닌 우리의 지식으로부터 모델을 만들어낸다는 점이 결정적인 차이점입니다. 그리고 이렇게 만들어진 모델이 질의(Query)에 대한 답을 할 수 있다고 판단되면 비로서 데이터가 개입되어 통계적 추정을 하고, 인과 추론의 결과와 함께 그 가능성을 결과로 내놓는 흐름입니다.

쥬데아 펄은 인과 관계는 데이터로부터 얻을 수 있는 것 아니라 과학적 지식과 사고로부터 만들어져야 하는 것이며, 따라서 그 지식을 모델링하는 것의 중요성을 강조합니다. 그리고 그 지식을 모델링하는 도구로 인과관계 다이어그램을 제시한 것이죠.

더불어, 이런 방식의 흐름은 매우 큰 장점이 있습니다. 바로 개입(intervention)에 의한 추론 또는 반사실적 추론(counterfactual reasoning)이 가능하다는 점입니다. 즉, 어떤 이벤트가 '발생한다면' 어떻게 될지 그 결과를 추론한다던가, 이미 지나간 이벤트가 '발생하지 않았다면' 그 결과는 어떨지 등의 추론이 가능하게 되는 겁니다 (물론 인과 모델을 잘 만들어 둘 필요가 있다는 점은 함정이 될 수도 있겠습니다만). 예를 들어, '오스월드가 케네디를 암살하지 않았다면 아직 살아 있을까?', '지난 2년간 담배를 태우지 않았다면 폐암에 걸리지 않았을까?' 라는 식의 질의를 할 수 있게 되는데, 이런 질의는 데이터만으로는 답변할 수 없는 영역이죠 (당연히 일어나지 않은 사건에 대한 데이터는 존재하지 않으므로). 또 그렇기에 이런 질의를 위한 수학적 표현도 존재하지 않았는데, 쥬데아 펄은 이를 위해 do 연산자를 제시하고 있습니다.

Last updated