확실한 예측이 가능한 수학은 코로나19를 분석할 수 있을까? | 에스콰이어 코리아 (Esquire Korea)

수학이 할 수 있는 예측은 어디까지인가.


수학이 할 수 있는 예측은 어디까지인가


팬데믹 상황에서 바쁘게 움직이는 과학자들이 있다. 지금 이 순간에도 그들은 수학적 도구를 활용해 전염병의 추이 분석과 예측 연구를 내놓고 있다. 의생명 분야 논문 사전 공개 사이트 ‘medRxiv’에서 얼마나 많은 논문이 코로나19를 다루고 있는지 검색해보니 벌써 700편이 넘는다. 사태가 본격적으로 가시화된 게 2월이고 데이터다운 데이터가 쌓이기 시작한 것은 채 한 달도 안 되었음을 생각해보면 정말 많은 학자들이 이에 빠르게 매달리고 있음을 알 수 있다. 그러나 잠시 멈춰 질문을 하나 해보자. 수학은 이 팬데믹이 언제 끝날지, 당장 몇 개월 후의 앞날을 예측할 수 있을까?
순수수학과 대조되는 도구로서의 수학을 응용수학이라 통칭한다. ‘응용’이라는 이름 그대로, 인접 분야인 물리학과 화학, 응용 범위가 확대된 공학과 생물학, 아예 과학기술의 경계를 벗어나 사회학, 경제학, 그리고 심지어는 스포츠나 예술에도 폭넓게 활용되는 것이 응용수학이다. 여러 분야에 수학을 활용하는 주된 목적은 데이터 분석과 현상 설명 그리고 미래 예측을 위해서다. 예측 가능하고 측정이 확실하며 재현 테스트가 잘되는 이공계 분야에서는 이 미래 예측이 꽤나 잘 들어맞는다. 예를 들면 우리는 고전물리학의 핵심인 뉴턴의 역학 모형을 활용해 투수가 던진 공이 어디에 다다를지를 정확하게 예측할 수 있다. 뉴턴 역학의 핵심은 미분방정식으로 표현되는 수학적 모형이다. 수학의 세부 분야인 미분방정식의 특징은 초기와 경계 조건을 알고 있다면, 그리고 그 방정식의 해가 하나라면 미래에 대한 확실한 예측이 가능하다는 것이다. 투수가 공을 놓는 지점, 공의 초속과 rpm, 공기의 밀도와 온도, 공의 크기와 무게, 그리고 표면 거칠기 등의 조건을 알고 있다면, 이 공이 정확히 몇 초 후에 포수 미트의 어디쯤으로 들어갈 것인지 예측할 수 있다. 그러나 이는 순전히 야구공이 생물이 아니며 의지도 없고 욕망도 없기 때문에 가능한 일이다.
의지와 이성, 그리고 감정이 뒤엉킨 이 세계의 많은 일은 이런 수학적 운명을 기계적으로 따라가지 않는다. 만약 그랬다면 수학자와 물리학자 모두 부자가 되었을 것이다. 고전물리학의 핵심 모형을 만든 뉴턴조차 바로 몇 주 후의 주가를 예측하지 못해 전 재산을 날리다시피 하지 않았나. 인간의 감정과 의지가 개입하는 사회적 현상, 그리고 여전히 노이즈의 영향을 많이 받는 생명 현상에서 수학적 예측이 확실하기란 불가능에 가깝다. 정교한 예측과 분석을 위해 수학의 세부 분야인 확률론을 활용할 수 있지만, 이는 어떤 현상이 특정 상태가 될 ‘확률’만 알려줄 수 있을 뿐이다. 1960년대 캐나다의 기상학자 로렌츠는 수학적으로 잘 정립된 유체역학 방정식을 이용해 기후를 예측하려 했지만, 정작 그가 발견한 것은 초기 상태가 조금이라도 바뀌면 단 며칠 후의 상태에 대한 예측이 거의 불가능하다는 ‘카오스(chaos)’였다. 이른바 나비 효과로 대표되는 바로 그 이론이다.
사회과학 분야로 넘어오면 수학적 예측은 과녁에서 더욱 멀어질 수밖에 없다. 수학적 이론에 입각한 현상 예측 모형은 대부분 사회 현상을 단순화한 것이기 때문에 필연적으로 불확실성에 노출된다. 예를 들어보자. 팬데믹 분석에 사용하는 수학적 모형 중 가장 유명한 것은 ‘SEIR 모형’일 것이다. 이 모형은 인구 집단을 미감염 인구(Susceptible), 감염원 접촉 인구(Exposed), 감염된 인구(Infected), 회복된 인구(Recovered)로 나눠서 S, E, I, R 네 변수의 상호작용을 간단한 미분방정식 네 쌍으로 표현한다. 원래 SEIR 모형은 주로 후행적으로 적용되는데, 예를 들면 한번 지나간 감염병 데이터를 토대로 보건 정책 수립과 국가 자원 배분 전략, 혹은 다른 질병과의 비교 분석에 이용하는 것이 주된 용처다. 이 모형이 미래의 일을 예측하기에는 적합하지 않은 이유는 인구를 네 부류로 나눴다는 단순함에만 있는 것이 아니다. 현상을 단순하게 만드는 과정에는 필연적으로 파라미터가 필요한데, 파라미터의 변동이 커질수록 모형의 예측 결과는 카오스 이론에서 보듯 변동이 더 심해진다. 지금의 팬데믹 상황에서는 잠복기나 전파율, 사망률이나 회복 기간 같은 중요한 파라미터가 쉽게 측정되지 않는다. 완료형이 아닌 현재 진행형이기 때문이다. 결국 지금 분석한 다수의 결과물이 중요한 파라미터가 없는 예측이거나 확실치 않은 파라미터를 활용했다는 데 방점이 찍힌다.
방역 당국이 SEIR 모형을 이용해 어떤 정책을 시행하려면 모형의 예측 결과만큼이나 추출한 파라미터 분석이 매우 중요하다. 그런데 이 파라미터의 변동이 매일 누적된다면 정책 수립에는 혼란이 가중될 수밖에 없다. 정교한 모형을 위해서는 더 많은 파라미터를 도입할 수 있지만 이는 양날의 검이 되기도 한다. 띄엄띄엄 있는 점들을 잘 나타낼 수 있는 하나의 연속함수로 구하는 과정을 데이터 피팅이라 한다. 파라미터가 많아질수록 주어진 데이터 피팅이 잘된다. 하지만 파라미터들이 서로 독립적이라면 변동이 더하기가 아니라 곱하기로 나타나 약간만이라도 파라미터가 변하면 수학적 모형이 내놓는 예측이 천국과 지옥을 오갈 수 있다. 과거의 데이터에 대한 설명 정확도를 얻는 대가로 치러야 하는 것은 미래 예측에 대한 불확실성인 셈이다.
팬데믹의 예측을 예로 들면, 감염내과나 전염병 관련 전문가들의 해석과 고찰을 거치지 않은 모형은 추이 예측에 오히려 해가 될 수 있다. 실제보다 환자 수를 지나치게 적게 낙관적으로 예측하면 언제든 전염병 환자가 다시 늘어날 수 있다. 반대로 실제보다 상황을 더 과장해 비관적으로 예측하면 사회적 자원 낭비와 경제적 충격 회복 기간이 더 늘어날 수 있다. 수학적 예측을 전염병 추이 예측 등에 활용하려면, 주어진 파라미터 변동 범위에 따라 예측 결과가 어떻게 변하는지를 같이 보여주어야 하며, 데이터 통계 분석을 통해 시간에 따른 데이터 자체의 변동과 모형의 내재적인 변동을 분리해 분석해야 한다.
모형에서 얻은 해석과 예측에도 불확실성이 따른다. 같은 결과를 얻었더라도 해석은 결국 인간이 하는 것이므로 맥락에 따라 결과의 변동이 생기기 때문에 불확실성은 피하기 어렵다. 이렇게 다양한 층위에서 수학적 예측의 불확실성이 상존한다. 따라서 수학적 예측은 우선적으로는 다양한 층위의 불확실성을 줄임으로써 데이터 분석의 신뢰도를 높이는 것이 선행되어야 한다. 그러나 더 중요한 것은 어떤 수학적 모형에 의한 예측이든 그 한계를 적절하게 고찰하는 것이다. 그리고 예측 결과를 올바로 해석할 수 있는 시각을 갖추는 것이다.
과학과 기술을 넘어선 분야에서 수학적 모형을 기반으로 예측하려면 나무만 볼 것이 아니라 나무가 모인 장소, 토양, 식생, 기후 등에 대한 고려가 필요하다. 또한 나무를 개체로 보는 동시에 숲이라는 공동체 일부로 보는 관점도 필요하다. 사회 현상을 다루기 위해 수학적 도구를 적극 활용하는 것은 지식의 진보와 현상의 이해를 위해 기본적으로는 장려되어야 한다. 하지만 예측 기능에만 너무 천착하면 1차적 결과로 나온 숫자에만 매몰되어 더 고차원의 함의를 해석하지 못할 가능성이 높아진다. 수학적 예측이 의미를 가지려면 예측에 활용한 방정식이나 모형의 수학적 논리, 파라미터, 데이터 처리 알고리듬과 확률적 특징에 대한 고민이 동반되어야 한다. 또한 모형과 숫자 너머의 의미를 추출할 수 있는 전문가, 사회적 함의를 평가할 수 있는 실무자와의 협력이 반드시 필요하다. 숫자가 주는 매력은 무궁무진하지만, 결국 그 숫자 속에서 자연과 사회를 발견해야 하는 것은 인간일 수밖에 없기 때문이다.

Who’s the writer?
권석준은 KIST 미래융합기술연구본부 책임연구원이다. 나노 스케일에서 물질과 빛의 상호작용, 그리고 다양한 패턴 형성 메커니즘에 대한 계산과학 연구를 수행하고 있다.
수학이 할 수 있는 예측은 어디까지인가.