[코로나와 싸우는 사람들⑥]통계로 추이 분석 정보 확산
가짜뉴스로 불안감↑ "소시민의 역할 다 하고 싶었다"
데이터 공개 총 확진자 6% 불과···"질본, 데이터 공개해줬으면"

김종헌 대전과학고 물리 교사는 자신이 국내 코로나19 확진자 데이터를 통해 분석한 통계 자료를 유튜브를 통해 게재하고 있다. <사진=이유진 수습 기자>
김종헌 대전과학고 물리 교사는 자신이 국내 코로나19 확진자 데이터를 통해 분석한 통계 자료를 유튜브를 통해 게재하고 있다. <사진=이유진 수습 기자>
코로나바이러스감염증-19(이하 코로나19)에 대한 사회적 안정을 위해 과학자나 전문가도 아닌 민간인이 손을 걷어붙였다.

김종헌 대전과학고 물리 교사는 코로나19 확진·사망자 수의 추세, 성별과 나이에 따른 사망비율 등 수학적 모델을 기법으로 통계 결과를 분석해 일반 대중에 통계 정보를 매일 공유하고 있다(해당 링크). 자신이 갖고 있는 지식으로 현재 위치에서 나름대로의 '목소리'를 내며 코로나19 대응에 동참하고 있는 것. 

물리학 교사인 그는 교육학 박사 학위 시절, 논문 작성에 있어 통계학을 처음 접했다. 그렇게 접한 통계학은 현 코로나19 사태에 있어 무수한 분석자료를 낼 수 있는 기반이 됐다.

그는 코로나19 '가짜뉴스'에 대한 사실 여부를 파악하고 데이터를 분석함으로써 사람들이 막연히 불안해하지 않았으면 하는 바람에 이같은 통계분석을 시작했다. 소시민의 한 사람으로서 자기가 할 수 있는 작은 무언가를 기여하면 어떨까 하는 마음으로부터 출발한 것이다.

"판단이 모호할 때 명확한 기준을 제시해주는 잣대가 통계에요."

김 교사가 내린 통계의 정의다. 그는 'R'이라고 하는 프로그램을 이용해 코로나19 관련 데이터를 분석한다. 본래 'SPSS'라는 통계 전문 프로그램이 있지만, 고가의 사용료 때문에 일반인들이 접근하기 어렵다. R프로그램은 누구나 쉽게 온라인을 통해 무료로 다운받을 수있다. 그는 더 많은 사람이 다양한 용도로 통계 프로그램을 사용해 보길 권했다. 

◆ 수학적 모델을 통한 코로나19 분석

그는 R프로그램에서 다양한 수학적 모델을 사용한다. 그는 19일 언론이 언급하지 않은 코로나19 위험 국가에 대해 살펴봤다. 18일 기준 국가별 코로나19 누적 확진자 수를 백만명 당 확진자 수로 바꿔 분석한 결과 산마리노·리히텐슈타인·안도라·룩셈부르크·노르웨이·에스토니아 등의 나라가 한국보다 누적확진자 수가 더 많은 것으로 드러났다. 이들 국가는 대부분 인구수가 백만명이 안 되는 소규모 국가로, 언론에 주로 등장하지 않지만 코로나19 위험국가라고 할 수 있다는 것이 그의 견해다.
 
특히 그는 이탈리아 내부에 있는 도시 국가 산마리노가 코로나19 감염에 심각한 상황이라고 주장했다. 산마리노는 백만명 당 사망자 수 분석 결과에서도 1위로 통계되었으며 2위인 이탈리아보다 그 수가 약 7배 압도적이었다. 

그는 인구가 백만명을 초과하는 국가 대상으로 분석한 결과 카타르·바레인·슬로베니아·벨기에와 같은 국가들도 심상치 않다고 설명했다. 

또한 그는 시간에 따른 사망률을 추정하는 생존분석 방법 '콕스비례위험모형'을 사용, 성별과 나이에 따른 코로나19 사망률을 분석했다. 그 결과 남성의 사망률이 여성보다 두 배 가량 높았다. 나이에 따른 분석은 67세를 기준으로 67세 초과는 그 미만보다 사망률이 10배 이상 높게 나왔다.

성별과 나이를 합쳐 분석한 결과 67세 초과 남성의 사망률이 가장 높게 나왔고, 그 다음은 67세 초과 여성으로 분석됐다. 그는 한 살이 많을수록 약 1.09배 사망위험률이 높아진다는 결과를 추정했다.

하지만 여기에는 기저질환이 포함되지 않았기에 정확한 통계가 아니라는 설명이다. 또한 그는 9일 기준 국내 코로나19 확진자 7383명 중 성별·나이에 대한 정보가 있는 417명만을 대상으로 했기에 해당 결과는 신뢰성이 높지 않다고 말했다.   

김종헌 교사의 이러한 분석에 대해 익명을 요구한 한 출연연 소속 과학자는 "실질적으로 도움이 될지 안 될지는 장담할 수 없지만 본인의 전문성을 살려 무엇인가 기여하려는 모습 자체가 의미있다"며 응원의 목소리를 전했다.

전문가가 아닌 일반인의 의견은 어떨까. 유구상 연세대 박사과정 학생은 가짜뉴스가 판을 치는 현 상황에서 김 교사의 공신력 있는 자료를 통한 본인만의 고찰을 보여주는 모습에 감사함을 느낀다는 의견이다.

그는 "김 선생님을 보며 스스로 나서지 못한 것에 대해 큰 반성의 계기가 되었다"며 "과학자라는 것이 거창한게 아니라 각자의 분야에서 자신의 특기를 살려 사회에 기여하는 이러한 분들이 아닐까 생각한다"고 말했다.  

통계에 있어선 완전한 데이터가 가장 중요하다고 그는 말한다. 하지만 그는 현재 질병관리본부에서 9일 기준 국내 코로나19 확진자 7383명 중 417명의 데이터밖에 공개하지 않았기에 자신의 분석 결과가 백 프로 정확하지 않다고 말한다. 이에 그는 아쉬움을 표했다. <사진=이유진 수습 기자>
통계에 있어선 완전한 데이터가 가장 중요하다고 그는 말한다. 하지만 그는 현재 질병관리본부에서 9일 기준 국내 코로나19 확진자 7383명 중 417명의 데이터밖에 공개하지 않았기에 자신의 분석 결과가 백 프로 정확하지 않다고 말한다. 이에 그는 아쉬움을 표했다. <사진=이유진 수습 기자>
◆ "질병관리본부, 모든 확진자 데이터 공개해줬으면" 

그는 현재 자신이 하고 있는 통계 결과가 100% 정확하지 않다고 인정한다. 국내 코로나19 확진자가 7000명을 넘긴 가운데 그가 보유하고 있는 데이터는 400여 명에 불과하기 때문이다. 질병관리본부가 지난달 18일 이후 급증한 확진자들의 역학조사를 완료하지 못함에서 비롯됐다.

통계의 가장 중요한 부문은 완전한 데이터라고 그는 말했다. 완벽히 공개된 데이터는 누구나 다 '검증'할 수 있기에 주관적인 통계는 나올 수 없다는 것이다. 반면 편향된 데이터는 시시각각 변할뿐더러 신뢰성이 떨어지기에 그는 완전한 데이터가 오픈되지 않으면 개인적 견해로 자료를 판단하는 문제점이 발생할 수 있다고 지적했다. 하지만 지금 같은 재난 시엔 온전한 데이터의 파편만을 갖고 분석하는 것도 나름대로의 가치가 있다는 것이 그의 생각이다.

그는 현재 코로나19 확진자 데이터에 대해 아쉬움을 표했다. 그러면서도 질본이 쉴 틈 없이 바쁘다는 것을 알기에 이를 이해한다는 입장이다. 김 교사는 "개인정보가 허락되는 선에 한해서 일손이 부족한 상황을 고려해 확진자들의 데이터 수집·가공 단계에 재능 기부나 봉사단체 인력을 활용했으면 한다"며 "그렇게 되면 더 많은 사람이 다양한 관점으로 데이터를 분석, 질본이 생각지도 못했던 실마리를 찾을 수도 있을 것"이라고 강조했다.  

◆ "누구나 다 기여할 수 있다"

"데이터 분석은 연구자, 혹은 대학 교수들만의 전유물이 아니에요. 그냥 누구나 다 할 수 있는 것이죠."

김 교사는 수업시간에 학생들에게 AI를 통한 데이터 분석을 알려주고 과제를 제시했다. 급식의 만족도, 동아리 만족도 등 학생들이 자신의 일상에서 궁금해하는 문제들을 직접 분석하고 해결하라는 의미에서다. 그는 현재 누구나 다 엑셀을 하듯이 다가오는 4차 산업혁명 시대엔  통계가 필수적이며 보편화되길 바란다고 답했다. AI는 통계의 확장판이며 통계를 알아야 AI를 안다는 것이 그의 주장이다.

"많은 사람이 각자의 전문성으로 나름대로의 다양한 의견을 내놓고, 해석하고, 협력해 나가면 지금 같은 국가적 재난이 하루빨리 안정적인 국면으로 가지 않을까 그렇게 기대를 해봅니다." 

밝은 미소로 그는 이와 같이 말했다. 개인이 아닌 공동체로 지금의 위기를 극복하는 것, 그것이 현재 그의 바람이다.

김종헌 교사가 R프로그램을 사용한 통계 과정을 직접 보여주고 있다. <사진=이유진 수습 기자>
김종헌 교사가 R프로그램을 사용한 통계 과정을 직접 보여주고 있다. <사진=이유진 수습 기자>
 
저작권자 © 헬로디디 무단전재 및 재배포 금지