1997년에 딥러닝 인공지능을 통해 폐렴환자의 예후를 예측하면 의료계 종사자보다 더 나은 결정을 할 수 있다고 주장한 연구논문이 발표된 적이 있었습니다. 딥러닝 인공지능을 통해서 폐렴환자 중 누가 합병증이나 사망에 직면할지를 매우 정확하게 예측할 수 있었다는게 논문의 주장이었습니다.
놀랍게도 해당 모델은 통상적인 상식과는 달리 천식이 오히려 폐렴 때문에 생기는 합병증 위험을 낮춘다고 판단했고, 이 모델을 사용하게 된다면, 천식을 가진 폐렴환자를 중환자실로 보내기는 커녕 일반적인 폐렴환자보다 더 집으로 돌려보낼 가능성이 컸습니다.
뭔가 일반적인 상식과 다른 결과가 나오자 자료를 다시 검토해본 결과, 천식 환자들은 실제로 심각한 폐렴이나 사망 위험이 확실히 더 낮았는데, 그 이유는 딥러닝 학습을 위한 데이터가 오로지 병원의 기존 결정 시스템에서 수집되었기 때문이었습니다. 이게 무슨 말이냐면, 천식을 동반한 폐렴 환자들은 병원에 도착하자마자 곧바로 중환자실로 보내졌고 그 덕분에 비천식 환자보다 집중적인 케어를 받을 수 있었기 때문에 합병증이나 사망으로 이어지는 경우가 줄어들었던 겁니다.
천식환자들에서 폐렴이 발생하면 그 자체로 매우 치명적인 상황이기 때문에 곧바로 중환자실로 가야 하는 상황에서 해당 인공지능 모델을 그대로 임상에 적용한다면 어떤 일이 발생했을까요? 수많은 천식환자들이 제대로 된 케어를 받지 못하고 귀가조치를 당한 채 심각한 합병증으로 중태에 빠지거나 사망했을겁니다.
이건 인공지능 알고리즘의 문제가 아니라, 제대로 된 데이터를 바탕으로 학습하지 않고 완전히 잘못된 데이터를 통해 학습함으로서 엉뚱하고 기과한 결과를 도출하게 된 경우입니다. 문제는 의료분야에서 이렇게 잘못된 데이터를 통해 학습된 인공지능으로 처음의 취지와 전혀 동떨어진 예측을 남발하는 경우가 매우,,, 사실 너무도 심각할 정도로 연구의 대다수를 차지한다는겁니다.
의료분야에서 특정한 가설이 입증되기 위해 가장 보편적으로 사용하는 통계조사는 RCT(Randomized Controlled Tria)입니다. 어떤 약이나 기술 등이 효과가 있는지를 판단하기 위해 “대조군”을 설정하고 실험군과 대조군 사이에 나이와 성별 같은 인구통계 지표에서 서로 균형을 이루도록 세심하게 조율된 데이터를 확보한 다음에 통계적으로 가설을 입증하는 방식인데, 대부분의 의학 연구자들은 더 쉽고 빠른 다른 방법들은 효과가 없다는 간단한 이유 때문에 속도도 느리고 비용 또한 만만치 않은 RCT를 선호합니다.
그런데, “인공지능”이라는 주제가 들어가면 이러한 철저한 검증방식을 헌신짝처럼 내던지고 통계적으로 엄정성이 떨어지는 검증방식을 내놓는 경우가 대부분입니다.
실제로 흉부 엑스선 촬영사진이나 폐CT 등으로 코로나 19 바이러스 감염을 진단할 수 있다고 주장하는 논문만 자그마치 수천편에 이릅니다. 그런데, 이들 논문 대부분이 통계적으로 엄정한 검증과정을 거치지도 않았을 뿐 아니라 아예 완전히 잘못된 방법(앞서와 같은 식으로)으로 데이터를 수집해서 학습했기 때문에 의학적으로 아무런 의미가 없는 경우도 많습니다.
어떤 논문에선 코로나 19에 걸린 케이스는 모두 성인에게서, 걸리지 않은 케이스는 모두 아이에서 가져온 데이터세트로 학습을 시킨 결과, 인공지능이 성인과 아동을 구분하는 법만 배웠을 뿐인데도 자기들이 코로나19 탐지 인공지능을 개발했다고 착각한 게 나중에 밝혀지기도 합니다.
그만큼 “인공지능”이라는 키워드만 들어가면 학계 뿐 아니라 대중의 주목을 받기에 좋기에 인공지능이라는 키워드만 넣고서 주목받으면 학문적 엄정성은 어떻게 되든 상관이 없는 연구자들이 의료분야든 어디든 널려있는게 작금의 현실이라는거지요.
학계의 이런 안좋은 관행을 지적하고 비판하는거야 각 분야의 권위자나 지도자들이 힘써주어야 할 영역이겠지만, 우리들도 각자가 이런 현실을 인식하고 있어야 하는 이유는 이런 인공지능 기술을 활용하는 기업의 주식에 투자하거나 언론기사를 접할때 기본적인 상식과 분별력을 갖추고 있어야 하기 때문입니다.
요즘엔 정말 “인공지능”이라는 키워드로 눈 감으면 코 베이기 딱 좋은 그런 세상입니다.