Data Mining and Analysis with AI
(실전에서 사용하는 방법: 병원 데이터, 레지스트리 데이터 정리 방법 등)
Ki-Hyun Jeon, MD.
Seoul National Univ., Korea
병원 데이터에서 가장 다루기 어려운 부분 중 하나는 비정형 텍스트 데이터이다. 판독문, 진료 기록, 수술 소견 등은 정량적 변수로 바로 활용할 수 없기 때문에, 이를 분석 가능한 형태로 변환하는 과정이 필요하다. 이때 핵심 도구가 바로 자연어 처리(NLP, Natural Language Processing)이다.
NLP는 의무기록 내에서 특정 키워드와 패턴을 자동으로 인식하고 구조화 하는 task로 예를 들어 관상동맥 CT (CCTA) 판독문에는 Coronary Artery Calcium Score (CACS) 값이 다양한 표현(“Ca scoring”, “calcium scoring”, “CACS”)으로 기술되어 있다. 사람이 일일이 판독문을 확인해 추출하면 방대한 시간과 오류가 발생하지만, NLP 기반 모델은 이를 빠르고 정확하게 인식하여 정리할 수 있다.
ChatGPT 에는 특정목적에 맞춰 작업을 수행하도록 하는 custom GPT 를 만들 수 있는데, 필자가 제작하여 공유한 "CACS from CCTA”는 판독문 내에서 ‘calcium score’라는 표현과 그 뒤에 오는 숫자를 자동 추출해 새로운 변수 CACS로 저장하는 과정을 전적으로 자동화하도록 설계된 custom GPT이다. 단순히 숫자만을 뽑아내는 것이 아니라, 문맥 속에서 해당 수치가 실제로 칼슘 점수를 의미하는지를 판단하고, 값이 없을 경우에는 'not reported'로 처리하여 누락 관리까지 수행한다. 또한 동일 환자의 여러 검사 기록 중에서 최신 결과를 선택하거나, 표현 방식이 다른 판독문을 통일된 형식으로 변환하는 기능도 포함할 수 있다. 이러한 일련의 과정은 NLP 기법을 대형 언어모델(Large language model, LLM)에 구현하여, 임상 문서의 복잡한 서술을 구조화된 연구 데이터로 전환하는 실질적인 예시라 할 수 있다.
이러한 접근은 연구자에게 여러 측면에서 큰 장점을 제공한다. 첫째, 반복적이고 시간이 많이 소요되는 수작업을 줄여 연구 효율성을 높이고, 연구자가 본질적인 해석과 임상적 의사결정에 더 많은 시간을 투자할 수 있게 한다. 둘째, 데이터 추출의 일관성과 재현성을 확보할 수 있어 다기관 레지스트리나 장기 추적 연구에서도 안정적인 품질을 유지할 수 있다. 셋째, 다양한 표현 방식을 학습한 AI 모델을 활용하면 새로운 기관이나 다른 판독 스타일에도 쉽게 적용할 수 있을 뿐 아니라, 국제 협력 연구나 빅데이터 기반 분석에도 확장 가능하다. 넷째, 이러한 자동화 과정은 데이터 관리 비용을 절감하고, 연구자가 직면하는 인적 자원의 한계를 극복하는 데에도 기여할 수 있다.
결국 NLP는 비정형 임상 텍스트를 정형 데이터로 전환하는 핵심 도구이며, 이러한 도구가 임상연구 현장에 본격적으로 도입될 때, 데이터 기반 의학 연구는 한층 더 정밀하고 효율적으로 발전할 수 있을 것이다.