Department of Transdisciplinary Healthcare Sciences
다양한 배경을 가진 학생들에게 데이터 중심의 정량적 사고를 하는 훈련과 경험을 함양하는 것을 목표로 한다. 데이터 중심의 컴퓨팅 기초를 바탕으로 탐색적 데이터분석 및 데이터 시각화를 훈련하고, 통계적 추론과 머신러닝을 포함한 데이터 기반 문제 해결의 핵심 원칙과 기술을 학습한다.
바이오헬스 분야에 특징적인 다양한 형태의 자료에 적합한 통계 모델링에 대한 기본적인 이론을 소개하고, 실제 데이터를 이용한 실습을 통해 적용, 분석, 해석하는 방법을 다룬다. 다중선형회귀모형, 일반화선형모형(이분형 로지스틱, 다항 로지스틱, 순서형 로지스틱, 포아송)과 영과잉 자료분석을 위한 통계모델링, 생존분석을 위한 콕스비례위험 모형 등에 대해 학습한다.
바이오헬스 데이터 과학자를 위한 머신러닝의 지도학습과, 비지도학습모델의 핵심개념을 다룬다. 고차원 모형의 기본개념을 이해하고 활용하는 방법을 배우며, 비모수적 리샘플링 기반의 통계추론을 학습한다.
이 과정은 바이오헬스 연구에서 접하는 다양한 형태의 데이터를 분석하고 모델을 개발하기 위한 기초적인 프로그래밍 기술을 익히는 데 중점을 둔다. 효과적인 프로그래밍 기술과 재생산 가능한 분석 보고서 작성 능력을 훈련하며, 자기주도적으로 분석을 수행 할 수 있는 역량을 기르는 것을 목표로 한다.
이 과정에서는 시간의 흐름에 따라 반복 측정된 자료와 계층적 구조를 가진 데이터를 분석하기 위한 고급 통계 모델링을 포괄적으로 다룬다. 경시적 자료 분석에서는 선형혼합효과모형(Linear Mixed Effects Model), 일반화추정방정식(GEE) 등을 학습하여 시간에 따른 데이터 변화와 상관 구조를 반영한 분석을 다룬다. 또한 계층적 자료 분석을 위한 다수준 모형(Multi-level model), 결측자료 분석방법 등을 학습한다. 이론과 실습을 병행하여 경시적 자료와 계층적 자료의 모델링에 대한 이해와 이를 바탕으로 실제 데이터에 대한 분석 역량을 강화하는 것을 목표로 한다.
네트워크는 여러 요소들의 복잡한 상호작용을 개념화하며, 다양한 바이오헬스 연구 분야에서 그 수요가 점차 증가하고 있다. 특히 확률적 그래픽 모델 이론을 바탕으로 한 네트워크 추론은 주요 데이터 과학 도구로서 사용 범위가 넓어지고 있다. 이 과정에서는 네트워크 데이터 분석과 더불어, 보건의료 및 유전체 데이터를 대상으로 다양한 형태의 네트워크 시각화 및 추론 방법론을 탐구한다. 또한 여러 분석 도구를 경험하고, 방법론 개발을 위한 시뮬레이션과 프로그래밍 실습을 진행한다.
바이오헬스 데이터에서 인과 관계를 추론하기 위한 이론과 실습을 다루는 교육과정이다. 이 과정에서는 관찰 데이터를 바탕으로 인과적 해석을 도출하는 데 필요한 다양한 방법론을 학습한다. 주요 학습 주제로는 성향점수매칭(Propensity Score Matching), IPTW, Marginal Structural Model, g-formula, Causal Mediation Analysis, Instrumental Variables 등을 포함한다. 이론적 배경을 이해하고, 실습을 통해 수강생들은 복잡한 바이오헬스 데이터에서 인과적 결론을 도출할 수 있는 분석 역량을 습득하게 된다.
실제 바이오헬스 문제를 해결하기 위해 데이터 수집, 처리, 분석 기법이 어떻게 적용되는지 다양한 사례를 통해 배운다. 이 과정은 크게 샘플사이즈가 큰 바이오헬스 빅데이터와 변수가 많은 고차원 유전체 데이터를 다루는 두개의 모듈로 구성되어 있다.