이 책은 임상연구자의 시각에서 데이터를 분석하고 해석하는 것에 초점을 맞추었다. 독자가 제공된 예제와 코드를 그대로 따라 함으로써 동일한 결과를 도출하고, 이를 통해 스스로 성향점수분석의 원리를 깨닫도록 하는 것을 목표로 한다. 이러한 반복 학습을 통해 독자들은 데이터 분석의 기본 원리를 체득하고, 임상연구에서 통계적 방법론을 능숙하게 활용할 수 있을 것이다. 성향점수분석(propensity score analysis)은 주로 사회과학 연구에서 원인변수와 결과변수 사이의 관계를 다루다 보니 의학보건학 연구 관점에서는 용어와 개념이 달라서 이해하는 데 어려움을 겪는다. 또한 관련 책들이 국내에 출시되어 있지만 학습 범위가 너무 넓어서 개념 정리가 어렵고 특히 의학보건학에 적용하기에는 적합하지 않기 때문에 이 책에서는 의학보건학 데이터에 바로 적용할 수 있는 실용적인 내용과 실습방법들을 소개하였다. 저자는 기법의 인과추정방식, 즉 ‘루빈 인과모형(Rubin’s causal model)’을 가급적 쉬운 용어와 사례로 설명하여 성향점수분석의 이해도를 높이고자 하였다. 그리고 성향점수분석 기법들 중 의학보건학에서 가장 많이 활용되는 ‘성향점수매칭’과 ‘성향점수가중치’ 방법을 예제 데이터와 분석코드를 전체 실습과정으로 담고 있으며 해당 결과에 대한 자세한 해석을 체계적으로 설명하고 있다. 이 책의 저자는 부록에 있는 성향점수분석 코드와 예제 데이터를 그대로 R studio로 옮긴 다음 그냥 실행해 보기를 권하고 있다. 분석코드에 따른 결과들이 결과창에 계속 쏟아질 텐데 독자들은 해석은 나중에 하고 전체를 실행해 보면 호기심과 자신감이 생길 것이다. 그런 다음 본인의 연구 데이터로 바꾸어 주기만 하면 성향점수분석을 해낼 수 있을 것이다.
주요 내용
이 책은 총 5개 장으로 구성되어 있다. ∙ 1장에서는 R과 R studio 설치 및 기본 설정에 대하여 소개하였다. R은 완전한 오픈소스로 CRAN(Comprehensive R Archive Network) 사이트에서 누구나 무료로 다운로드 받아서 사용할 수 있다. ∙ 2장에서는 데이터 다루기에 관한 내용을 설명하였다. R 프로그램은 무료일 뿐만 아니라 분석 도구라는 관점에서 R 프로그램의 특징을 기술하였으며, 테이터의 유형과 구조, 함수와 패키지, 데이터의 입력과 전처리에 대해서 전반적으로 소개하였다. ∙ 3장은 데이터 분석하기에 관한 내용으로 특정 통계 방법에 적합한 패키지에 속한 함수에 적절한 인자를 입력해서 실행한 다음 도출된 결과를 읽고 설명하는 것이다. 데이터의 요약 통계량, 정규성 검정, 두 집단의 평균비교(t-test), K(k≥3)개 집단의 평균비교(ANOVA), 범주형 변수 간의 관련성, 상관분석, 회귀분석, 로지스틱 회귀분석에 대해 소개하였다. ∙ 4장은 성향점수분석 이론을 다루었다. 성향점수분석은 보건의료 연구 관점에서는 용어와 개념이 달라서 이해의 어려움이 있으며, 관련 책들이 국내에 출시되어 있지만 학습 범위가 너무 넓어서 개념 정리가 어렵고 특히 보건의료에 적용하기에는 적합하지 않다. 그러므로 이 장에서는 보건의료데이터에 바로 적용할 수 있는 관찰연구와 무작위배정연구의 차이과 성향점수분석 심화에 대해 소개하였다. ∙ 5장은 성향점수분석 실습을 소개하였다. 데이터 불러오기는 방법과 Characteristics 파악하기, 성향점수 매칭과 성향점수 가중치에 관한 내용들을 전반적으로 기술하였다. ∙ 그리고 부록에서는 예제 데이터와 분석코드를 전체 실습과정으로 담고 있으며 해당 결과에 대한 자세한 해석을 체계적으로 설명하였다.
목차
1장 R과 R studio 설치 및 기본 설정 1.1 R의 설치 1.2 R studio의 설치와 기본 설정
2장 데이터 다루기 2.1 R 프로그램의 특징 2.2 데이터의 유형과 구조 2.3 함수와 패키지 1) 함수 2) 패키지 3) 함수 사용법 2.4 데이터의 입력과 전처리 1) 데이터 입력 2) 데이터 전처리
3장 데이터 분석하기 3.1 데이터 요약 통계량 1) 데이터 구조 파악 2) 데이터 시각화 3) 데이터 수치로 요약하기 3.2 정규성 검정 3.3 두 집단의 평균비교(t-test) 1) 독립된 두 집단 2) 대응표본 t-test 3) 시각화하기 3.4 K(k≥3)개 집단의 평균비교(ANOVA) 1) 데이터 살펴보기 2) 등분산성 검정 3) 분산분석(ANOVA) 3.5 범주형 변수 간의 관련성 1) Chi-square test(교차분석) 2) Fisher’s exact test and Yates’ correction 3.6 상관분석 1) Pair-wised correlation analysis 2) Partial-correlation analysis 3) 시각화하기 3.7 회귀분석 1) 단순회귀분석 2) 다중회귀분석 3.8 로지스틱 회귀분석 1) 단순 로지스틱 회귀분석 2) 다중 로지스틱 회귀분석
4장 성향점수분석 이론 4.1 관찰연구와 무작위배정연구의 차이 4.2 성향점수분석 심화 1) 성향점수 만들기 2) 성향점수분석의 가정 3) 성향점수 매칭 4) 성향점수 가중치 5) 성향점수 매칭 및 가중치 이후 분포 확인
5장 성향점수분석 실습 5.1 데이터 불러오기 5.2 Characteristics 파악 5.3 성향점수 매칭 1) 성향점수 만들기 2) 성향점수 매칭 방법 3) 성향점수 매칭 이후 분포 확인 4) 로지스틱 회귀분석 5.4 성향점수 가중치 1) 성향점수 만들기 2) IPTW와 SW 만들기 3) 성향점수 가중치 이후 분포 확인 4) 로지스틱 회귀분석 5) 생존분석