▢ 연구 배경
국내외 결핵 관련 자료 및 통합 자료를 활용한 연구를 살펴보면 국외의 경우 데이터 연계를 통해서 연구의 잠재력과 검정력을 높일 수 있게 되었고, 이를 통해 데이터들의 객관성 및 대표성을 갖출 수 있게 되었다.
이에 반해, 국내 사례에서는 국가 통계를 통합하여 결핵관련 연구를 수행한 사례가 매우 드물었다. 연계 시도가 있었지만, 현재는 개인정보보호법으로 수행이 불가하며, 결핵신고자료의 다양한 결핵관련 변수들의 통합연계가 이루어지지 못하는 실정이다. 최근 결핵신고자료를 활용한 다양한 연구가 시도되고 있으나 사회경제적위치 등의 변수 활용이 불가능하다는 점과 신고자료의 진단 및 치료내용이 실제 임상 현장을 반영하고 있는지에 대한 회의적 시각이 존재하고 있다. 그리고 현행 진료지침의 국내 근거 수준이 부족하다는 점이다. 기타 수많은 근거는 대부분 국외 연구이거나, 국내 단일병원 혹은 다기관연구의 결과가 근거로 활용되고 있다.
이에 따라 결핵신고자료와 국민건강보험공단 청구자료 연계를 통해 치료 및 진단지침의 준수현황과 지침 개정을 위한 근거창출의 시도가 필요하다.
그리고 역학적 현황 변화에 대한 대응이 필요하다는 점이다. 활동성 결핵 질병부담은 느리지만 지속적으로 감소하고 있으며 이와 동시에 잠복결핵 감염에 대한 적절한 관리의 중요성이 증가하고 있고, 비결핵항산균의 중요성이 동반하여 제기된다. 국내에서도 이러한 변화에 발맞추어 미래예측을 위한 연구 수행 필요성이 증가되고 있다. 또한, 결핵관리 주요지표에 대한 신뢰성을 향상시킬 수 있는 계기가 될 수 있으므로 각 자료원들의 연계를 진행할 필요가 있다.
▢ 연구 목적
본 연구는 결핵/비결핵항산균 국가 통계자료원의 자료연계를 통해 결핵관리 평가 지표 생산과 진료지침 근거 생산을 위한 기반을 구축하고자 한다.
▢ 연구 방법
Ⅰ. 결핵신고자료 분석 및 추출
결핵신고자료 분석을 위한 결핵 환자 분류 알고리즘 개발을 1차 2차에 걸쳐서 진행하였고, 이에 따른 2011년부터 2018년까지 연도별 코호트 구축 후 결핵신고자료를 통해 질병관리청이 매년 추출하는 연보환자 알고리즘과의 비교 및 최종 2차 알고리즘을 적용한 환자 구분과 치료결과 추출 진행하였다.
Ⅱ. 국민건강보험공단 청구자료 분석 및 추출
결핵사례 정의 분류를 위해 건강보험 청구자료 상병코드 ICD 코드를 기반으로 하여 결핵환자, 비결핵항산균 폐질환자 그리고 잠복결핵환자 사례정의를 실시하였고, 이 외에도 산정특례 특정 기호에 따라서도 사례정의를 실시하여 추출하였다. 그리고 결핵환자의 조작적 정의를 적용하여 연도별 코호트 구축 및 추출 진행하였다.
Ⅲ. 통계청 사망원인 자료 분석 및 추출
통계청 사망원인 확인을 위한 통계청 사망원인 자료를 국민건강보험공단 청구자료에서 사망으로 확인된 대상자의 사망원인 확인을 위한 자료를 추출하였다.
Ⅳ. 결핵신고자료, 국민건강보험공단 청구자료와 통계청 사망원인자료의 자료원 연계
결핵신고자료, 국민건강보험공단 청구자료와 통계청 사망원인 자료를 주민등록번호 기준으로 결합하여, 결핵, 비결핵항산균 폐질환, 다제내성 결핵에 따른 발병, 재치료 및 사망 원인 자료를 최종 연계하였다.
▢ 연구 결과
▢ 연구 결과
Ⅰ. 결핵신고자료 분석 및 추출
결핵신고자료 환자구분 및 치료결과 추출을 위해 1차·2차 알고리즘을 구축하였고, 그 결과 1차 알고리즘 구축은 질병청에서 실시하는 연보추출과 환자 수는 동일하였으나 환자구분에서 차이가 보였다. 2차 알고리즘의 경우 에피소드 개념을 추가하여 환자를 추출하였고, 신환자의 치료성공률과 재치료자의 치료성공률은 2016년까지 증가하다가 2017년부터는 약간 감소 추세가 보였다.
Ⅱ. 건강보험공단 청구자료 분석 및 추출
건강보험공단 청구자료는 상병코드와 산정특례기호에 기준한 환자 추출 진행하였고, 조작적 정의에 의해 결핵환자를 주·부상병 기호 또는 산정특례기호가 결핵인 경우 1단계, 1단계에 항결핵약제 2가지 이상 이거나 복합약제 1가지를 처방받은 경우를 2단계, 2단계에 처방일수가 최소 28일 이상인 경우 3단계로 지정하였고, 그 결과 총 환자 수는 1·2·3단계에서 모두 2006년부터 2018년까지 점차 감소하는 것으로 나타났다.
Ⅲ. 통계청 사망원인 자료 분석 및 추출
2006년부터 2018년까지 국민건강보험공단 청구자료에서 제공된 사망환자들의 전체 사망원인자료를 받았으며, 질병분류코드를 기준하여 제공받았다.
2006년부터 2018년까지의 청구자료에 의해 사망 환자는 530,128명이고, 이 중 사망원인이 확인된 환자는 최종 488,774명으로 결핵으로 인한 사망 환자는 26,956명으로 나타났다.
Ⅳ. 결핵신고자료, 건강보험공단 청구자료와 통계청 사망원인자료의 자료원 연계
2011년부터 2018년까지 결핵신고자료에 등록된 환자와 건강보험공단과의 일치 정도를 확인한 결과 1%에 해당되는 환자는 건강보험공단에 등록되지 않았다. 그리고 2018년도로 갈수록 결핵신고자료의 비일치율은 증가하다가 감소하였고, 국민건강보험공단 청구자료 비일치율은 점차 감소하였다. 두 자료원의 신고자료 기준으로 한 일치 정도는 2011년 90%에서 2018년 96%로 점차 증가하였고, 그리고 모든 연도에서 일치환자의 연령표준화 결핵 유병률과 사망률은 남성이 여성보다 더 높았고, 소득분위는 1분위(저소득)일수록 더 높게 나왔다.
▢ 결론 및 정책적 제언
결핵신고자료(연보)와 재구축한 코호트와의 비교결과 연도별 전체환자 규모의 격차가 93-97% 수준을 유지하였고, 상대적으로 신환자의 경우 97-99%의 미세한 차이를 보였다. 또한 알고리즘을 재구성하여 산출된 치료성공률의 경우 2011년 이후 개선되는 경향으로 나타나다가 2015년을 기점으로 감소하는 추세의 양상이 나타났다. 최종적으로 개별 자료원의 연계를 진행하였고, 그 결과 결핵신고자료에만 존재하는 환자가 매년 비슷한 수치로 나타났고, 국내국적 소지자의 비율이 2%대로 감소하여 연계된 자료원 사이에서 내국인의 결핵신고현황 분석 과정에서 발생가능한 불일치 및 오류 상당부분 제거되었음을 확인할 수 있었다. 한계로는 외국인 현황이 누락되어 선택바이어스에서 자유로울 수 없다는 점을 확인할 수 있었다.
그러나 연계된 자료를 활용한 다양한 진단, 치료 정책의 변화에 대한 효과 분석 및 근거창출이 가능한 기반을 조성했다는 점에서 의의가 있다. 특히, 국가결핵관리정책의 측면에서 결핵관리지표(치료성공률 등)가 낮은 지역, 집단, 계층을 확인하고, 이에 대한 중재전략을 개발하기 위한 근거로 활용가능하다. 또한, 진단법의 개선 및 신약 확대 보급 등 변화하는 결핵진료환경에 대한 성과 평가 등의 연구를 통해 임상현장이 필요로 하는 근거생산에도 활용가능하다.
주요어
결핵(Tuberculosis), 빅데이터(Bigdata)
▢ Background
When reviewing Korean and foreign research with tuberculosis (TB) related data and integrated data, foreign research enhanced the potential and the power of research through data linkage, leading to show the objectivity and representativeness of the nation.
On the other hand, Korean research with data linkage were very rare in Korea. Several attempts have made to merge data from different TB data sets. However, Privacy Act does not allow to do that in Korea. In addition, there has been no linkage of various TB-related variables in different TB data sets. Recently, various studies using TB data have been attempted, but there is a skepticism about the fact that variables of socio-economic status cannot be utilized and whether the diagnosis and treatment contents of the notified data reflect actual clinical sites. In addition, the evidence level on Korean clinical guidelines is insufficient; numerous evidence of Korean medical guidelines are from study findings in foreign nations, whereas little evidence of them is from single hospital-based or multicenter trial-based study findings in Korea.
Accordingly, it is necessary to attempt to create evidence for revision of the guidelines and the status of compliance with the treatment and diagnosis guidelines by linking the TB notified data to Health Insurance Service claim data
Additionally, it is necessary to respond to changes in the epidemiological situation. The burden of active tuberculosis disease has been reduced slowly and continuously. At the same time, the importance of proper management of latent tuberculosis infection has been increasing, and the importance of non-TB mycobacterium has been raised. In line with these changes in Korea, the need for future-prediction research has been increasing. In addition, as it can be an opportunity to improve the reliability of the major indicators of tuberculosis management, it is necessary to link each data source.
▢ Objective
This study aims to create evidence for development of TB management evaluation indicators and treatment guidelines by linkage of national statistical data sets of TB/Non-Tuberculosis Mycobacterium.
▢ Methods
Ⅰ. Analysis and extraction of TB report data
Algorithms for classifications of TB patient were developed and implemented twice to analyze the TB notification data. Accordingly, after establishing TB cohorts from 2011 year to 2018 year, staffs at the Korea Disease Control and Prevention Agency extracted and classified TB related data annually from the cohort by applying algorithms. After that, the classified TB patient data in the cohort were compared with the TB patient data from the annual TB patient report in terms of the number of patient classified into two categories. Next, to modify data extraction in the first round, the 2nd algorithms including continuity of treatment were developed and applied to extract the TB patients data from the cohort. Last, the classified TB patient data after the extracted data were compared data from the annual TB patient report.
Ⅱ. Analysis and extraction of Health Insurance Service claim data
After case definitions for TB patients, non-TB mycobacterium pulmonary disease patients, and latent TB patients were established based on the ICD code in Health Insurance Service claim data. Besides, the specific code of special calculations of self-payment was applied to construct case definitions to classify the definition of TB cases. Then, the defined data were extracted by implementing algorithms. Additionally, after cohort was established, TB related data were explained with operational definitions. The defined data were extracted by executing algorithms.
Ⅲ. Analysis and extraction of cause of death data from Statistics Korea
The data on death causes of the deceased patients from Health Insurance Service claim data were extracted to identify the cause of death data from Statistics Korea.
IV. Data linkage of TB notified data, health insurance service claim data, and death cause data from Statistics Korea
Three data sets such as TB report, Health Insurance Service claim data, and death-cause data from Statistics Korea were merged according to resident registration numbers. Next, the data set were classified and organized by the onset, retreatment, and cause of death, in addition to TB, non-TB mycobacterial lung disease, and multidrug-resistant TB.
▢ Results
I . Analysis and extraction of TB report data
Three data sets such as TB report, Health Insurance Service claim data, and death-cause data from Statistics Korea were merged according to resident registration numbers. Next, the data set were classified and organized by the onset, retreatment, and cause of death, in addition to TB, non-TB mycobacterial lung disease, and multidrug-resistant TB.
Ⅱ . Analysis and extraction of the claim data of Health Insurance Service
The claim data from Health Insurance service were extracted by disease codes and specific codes for special cases for calculating self-payment. According to operational definition, the following 3 steps are defined: step 1 in case of tuberculosis patient's major and subsidiary injury/disease code or special calculation code, step2 In case of having two or more anti-tuberculosis drugs or one combination drug in step 1, step 3 If the number of prescription days is at least 28 days in step 2. As a result, the total number of patients in all stages 1, 2 and 3 had been gradually decreased from 2006 year to 2018 year.
Ⅲ . Analysis and extraction of cause of death data from Statistics Korea
National Health Insurance Service claim data provided all the cause of death data of the deceased patients from 2006 year to 2018 year. The data were given according to the Classification of Disease code.
According to the claim data from 2006 to 2018, the number of deceased patents is 530,128. The final cause of death identified among them are 488,774 and the number of patients died from TB is 26,956.
Ⅳ. Data linkage of TB report data, claim data of Health Insurance Service, and death cause data from Statics Korea
When comparison between the TB notification data (annual report) and the reconstructed cohort, the gap in the number of total patient per year was maintained at 93%-97%, and relatively minor differences were found in the case of new patients, 97%-99%. In addition, the treatment success rate calculated by remodifying the algorithm showed a tendency to improve after 2011 and then to decrease from 2015. Eventually, individual data sets were linked, and as a result, the number of patients only in tuberculosis notification data showed a similar number every year, and the proportion of Korean nationality holders decreased to 2%. Among the linked data sets, it was confirmed that many of the inconsistencies and errors that could occur in the process of analyzing the status of Koreans reporting TB were eliminated. As a limitation, the status of foreigners' TB infection is omitting, so the result cannot be free from selection bias.
However, it is significant in that it laid the foundation for various diagnosis, analysis of effects of changes in treatment policies, and creation of evidence by using linked data sets.
▢ Conclusions
As a result of comparing between the tuberculosis report data (annual report) and the reconstructed cohort, the gap in total patient size by year was maintained at 93%-97%, and relatively minor differences were found in the case of new patients, 97%-99%. In addition, the treatment success rate calculated by reorganizing the algorithm showed a tendency to improve after 2011 and then to decrease from 2015. Eventually, individual data sets were linked, and as a result, the number of patients only in tuberculosis report data showed a similar number every year, and the proportion of domestic nationality holders decreased to 2%. Among the linked data sets, it was confirmed that many of the inconsistencies and errors that could occur in the process of analyzing the status of Koreans reporting tuberculosis were eliminated. As a limitation, the status of foreigners' TB infection is omitting, so the result cannot be free from selection bias.
However, it is significant in that it laid the foundation for various diagnosis, analysis of effects on changes in treatment policies, and creation of evidence by using linked data sets.
▢ Acknowledgement
This Research was supported by National Evidence-based Healthcare Collaborating Agency(NECA) funded by the Ministry of Health and welfare(grant number NA20-003).
Key words
Tuberculosis, Bigdata