평가 배경
체온열검사(thermography)는 인체의 체표면에서 발산되는 눈에 보이지 않는 열을 감지하여 이를 등고선 모양의 체열 지도로 나타내어 신체의 이상부위를 진단하는 방법이다. 우리 인체의 피부 열은 피부 조직, 내부 조직, 국소적 혈액순환, 대사활동과 우리 인체의 항상성을 유지하기 위해 활동하는 교감 및 부교감 신경의 균형 작용과 관련된 복잡한 열의 교환 과정에서 결정되기 때문에, 체온열검사는 국소적인 온도 하강 또는 온도 상승 등의 체열분포와 의학적 질병의 진단에 유용한 객관적이고 비침습적인 검사방법이 될 수 있다.
체온열검사는 현재 「건강보험요양급여비용」 목록에 비급여(노-776)로 등재되어 있으며, 건강보험심사평가원 홈페이지 확인 결과, 구체적인 행위정위는 확인되지 않으나, ‘근골격계 또는 척추질환 등의 통증으로 인한 병태 생리현상을 진단하기 위하여 인체에서 생성되는 열의 분포에 따른 체온의 차이를 비교 분석하는 검사방법’으로 기재되어 있다.
동 검사는 신의료기술평가제도가 확립되기 전인 2004년 보건복지부 고시 제2004-89호(2004.12.29.)에 의해 비급여로 등재된 기술로, 건강보험심사평가원 예비급여부에서 해당 기술의 급여 적용 타당성 판단 등 의사결정에 필요한 근거자료를 도출하기 위해 해당 행위의 재평가를 본원에 의뢰하였다(예비급여부-265, 2021.03.23.). 이에 심층 검토를 통해 해당 기술의 임상적 안전성 및 효과성을 확인하고자 재평가를 수행하였다.
평가 방법
체온열검사에 대한 안전성 및 효과성 평가를 수행하였다. 다만, 체온열검사는 비침습적인 방법으로, 인체에서 방출되는 적외선을 감지하여 영상화함으로써 방사선 노출 없이 반복적인 사용이 가능한 안전한 검사라는 소위원회 의견이었다. 이에 체계적 문헌고찰을 통한 문헌적 근거의 검토는 안전성에 대해서는 검토하지 않았고, 임상적 효과성을 중점으로 평가하였다.
모든 평가방법은 평가목적을 고려하여 “체온열검사 소위원회(이하 ‘소위원회’라 한다)”의 심의를 거쳐 확정하였다. 소위원회는 마취통증의학과 2인, 신경외과 2인, 정형외과 2인, 재활의학과 2인, 근거기반의학 2인의 전문가 10인으로 구성하였다.
평가의 핵심질문은 ”복합부위통증증후군, 신경병증성 통증, 말초혈관질환(레이노증후군 포함) 환자, 근골격계 또는 척추질환 등의 통증에서 시행한 체온열검사는 임상적으로 유용한가?”이었고, 임상증상과의 상관성, 비교검사와의 상관성, 진단정확성, 임상적 유용성을 지표로 평가하였다.
체계적 문헌고찰은 핵심질문을 토대로 국외 3개, 국내 5개 데이터베이스에서 검색하였으며, 문헌 선정과정은 문헌선택 및 배제기준에 따라 2명의 평가자가 독립적으로 수행하고, 의견의 불일치가 있는 경우에는 평가자간 합의를 통해 최종 논문을 결정하였다. 문헌의 비뚤림 위험 평가는 Quality Assessment of Diagnostic Accuracy Studies-2 (QUADAS-2)를 사용하여 평가하였으며, 최종 선택된 문헌을 대상으로 2명의 평가자가 독립적으로 평가를 실시하였으며, 의견이 불일치한 경우 평가자간 합의를 통해 일치된 결과를 도출하였다. 평가 결과를 토대로 의료기술재평가위원회에서 권고등급을 결정하였다.
평가 결과
본 평가에 최종 선택된 문헌은 총 90편이었다. 체온열검사 평가에 포함된 문헌의 대상 질환은 크게 4개 그룹으로 구분되었다. 첫째, 복합부위통증증후군 관련 문헌이 16편, 둘째, 신경병증성 통증 21편, 셋째, 말초혈관질환 16편, 넷째, 근골격계 또는 척추질환 등의 통증 37편이었다. 체온열검사의 효과성 결과에 대해 질환별로 임상증상과의 상관성, 비교검사와의 상관성, 진단정확성, 임상적 유용성을 각각 검토하였다. 참고로, 임상적 유용성은 모든 질환에서 보고되지 않았다.
효과성
첫째, 복합부위통증증후군 관련 문헌은 16편이 선택되었다. 임상증상과의 상관성을 보고한 문헌은 4편, 비교검사와의 상관성을 보고한 문헌은 1편, 진단정확성을 보고한 문헌은 13편이었다.
1) 복합부위통증증후군 관련 문헌 중 체온열검사와 임상증상과의 상관성을 보고한 문헌은 3편이었다. 2편의 연구에서는 환자군과 대조군 간 양 손의 온도 차이가 통계적으로 유의하게 달랐다. 반면, 다른 1편의 연구에서는 환자군과 대조군 비교 시, 임상적 진단기준 상 증상이 경미한 경우(phase 1) 완관절과 수배부 모두에서 통계적으로 유의한 차이를 확인하였으나, 증상이 심한 경우(phase 2-3)에는 완관절에서만 유의한 차이를 나타내어 부분적으로만 유의한 결과를 보고하였다.
2) 복합부위통증증후군 관련 문헌 중 체온열검사와 비교검사와의 상관성을 보고한 문헌은 1편이었다. 1편의 연구에서 환측과 건측의 체온 차이의 변화량은 통증(VAS 점수)의 변화량은 스피어만 상관계수(Spearman’s rho)가 0.066 (p=0.677)로 확인되어 복합부위통증증후군 환자의 주관적 통증 정도를 반영하지 못하는 것으로 보고하였다.
3) 복합부위통증증후군 관련 진단정확도를 보고한 연구는 14편이었다. 해당 연구들에서 보고한 진단정확도는 측정변수 및 판독기준이 다양하여, 양적 합성은 불가능하였다. 13편의 연구에서 보고된 진단정확도는 민감도 29-95.7%, 특이도 38-93.3%, 양성예측도 17-100%, 음성예측도 43-90%으로 범위가 넓었다. 개별 연구별로, 80% 이상의 높은 민감도를 제시한 연구는 5편(38.5%), 80% 이상의 높은 특이도를 제시한 연구는 4편(30.8%)에 해당하였다. 나머지 1편에서는 AUC값만 보고하였으며, 이환 부위와 이환되지 않은 부위의 체온 차이의 절대값의 AUC값은 0.746인 것으로 보고되었다.
둘째, 신경병증성 통증 관련 문헌은 총 21편이 선택되었다. 신경병증성 통증 관련 문헌을 세부 분류하면, 수근관증후군 8편, 당뇨병성 신경병증성 통증 7편, 대상포진 후 신경통 4편, 기타 신경병증 2편이었다.
① 신경병증성 통증의 세부 질환인 수근관증후군 관련 문헌은 8편이었다.
1) 수근관증후군 관련 문헌 중 임상증상과의 상관성을 보고한 문헌은 6편이었다. 4편의 연구에서 환자군과 대조군 또는 환측과 건측 간 비교 시 체표면 온도가 통계적으로 유의한 차이를 보고하였다. 반면, 나머지 2편의 연구에서는 환자군과 대조군 또는 환측과 건측 간 비교 시 체표면 온도의 차이가 통계적으로 유의하지 않은 양상을 나타내었다.
2) 수근관증후군 관련 문헌 중 비교검사와의 상관성을 보고한 문헌은 1편이었다. 1편의 연구에서 체온열검사는 전기진단검사와 비교 시, 감각신경 활동전위의 amplitude, 운동신경 활동전위 latency 결과에서만 유의한 상관성을 보였으며, 그 외 지표들에서는 유의한 상관성을 나타내지 않아, 전기진단검사의 일부에서만 상관관계가 있음을 확인하였다.
3) 수근관증후군 관련 문헌 중 진단정확성을 보고한 문헌은 5편이었다. 해당 연구들에서 보고한 진단정확도는 측정변수 및 판독기준이 다양하여, 양적 합성은 불가능하였다. 전체 연구에서 보고한 진단정확도는 민감도 25-94%, 특이도 43-98%로 범위가 넓었다. 개별 연구별로, 80% 이상의 높은 민감도를 제시한 연구는 3편(60%), 80% 이상의 높은 특이도를 제시한 연구가 3편(60%)에 해당하였다.
② 신경병증성 통증의 세부 질환인 당뇨병성 신경병증성 통증 관련 문헌은 7편이었다.
1) 당뇨병성 신경병증성 통증 관련 문헌 중 임상증상과의 상관성을 보고한 문헌은 5편이었다. 4편의 연구에서 환자군과 대조군 비교 시 측정부위의 온도가 통계적으로 유의한 차이를 나타내었다. 다른 1편의 연구에서는 환자군과 대조군 비교 시 측정부위에 따라 하지의 전면과 후면의 평균 온도는 모두 통계적으로 유의한 차이를 보였으나, 좌측과 우측의 온도 차이는 환자군과 대조군 간 유의한 차이가 없는 것으로 나타나, 부분적으로만 유의한 결과를 보고하였다.
2) 당뇨병성 신경병증성 통증 관련 문헌 중 비교검사와의 상관성을 보고한 문헌은 1편이었다. 체온열검사 상 평균 발의 온도와 진동감각역치검사 간 양의 상관관계를 보이는 것으로 확인되었다.
3) 당뇨병성 신경병증성 통증 관련 문헌 중 진단정확성을 보고한 문헌은 2편이었다. 해당 연구들에서 보고한 진단정확도는 측정변수 및 판독기준이 다양하여, 양적 합성은 불가능하였다. 1편의 연구에서는 체온열검사(DITI) 단독 시행한 경우, 민감도 88.9%, 특이도 77.8%, 양성예측도 80%, 음성예측도 87.5%이고, 전류지각역치검사(current perception threshold) 검사와 체온열검사를 병용하여 실시하는 경우 민감도 100%, 특이도 55.6%, 양성예측도 39.2%, 음성예측도 100%인 것으로 확인되었다. 또한, 다른 1편의 연구에서는 체온열검사와 전기생리검사의 민감도, 특이도를 비교하였으며, 체온열검사는 민감도 100%, 특이도 71.4%, 전기생리검사 민감도 100%, 특이도 57.1%로, 전기생리검사에 비해 특이도가 높다고 보고하였다.
③ 신경병증성 통증의 세부 질환인 대상포진 후 신경통 관련 문헌은 4편이었다.
1) 대상포진 후 신경통 관련 문헌 중 임상증상과의 상관성을 보고한 문헌은 4편이었다. 3편의 연구에서 환자군과 대조군 비교 시 환측과 건측 간 최대 온도 차이가 통계적으로 유의하였다고 보고하였다. 다른 1편의 연구에서는 로지스틱 회귀분석 결과 환측과 건측 간 온도 차이는 대상포진 후 신경통 발생과 관련이 없다고 보고하였다(p>0.05).
2) 대상포진 후 신경통 관련 문헌 중 비교검사와의 상관성을 보고한 문헌은 0편이었다.
3) 대상포진 후 신경통 관련 문헌 중 진단정확성을 보고한 문헌은 0편이었다.
④ 신경병증성 통증의 세부 질환인 기타 신경병증 관련 문헌은 2편이었다.
1) 기타 신경병증 관련 문헌 중 임상증상과의 상관성을 보고한 문헌은 1편이었다. 1편의 연구에서 척골 신경병증 환자를 대상으로 환측과 건측의 관심 영역에서의 체온 차이를 비교 시, 축삭손상군에서는 모든 부위에서 의미 있는 차이를 보였으나, 탈수초군에서는 대조군과 비교 시 유의한 차이는 나타내지 않아 부분적으로만 유의한 결과를 확인하였다.
2) 기타 신경병증 관련 문헌 중 비교검사와의 상관성을 보고한 문헌은 1편이었다. 1편의 연구에서 체온열검사와 교감신경피부반응검사 간에 57.1%의 일치도를 보고하였다.
3) 척골신경병증 관련 문헌 중 진단정확성을 보고한 문헌은 1편이었다. 1편의 연구에서 보고한 진단정확도는 부위별로 민감도 53-67%, 특이도 89-100%, 양성예측도 80-100%, 음성예측도 64-78%였으며, 손등요골부에서의 민감도 67%, 특이도 100%로 가장 의미 있는 측정 부위로 제시하였다.
셋째, 말초혈관질환 관련 문헌은 총 16편이 선택되었다. 말초혈관질환 관련 문헌을 세부 분류하면, 레이노현상 6편, 레이노현상을 제외한 말초혈관질환 10편이었다.
① 말초혈관질환의 세부 질환인 레이노현상 관련 문헌은 6편이었다.
1) 레이노현상 관련 문헌 중 임상증상과의 상관성을 보고한 문헌은 5편이었다. 5편의 연구에서 모두 환자군과 대조군 비교 시 ‘온도 차이’ 또는 ‘손 또는 손가락의 평균 온도’가 통계적으로 유의한 차이를 나타내었다.
2) 레이노현상 관련 문헌 중 비교검사와의 상관성을 보고한 문헌은 1편이었다. 1편의 연구에서 체온열검사와 레이져 혈류계 검사와 비교 시 스피어만 상관계수(Spearman’s rho)가 0.742-0.868 (p<0.0001)로 유의한 상관관계를 나타내었다.
3) 레이노현상 관련 문헌 중 진단정확성을 보고한 문헌은 3편이었다. 1편의 연구에서 측정변수에 따라 AUC값을 0.72-0.88로 제시하여, 체온열검사가 레이노현상 환자를 효과적으로 구별한다고 제시하였다. 진단정확도를 제시한 연구 중 1편의 연구에서는 여러 측정변수 중 가장 차가운 손가락과 첫 번째 발가락에서의 체온열검사 측정(오른쪽/왼쪽)이 민감도 88%/90%, 특이도 44%/45%로 레이노현상 진단에 유용하다고 보고하였으며, 다른 1편에서도 냉부하 체온열검사의 진단정확도가 높은 것으로 확인되었다.
② 레이노현상을 제외한 말초혈관질환 관련 문헌은 10편이었다.
1) 말초혈관질환 관련 문헌 중 임상증상과의 상관성을 보고한 문헌은 7편이었다. 4편의 연구에서 환자군과 대조군 비교 시 측정부위의 온도가 통계적으로 유의한 차이를 나타내었다. 다른 2편의 연구에서는 환자군과 대조군 비교 시 측정변수 또는 폐색 유무에 따라 부분적으로만 유의한 결과를 보고하였다. 나머지 1편의 연구에서는 체온열검사 상 시술 전후 온도 변화에 대해 환측과 건측 비교 시, 통계적으로 유의한 차이가 없었다고 보고하였다.
2) 말초혈관질환 관련 문헌 중 비교검사와의 상관성을 보고한 문헌은 3편이었다. 발목상완지수(ankle brachial index)와 비교한 연구는 3편이었으며, 이 중 2편에서는 유의한 관련성이 있음이 확인되었으며, 나머지 1편에서는 석회성 동맥에서는 관련성이 없었으나, 비석회성 동맥에서는 상관계수 0.7로 강한 상관성을 보여, 부분적으로 유의한 결과를 확인하였다.
3) 말초혈관질환 관련 문헌 중 진단정확성을 보고한 문헌은 2편이었다. 1편의 연구에서 보고한 진단정확성은 민감도 98.3%, 특이도 100%, 양성예측도 100%, 음성예측도 88.5%였으며, 다른 1편에서 보고한 진단정확성은 민감도 88.3%, 특이도 65.0%, 양성예측도 65.4%, 음성예측도 88.1%이었다.
넷째, 근골격계 또는 척추질환 등의 통증 관련 문헌은 37편이 선택되었다. 임상증상과의 상관성을 보고한 문헌은 23편, 비교검사와의 상관성을 보고한 문헌은 16편, 진단정확성을 보고한 문헌은 10편이었다.
1) 근골격계 또는 척추질환 등의 통증 관련 문헌 중 임상증상과의 상관성을 보고한 문헌은 24편이었다. 해당 대상군에서의 ‘임상증상과의 상관성’은 크게 (ⅰ) 환자군과 대조군 간 비교 결과와 (ⅱ) 임상증상과의 일치율을 보고한 경우로 구분되었다. (ⅰ) 환자군과 대조군 간 비교 결과는 총 11편의 연구에서 보고되었다. 9편의 연구에서 환자군과 대조군 간 통계적으로 유의한 차이를 보고하였다. 만성 요통 환자를 대상으로 했던 1편의 연구에서는 측정 부위 중 발바닥 부위 온도에서만 유의한 차이를 보고하여, 부분적으로 유의한 결과를 보고하였다. 나머지 1편의 연구에서만 환측과 건측 간 온도 차이가 유의하지 않은 것으로 보고하였다. (ⅱ) 임상증상과의 일치율을 보고한 결과는 총 13편의 연구에서 보고되었다. 7편의 연구에서는 90% 이상의 높은 일치율을 보고하였으며, 나머지 6편에서는 다소 낮은 일치율을 보고하였다.
2) 근골격계 또는 척추질환 등의 통증 관련 문헌 중 비교검사와의 상관성을 보고한 문헌은 17편이었다. 이 중 비교검사에 따라 살펴보면, 통증과 비교한 연구는 13편이었다(VAS 점수 11편, PPT [pressure pain threshold] 2편). 이 중 11편의 연구에서는 상관관계가 유의한 것으로, 나머지 2편의 연구에서는 관련성이 유의하지 않은 것으로 보고하였다. 추간판조영술 또는 척수조영술과 비교한 연구는 4편으로, 79.1-95%의 연관성을 보고하였다. 전산화단층촬영검사와 비교한 연구는 2편으로 78.5%와 78.8%의 일치도를 보고하였다. 자기공명영상과 비교한 연구는 1편으로 87.0%의 일치도를 보고하였다.
3) 근골격계 또는 척추질환 등의 통증 관련 진단정확도를 보고한 연구는 9편이었다. 해당 연구들에서 보고한 진단정확도는 측정변수 및 판독기준이 다양하여, 양적 합성은 불가능하였다. 전체 연구에서 보고한 진단정확도는 민감도 63.4-100%, 특이도 57.1-100%, 양성예측도 20-100%, 음성예측도 32.6-68.3%로 범위가 넓었다. 개별연구별로, 80% 이상의 높은 민감도를 제시한 연구는 4편(44.4%), 80% 이상의 높은 특이도를 제시했던 연구는 4편(44.4%)에 해당하였다.
추가로, 결론 도출에 앞서 소위원회에서 검토된 사항은 다음과 같다.
첫째, 체온열검사는 특정 질환의 진단이 아닌 특정 병태생리 현상을 확인하는 검사로 임상에서 진단 목적이 아닌 보조적인 검사로 사용되고 있다. 따라서 ‘임상증상과의 상관성’ 수준의 결과를 중심으로 판단하는 것이 타당하다는 의견이었다. 또한, 일부 문헌들에서 민감도, 특이도와 같은 ‘진단정확도’를 보고하고 있으나, 이는 특정 이상상태(통증 등)를 확인한다는 차원에서의 정확도를 의미하는 것으로 ‘임상증상과의 상관성’ 수준의 결과의 범주 내에서 체온열검사가 검토되어야 한다는 의견이었다.
둘째, 체온열검사는 아직까지 검사의 측정변수 및 판단기준(임계값)이 불명확하여, 검사의 표준화가 부족하다는 문제가 존재하였다. 그러나, 소위원회에서는 체온열검사를 필요로 하는 질환들의 특성 상 판단기준(임계값)이 다양할 수밖에 없다는 의견이며, 다만, 임계값의 다양한 정도는 일정 범위 내에서 유사한 수준임을 확인하였다.
셋째, 연구방법론 상 질(quality)이 높은 연구가 부족하였다. 평가에 포함된 연구들은 문헌의 비뚤림 위험 평가에서 대부분 비뚤림 위험이 ‘높음’ 또는 ‘불확실’로 평가되었다. 대부분의 연구에서 ‘환자’와 ‘정상 대조군’의 결과 차이를 비교하고 있었으며, 실제 임상현장에서 접하게 되는 ‘의심 환자’를 대상으로 하는 연구는 거의 확인되지 않았다.
넷째, 대부분 소규모 연구에서 도출된 결과를 근거로 하였다.
다섯째, 다수의 연구에서 임상증상과의 관련성이 있다고 제시하고 있으나, 관련성이 없다고 보고된 연구도 일부 확인되고 있어 일차연구들에서의 결과가 일관되지 않았다.
결론 및 제언
소위원회에서는 현재 평가결과에 근거할 때 질환분류별 결론의 차이가 크지 않을 것으로 판단하여 다음과 같이 제언하였다.
체온열검사는 아직까지 검사의 표준화가 부족하고, 질 높은 연구가 제한적이며, 대부분 소규모 연구로서 그 결과들이 일관되지 않았다. 그러나 소위원회에서는 다수의 연구에서 체온열검사와 임상증상과의 관련성을 제시하고 있어, 검사의 특성 고려 시, 체온열검사가 병태생리 현상을 객관적으로 확인하기 위한 보조적 검사로 잠재적인 가능성이 있다고 평가하였다. 다만, 체온열검사의 임상적 가치를 명확하게 하기 위해서는 질 높은 추가 연구가 필요하다는 의견이었다. 소수의견(1인)으로, 복합부위통증증후군(객관적인 검사가 부족한 경우)과 레이노현상(질병의 특성 상 피부로의 혈류변화에 의한 체온의 변화가 직접적인 병태와 연관된 경우)을 제외한 다른 질환에 대해서는 체온열검사를 임상 현장에서 사용하기에는 아직까지 근거가 부족하다는 의견이었다.
2022년 제4차 의료기술재평가위원회(2022.04.15.)에서는 소위원회 검토 결과에 근거하여 의료기술재평가사업 관리지침 제4조제10항에 의거 “체온열검사”에 대해 다음과 같이 심의하였다.
체온열검사 관련 문헌적 근거 및 동 검사의 무분별한 사용을 우려하여 체온열검사를 복합부위통증증후군과 레이노현상에서만 사용하는 것에 대해 ‘조건부 권고함’으로 심의하였다.
주요어
체온열검사, 적외선 체열촬영, 복합부위통증증후군, 레이노현상
Thermography, Infrared thermography, Complex regional pain syndrome, Raynaud’s phenomenon
Thermography
Background
Thermography is a method of diagnosing abnormalities in the body by detecting the invisible heat radiating from the body surface and displaying it as a contour map of body heat. The body’s skin heat is determined by a complex heat exchange process involving skin tissue, internal tissues, local blood circulation, metabolic activity, and the balancing act of sympathetic and parasympathetic nerves that work for the maintenance of homeostasis in the body. Thus, thermography can be a useful objective and non-invasive method to assess body heat distribution and diagnose medical conditions, such as localized temperature drops or increases.
Currently, thermography is classified as a non-benefit (No. 776) item within the category of “Health Insurance Medical Treatment Benefits.” The Health Insurance Review & Assessment Service (HIRA) website describes thermography as “a diagnostic method that compares and analyzes body temperature differences according to heat distribution within the human body to diagnose pathophysiological phenomena caused by pain, such as musculoskeletal or spinal diseases.”
This test was listed as a non-benefit technology by the Ministry of Health and Welfare's Notification No. 2004-89 (December 29, 2004) before the establishment of the New Health Technology Assessment System. The HIRA Preliminary Benefits Department requested a reassessment of the test to derive evidence necessary for decision-making, including determining the appropriateness of applying the technology to benefits (Preliminary Benefits Department-265, March 23, 2021). This led to an in-depth review and re-assessment of the technology to confirm its clinical safety and effectiveness.
Method
A safety and effectiveness assessment of thermography was conducted. The subcommittee determined that thermography is a safe and non-invasive diagnostic technique that can be employed repeatedly without radiation exposure by detecting and imaging infrared light emitted by the human body. The systematic review of evidence did not examine safety but focused on clinical effectiveness.
All assessment methods were finalized after discussions with the “Subcommittee for Thermography” (hereinafter referred to as the “Subcommittee”) based on of the objective of the assessment. The Subcommittee comprised 10 experts: two from anesthesiology and pain medicine, two from neurosurgery, two from orthopedics, two from rehabilitation, and two from evidence-based medicine.
The key question of the assessment was “Is thermography clinically useful for assessing pain in patients with complex regional pain syndrome (CRPS), neuropathic pain, peripheral arterial disease (PAD) (including Raynaud's syndrome), and musculoskeletal or spinal disorders?” The assessment was conducted in accordance with the following criteria: correlation with clinical symptoms, correlation with comparator tests, diagnostic accuracy, and clinical utility.
Based on the key question, literature searches were conducted in three international and five Korean databases. The study selection was conducted independently by two reviewers according to the inclusion and exclusion criteria. Disagreements were resolved through discussions. The risk of bias was evaluated using the Quality Assessment of Diagnostic Accuracy Studies-2, which was assessed independently by two reviewers for the selected studies, and any disagreements were resolved through a consensus. The Health Technology Reassessment Committee determined the level of recommendation based on the assessment results.
Results
A total of 90 studies were finally selected for this assessment. The conditions targeted in the literature included in this assessment were divided into four main groups: 16 studies focused on CRPS, 21 on neuropathic pain, 16 on PAD, and 37 on musculoskeletal or spinal pain. The results of the efficacy of thermography were reviewed for correlation with clinical symptoms, correlation with comparator tests, diagnostic accuracy, and clinical utility by disease. Of note, the clinical utility of thermography was been reported for all conditions.
Effectiveness
First, 16 the studies on CRPS were selected. Four studies reported correlation with clinical symptoms, one study reported correlation with comparator tests, and 13 studies reported diagnostic accuracy.
1) Of the studies on CRPS, three reported a correlation between thermography and clinical symptoms. Two studies revealed statistically significant differences in the temperature of both hands between the patient and control groups. However, another study compared the patient and control groups and reported statistically significant differences in both the wrist and hand dorsum in milder cases (phase 1), but only partially significant results in more severe cases (phases 2–3), with significant differences in the wrist only.
2) Of the studies on CRPS, one reported a correlation between thermography and comparator tests. One study reported that the change in temperature difference between the ipsilateral and contralateral sides did not reflect the change in pain (Visual Analog Scale [VAS] score), with a Spearman's rho of 0.066 (p=0.677).
3) Overall, 14 studies reported diagnostic accuracy for CRPS. However, this diagnostic accuracy varied in terms of measurement variables and reading criteria, rendering a quantitative synthesis impossible. The diagnostic accuracy reported in 13 studies varied widely, with a sensitivity ranging from 29–95.7%, specificity from 38–93.3%, positive predictive value from 17–100%, and negative predictive value from 43-90%. Of these, five studies (38.5%) reported a high sensitivity of 80% or higher and four (30.8%) reported a high specificity of 80% or higher. The remaining study reported only an AUC value of 0.746 for the difference in body temperature between the affected and unaffected sites.
Second, a total of 21 studies on neuropathic pain were selected and further categorized into eight on carpal tunnel syndrome, seven on diabetic neuropathic pain, four on postherpetic neuralgia (PHN), and two on other neuropathies.
① Eight studies focused on carpal tunnel syndrome as a subcategory of neuropathic pain.
1) Among these studies, six reported a correlation with clinical symptoms. Four studies reported statistically significant differences in body surface temperature between the patient and control groups or between the ipsilateral and contralateral sides. Conversely, the remaining two articles found no statistically significant differences in the body surface temperature between the patient and control groups or between the ipsilateral and contralateral sides.
2) Of the articles on carpal tunnel syndrome, one reported a correlation with comparator tests. Furthermore, one study revealed that thermography had a significant correlation with sensory nerve action potential amplitudes and motor nerve action potential latency when compared to electrodiagnostic testing, but not with other indicators, confirming that thermography was only partially correlated with electrodiagnostic testing.
3) Of the articles on carpal tunnel syndrome, five reported diagnostic accuracy; however, variations in terms of measurement variables and reading criteria prevented a quantitative synthesis. Sensitivity ranging from 25–94% and specificity from 43–98%. Three studies (60%) reported a high sensitivity of 80% or higher, and three (60%) reported a high specificity of 80% or higher.
② Seven studies focused on diabetic neuropathic pain as a subcategory of neuropathic pain.
1) Of these studies, five reported a correlation with clinical symptoms. Four studies reported statistically significant differences in temperature at the measurement site between the patient and control groups. The other study revealed a statistically significant difference in the mean temperature of both the front and back of the lower extremity depending on the measurement site when comparing the patient and control groups; however, the temperature difference between the left and right sides was not significant between the patient and control groups, reporting only partially significant results.
2) Of the studies on diabetic neuropathic pain, one reported a correlation with comparator tests. A positive correlation was identified between the average foot temperature, as determined by thermography, and the vibration sensitivity threshold test.
3) Of the studies on diabetic neuropathic pain, two reported diagnostic accuracy; however, the variations in terms of measurement variables and reading criteria rendered a quantitative synthesis impossible. One study found that thermography (DITI) alone had a sensitivity of 88.9%, specificity of 77.8%, positive predictive value of 80%, and negative predictive value of 87.5%, while the combination of current perception threshold testing and thermography had a sensitivity of 100%, specificity of 55.6%, positive predictive value of 39.2%, and negative predictive value of 100%. Furthermore, another study compared the sensitivity and specificity of thermography and electrophysiology, reporting that thermography had a sensitivity of 100% and a specificity of 71.4%, while electrophysiology had a sensitivity of 100% and a specificity of 57.1%.
③ There were eight studies on PHN as a subcategory of neuropathic pain.
1) Of these studies, four reported a correlation with clinical symptoms. Three studies reported statistically significant differences in the body surface temperature on the ipsilateral and contralateral sides between the patient and control groups. Another study reported that logistic regression analysis revealed no correlation between the temperature difference on the ipsilateral and contralateral sides and the incidence of PHN (p>0.05).
2) Of the studies on PHN, no studies reported a correlation with comparator tests.
3) Of the studies on PHN, no studies reported diagnostic accuracy.
④ Two studies focused on other neuropathies as a subcategory of neuropathic pain.
1) Of the studies on other neuropathies, five reported a correlation with clinical symptoms. In a study comparing body temperature differences in regions of interest on the contralateral and ipsilateral sides in patients with ulnar neuropathy, the axonal injury group demonstrated significant differences at all sites; however, the demyelination group revealed no significant differences compared to the control group, confirming only partial significance.
2) Of the studies on other neuropathies, five reported a correlation with clinical symptoms. One study reported a 57.1% agreement between thermography and sympathetic skin response test.
3) Of the studies on ulnar neuropathy, one reported diagnostic accuracy with a sensitivity ranging from 53–67%, specificity from 89–100%, positive predictive value from 80–100%, and negative predictive value from 64–78%, depending on the site, where the dorsal radius of the hand was the most meaningful measurement site with a sensitivity of 67% and specificity of 100%.
Third, a total of 16 studies on PAD were selected and further categorized into six studies on Raynaud’s syndrome and 10 studies on PAD other than Raynaud’s syndrome.
① There were six studies on Raynaud’s syndrome as a subcategory of PAD.
1) Of these studies, all six reported a correlation with clinical symptoms. Five studies revealed a statistically significant difference in “temperature difference” or “average temperature of the hand or fingers” between the patient and control groups.
2) Of the studies on Raynaud’s syndrome, one reported a correlation with comparator tests. One study found a significant correlation between thermography and laser plethysmography, with a Spearman's rho of 0.742–0.868 (p<0.0001).
3) Of the studies on Raynaud’s syndrome, three reported diagnostic accuracy. One study reported AUC values of 0.72–0.88, depending on the measured variables, indicating that thermography effectively distinguished patients with Raynaud’s syndrome. One study reporting diagnostic accuracy found that thermography measurements of the coldest finger and first toe (right/left) among multiple measurements were useful for diagnosing Raynaud’s syndrome with a sensitivity ranging from 88–90% and specificity from 44–45%, while another study confirmed the high diagnostic accuracy of cold stress thermography.
② There were 10 studies on PAD other than Raynaud's syndrome as a subcategory of PAD.
1) Of these studies, seven reported a correlation with clinical symptoms. Four studies reported statistically significant differences in temperature at the measurement site between the patient and control groups. Two other studies reported only partially significant results, depending on the measured variable or the presence or absence of occlusion, when comparing the patient and control groups. The remaining one study reported no statistically significant difference in the pre- and postoperative temperature changes on thermography between the ipsilateral and contralateral sides.
2) Of the studies on PAD, three reported a correlation with comparator tests. These tree studies compared the ankle–brachial index, two of which reported a significant correlation, while the remaining one found no correlation in calcified arteries but a strong correlation in noncalcified arteries with a correlation coefficient of 0.7, confirming a partially significant result.
3) Of the studies on PAD, two reported diagnostic accuracy. One study reported diagnostic accuracy with a sensitivity of 98.3%, specificity of 100%, positive predictive value of 100%, and negative predictive value of 88.5%, while the other study reported diagnostic accuracy with a sensitivity of 88.3%, specificity of 65.0%, positive predictive value of 65.4%, and negative predictive value of 88.1%.
Fourth, 37 studies on pain associated with musculoskeletal or spinal disorders were selected, of which 23 studies reported a correlation with clinical symptoms, 16 reported a correlation with comparator tests, and 10 demonstrated diagnostic accuracy.
1) Of the studies on pain associated with musculoskeletal or spinal disorders, 24 reported a correlation with clinical symptoms. "Correlation with clinical symptoms" in this population was categorized into (i) comparisons between patients and controls and (ii) reporting the agreement with clinical symptoms. (ⅰ) A total of 11 studies reported comparisons between the patient and control groups. Nine studies reported statistically significant differences between the patient and control groups. Another study involving patients with chronic low back pain reported partially significant results, finding a significant difference in the plantar temperature only among the sites measured. Only the remaining one study reported a non-significant difference in temperature between the ipsilateral and contralateral sides. (ⅱ) A total of 13 studies reported agreement with clinical symptoms. Seven reported a high agreement of over 90%, with the remaining six had lower agreement rates.
2) Of the studies on pain associated with musculoskeletal or spinal disorders, 17 reported a correlation with comparator tests. Of these, 13 studies compared pain (11 with VAS scores and two with pressure pain threshold), with 11 studies reporting a significant correlation and two reporting non-significant correlations. Four studies compared results with discography or myelography, reporting correlations ranging from 79.1–95%. Two studies compared with computed tomography, reported agreement rates of 78.5% and 78.8%. One study compared with magnetic resonance imaging, reported an agreement rate of 87.0%.
3) Nine studies reported diagnostic accuracy for pain associated with musculoskeletal or spinal disorders. In these studies, the diagnostic accuracy reported varied in terms of measurement variables and reading criteria, making a quantitative synthesis impossible. The diagnostic accuracy reported in all studies varied widely, with a sensitivity ranging from 63.4–100%, specificity from 57.1–100%, positive predictive value from 20–100%, and negative predictive value from 32.6–68.3%. For individual studies, four (44.4%) reported a high sensitivity of 80% or higher and four (44.4%) reported a high specificity of 80% or higher.
Furthermore, the Subcommittee reviewed the following prior to reaching its conclusions.
First, thermography is employed in clinical practice as an additional diagnostic tool to identify specific pathological processes, rather than as a standalone test for diagnosing specific diseases. Hence, the consensus was that it was appropriate for results at the “correlation with clinical symptoms” level. Furthermore, although some studies reports “diagnostic accuracy,” such as sensitivity and specificity, this refers to accuracy in terms of identifying a specific abnormality (e.g., pain). As such, it was proposed that thermography should be evaluated within the category of “correlation with clinical symptoms” level outcomes.
Second, thermography lacks standardization due to unclear measurement variables and judgment criteria (thresholds). However, the Subcommittee noted that, given the nature of the conditions for which thermography is used, varying criteria (thresholds) are inevitable. Despite these variations, the thresholds tend to fall within a similar range.
Third, there is a lack of high-quality studies due to methodological limitations. Most of the studies included in the assessment were deemed to have a “high” or “uncertain” risk of bias. Additionally, the majority compared outcomes between "patient" and "normal control" groups, with few studies focusing on "suspected patients" typically seen in real-world clinical practice.
Fourth, the findings were mostly based on small-scale studies.
Fifth, the results of primary studies are inconsistent, with a number of studies suggesting a correlation with clinical symptoms and a few reporting no correlation.
Conclusion and Recommendations
The Subcommittee concluded that based on the current assessment, the differences in conclusions by disease classification were not likely to be significant and made the following recommendations.
Thermography had inconsistent results due to a lack of standardization of testing, limited quality studies, and small scale of studies. Nevertheless, the subcommittee acknowledged the findings of numerous studies indicating a correlation between thermography and clinical symptoms. Given the nature of the test, thermography has the potential to serve as an adjunctive diagnostic tool, providing an objective means of identifying pathophysiologic phenomena. However, the consensus was that additional high-quality studies were needed to clarify the clinical value of thermography. A minority opinion (1) was that there was insufficient evidence to support the use of thermography in clinical practice for conditions other than CRPS (with a lack of objective testing) and Raynaud’s syndrome (with the changes in body temperature caused by altered blood flow to the skin being directly related to the pathology due to the nature of the disease).
Based on the subcommittee results and Article 4–10 of the Health Technology Re-Assessment Project Management Guidelines, the fourth 2022 Health Technology Re-Assessment Committee drew the following conclusions for “thermography” (April 15, 2022).
Given the limited literature evidence on thermography and concerns regarding its indiscriminate use, thermography is conditionally recommended for CRPS and Raynaud’s syndrome only.
Keywords
Thermography, Infrared thermography, Complex regional pain syndrome, Raynaud’s phenomenon