평가배경
골연령(Bone age)은 성장기 아동의 신체 발달이나 골격의 성숙도를 평가하는 척도 중 하나로 성인 키를 예측하는 데 활용될 수 있다. 골연령은 X-선 촬영, CT, MRI 등의 영상을 이용하여 평가할 수 있는데 이 중 X선 촬영법이 가장 많이 사용된다.
골연령 검사는 선택비급여 항목으로 최근 국민 관심도가 높은 기술로 의료기술재평가를 통해 대국민정보를 제공할 목적으로 재평가 대상으로 선정되었다. 본 기술은 2022년 제3차 의료기술재평가위원회(2022.3.11.)에서 평가계획서를 심의한 후 2022년 제10차 의료기술재평가위원회(2022.10.14.)에서 최종심의하였다.
평가 목적 및 방법
본 평가에서는 대국민 정보제공을 목적으로 골연령 검사의 임상적 안전성 및 효과성에 대해 검토하였다.
모든 평가방법은 평가목적을 고려하여 “골연령 검사 소위원회(이하 ‘소위원회’)”의 심의를 거쳐 확정하였다. 소위원회는 소아청소년과 2인, 정형외과(소아) 2인, 재활의학과(소아) 2인, 영상의학과 2인, 근거기반의학 1인의 전문가 총 9인으로 구성하였다.
대국민 정보제공을 위해 NECA 국민참여단을 대상으로 골연령 검사와 관련한 국민들의 궁금증에 대해 설문조사를 시행하였다. 그 결과 주요하게 골연령 검사 및 성인키 예측 결과의 정확성과 함께 검사로 인한 방사선량 정도에 대한 질문을 확인하였다. 이에 따라 평가내용에 골연령 검사와 역연령과의 차이 및 성인 키 예측검사와 실제 성인 키와의 차이 외에 골연령 검사의 안전성에서 방사선량의 위해수준을 포함하여 평가하였다. 또한 임상에서 사용되는 골연령 검사가 현재 성장상태가 정상범위 내에 있는지를 확인하고, 잠재적인 성인 키 평가로 병적 저신장 여부를 예측하는 데 사용되고 있음을 고려하여 골연령 검사와 이를 활용한 성인 키 예측검사 두 가지로 구분하여 평가하였다. 이에 따라 핵심 질문은 첫째, ‘소아청소년을 대상으로 골연령 검사는 임상적으로 안전하고 효과적인가? ’와 둘째 ‘소아청소년을 대상으로 골연령 검사를 활용한 성인 키 예측검사는 임상적으로 효과적인가? ’로 정하였다.
골연령 검사의 정확성은 일반적으로 골연령 검사 결과가 역연령과 일정 정도 차이가 있으나 높은 상관성을 보인다는 내용이 이미 알려진 내용으로 기존의 체계적 문헌고찰을 검토하는 방법으로 평가를 진행하였다. 골연령 검사 방법은 현재 주로 사용하고 있는 Greulich-Pyle (이하 ‘GP’) 방법, Tanner-Whitehouse 3 radius ulna-short bones (이하 ‘TW3 RUS’) 3 방법으로 국한하였다. 아울러, 한국인 아동에서 골연령 검사의 적절성을 확인하기 위해 국내 일차문헌을 함께 검토하였다.
성인 키 예측 목적으로 골연령 검사를 활용하는데 있어서 효과성을 평가하기 위해서는 체계적 문헌고찰을 수행하였다. 성인 키 예측방법은 골연령 검사 결과를 활용하여 현재 주로 사용하고 있는 GP-Bayley-Pinnea (이하 ‘BP’), TW3 RUS 방법으로 국한하였으며, 성인 키 예측 정확성은 최종 성인 키와 예측된 성인 키와의 차이를 통해 확인하였다.
위 핵심질문을 토대로 국내 데이터베이스 5개(KoreaMed, 의학논문데이터베이스, 학술데이터베이스, 한국교육학술정보원, 사이언스온) 및 국외 데이터베이스 3개(Ovid MEDLINE, Ovid EMBASE, Cochrane Central Register of Controlled Trials)를 이용하여 문헌을 검색하였다. 문헌 선정기준 및 배제기준 적용을 통한 문헌선택과 비뚤림위험 평가는 모두 2명의 검토자가 독립적으로 수행하였고, 자료추출은 한 명의 검토자가 우선적으로 추출한 후 다른 검토자가 추출한 결과를 독립적으로 검토하고 오류가 있는지 확인하였다. 비뚤림위험 평가는 체계적 문헌고찰의 경우 A measurement tool to assess systematic reviews-2 (이하 ‘AMSTAR-2’), 진단적 코호트 연구는 Quality assessment of diagnostic accuracy studies-2 (이하 ‘QUADAS-2’) 도구를 사용하였다. 자료분석은 정량적 분석(quantitative analysis)이 가능한 경우는 메타분석을 통해 연속형 변수는 평균 차이(means difference, 이하 ‘MD’)를 기준으로 인종별, 성별, 연령별 변화의 경향성을 분석하였으며, 정량적 분석이 불가능한 경우는 정성적(qualitative review) 분석을 적용하였다.
평가 결과
최종 선택 문헌은 총 20편으로 이 중 골연령 검사에 관한 문헌 4편, 골연령 검사를 활용한 성인 키 예측검사에 관한 문헌 16편이었다.
골연령 검사를 수행한 연구 4편 중 3편은 체계적 문헌고찰이었으며, 1편은 국내 아동 대상의 일차문헌이었다. 체계적 문헌고찰 3편 중 2편은 GP 방법을 이용하여 골연령 검사결과와 역연령간의 차이를 제시하였으며 1편은 GP방법과 TW3 RUS 방법을 이용하여 역연령과의 차이를 제시하였다. 비뚤림 위험 평가결과 전반적인 신뢰도는 ‘낮음’에서 ‘매우 낮음’으로 평가되었다. 일차문헌 1편은 사춘기 전 건강한 한국인 아동을 대상으로 GP, TW3, KS 각 방법과 역연령과의 상관관계 및 검사내 신뢰도를 제시하였다.
골연령 검사를 활용한 성인 키 예측검사 연구 16편은 모두 진단적 코호트 연구로 최종 성인 키와의 차이를 제시하였다. 연구대상으로 체질성 성장지연 및 사춘기지연이나 저신장증인 환자 대상 7편, 체질성 고신장 아동이나 건강한 고신장 아동 3편, 연구 참여자나 건강한 아동, 운동선수를 대상으로 수행된 연구 6편으로 확인되었다. 비뚤림위험 평가결과 환자선택 관련 비뚤림위험은 43.8%에서 ‘높음’으로, 31.2%에서 ‘불확실’로 평가하였으며, 참고표준검사 관련 비뚤림위험은 6%에서 ‘높음’으로, 12.5%에서 ‘불확실’로 평가하였다.
골연령 검사
골연령 검사의 안전성 및 효과성 결과는 다음과 같다.
골연령 검사의 안전성은 X-ray 촬영으로 인한 방사선 노출에 대한 위험성을 평가하였다. 관련 참고문헌을 검토한 결과, 골연령 검사는 검사방법이 왼쪽 수완부 골을 X-ray 촬영하여 얻은 사진을 분석하는 검사로 손 방사선 사진 촬영시 노출되는 방사선의 유효선량은 0.0001~0.1mSv로 확인되었다.
이에 소위원회에서는 골연령 검사시 노출되는 방사선의 유효선량은 인체에 위해를 야기시킬만한 수준은 아니어서 안전한 검사로 평가하였다.
체계적 문헌고찰(3편) 검토를 통해 골연령 검사의 효과성을 확인하였다. 골연령과 역연령 간 평균 차이는 1개월~6개월 정도였으며, 이 중 아시아인 대상 연구에서는 전체적으로 남성은 1.8개월 (95% confidence interval (이하 ‘CI’) -3.6, 7.2), 여성은 -1.2개월(95% CI -3.8, 1.4)의 차이를 보였다. 하위군 분석으로 각 연령별 차이를 확인하였을 때 남성에서 2~10세까지 1세 정도 과소평가, 15세에는 과대평가 경향이 확인되었고, 여성에서는 4~5세에서 1세 정도 과소평가, 13세에는 과대평가되는 경향이 확인되었다.
일차문헌에서 검사방법별(GP, TW3, KS 방법) 역연령과의 상관관계를 확인한 결과 0.87~0.9, 관찰자간 급내 상관관계는 각 방법별로 0.99~1.00으로 유의하였다.
이에 소위원회에서는 골연령 검사를 역연령과의 차이를 확인하여 여러 성장장애와 관련된 소아 질환의 진단에 사용할 수 있고 골연령이 역연령에 비해 더 높은 경우 대표적 질환으로 성조숙증을 의심해볼 수 있으며, 골연령이 역연령보다 낮은 경우 사춘기 지연, 성장호르몬 결핍증, 갑상선 호르몬 결핍증 등을 의심해 볼 수 있고, 골연령 검사가 이와 같은 질환의 경과 관찰, 치료반응 관찰에도 활용될 수 있다는 의견을 제시하였다. 연령별, 인종별로 골연령과 역연령 간 차이에 차이가 있고, 인종별로 성별 차이의 경향성도 다르게 확인되었다. 아시아인을 대상으로 골연령과 역연령 차이의 정상범위에 대한 기준 등을 확인하는 것이 필요하나 관련 연구가 부족하여 현재 임상에서는 각 임상의가 경험적으로 결과에 대한 유의미성을 판단하고 있으며, 질환이 의심되는 경우는 임상 소견 및 다른 검사결과와 함께 골연령 검사결과를 판단하고 있다는 의견을 제시하였다.
골연령 검사를 이용한 성인 키 예측검사
골연령 검사를 이용한 성인 키 예측검사의 효과성을 확인한 결과는 다음과 같다.
건강한 아동을 대상으로는 1편(TW3 RUS 이용)에서 예측된 성인 키와 최종 성인 키 간 차이는 남성에서 3.34cm (95% CI -5.34, 12.02), 여성에서 2.78cm (95% CI -5.94, 11.50)로 보고되었다.
일반 연구참여자(별도의 특징 제시하지 않음)를 대상으로 1편(GP-BP 이용)에서 예측된 성인 키와 최종 성인 키 간 차이는 여성에서 –1.45cm (95% CI -7.21, 4.31)로 보고되었다.
저신장 및 체질성 성장 지연 대상에서 예측된 성인 키와 최종 성인 키 간 차이(GP-BP 이용)는 메타분석 결과 남성(5편)에서 통합 평균 차이 1.92cm (95% CI -1.61, 5.45, I2=0%), 여성(3편)에서 통합 평균 차이 –1.56cm (95% CI -5.19, 2.08, I2=0%)로 확인되었다.
고신장 대상에서 예측된 성인 키와 최종 성인 키 간 차이(GP-BP 이용)는 남성(1편)에서 2.30cm (95% CI -6.91, 11.51), 여성(2편, 메타분석 수행)에서 0.40cm (95% CI -3.59, 4.38, I2=0%)로 확인되었다.
8세부터 15세까지 예측된 성인 키와 최종 성인 키 간 평균 차이는 남성은 0.9~3.1cm (95% CI -8.23, 8.74), 여성은 –2.38~1.3cm (95% CI -9.82, 7.8)로 확인되었다. 이 중 성장 관련 문제가 없는 아시아인 남성은 1편(중동지역, 운동선수 대상, GP-BP 기준)에서 12.5세~15세까지 각 연령별로 예측된 성인 키와 최종 성인 키 간 평균 차이는 0.9~1.4cm (95% CI 0.2, 1.9)이었고, 여성은 1편(터키지역, 연구참여자, GP-BP 기준)에서 9세~14세까지 예측된 성인 키와 최종 성인 키 간 평균 차이는 –2.38~0.09cm (95% CI -9.39, 8.42)로 확인되었다. 전체적으로 연령이 낮을수록 예측된 성인 키와 최종 성인 키 간 평균 차이 및 신뢰구간의 폭은 커지고 연령이 높을수록 그 폭은 작아지는 경향이었다.
성인 키 예측검사 결과 최종 성인 키와의 상관관계는 메타분석 결과 남성(4편)에서 통합 상관계수가 0.74(95% CI 0.53, 0.86, I2=86%), 여성(2편)에서 0.74(95% CI 0.57, 0.84, I2=0%)로 확인되었다.
예측된 성인 키와 최종 성인 키 간 차이에 영향을 미치는 요인으로 목표키, 골연령 검사 시점의 역연령, 골연령 시점에 측정된 키, 골연령, 골연령 지체정도가 유의한 변수로 확인되었다.
소위원회에서는 8세부터 15세까지 각 연령대마다 성장 속도가 다르고 문헌별 연구대상자의 특성들이 이질적이며, 대상자 수가 적은 문헌들도 많이 포함되어 예측된 성인 키와 최종 성인 키 간 평균 차이의 신뢰구간 폭이 넓은 것으로 판단하였다. 체질성 성장지연이나 사춘기 지연 대상자는 골연령이 역연령보다 낮기 때문에 성인 키 예측검사와 최종 성인 키 간 차이가 더 클 수 있으며, 고신장이나 성숙이 빠른 사람들은 이미 골 성숙이 되어있어서 차이가 작을 수 있다는 의견이 있었다. 또한 아시아인 대상의 연구가 부족하여 성인 키 예측검사의 정확성에 대한 결론을 내리기에는 문헌적 근거가 충분하지 않다고 보았다. 아울러 골연령 검사는 성장평가를 위한 보조적인 검사 중 하나로, 다른 검사들을 포함한 전체적인 평가가 이루어져야 하며, 한 시점의 결과만으로 판단하기보다는 주기적인 평가를 통해 성장 추세를 확인하는 것이 필요하다는 의견을 제시하였다.
결론
소위원회에서는 현재 문헌에 근거하여 골연령 검사의 안전성 및 골연령 검사와 골연령 검사를 활용한 성인 키 예측검사의 효과성 결과를 다음과 같이 제시하였다.
첫째, 골연령 검사를 위한 손 방사선 사진 촬영시 노출되는 방사선의 유효선량은 0.0001~0.1mSv로 인체에 위해를 야기시킬만한 수준이 아니어서 골연령 검사는 안전한 검사로 평가하였다.
둘째, 골연령 검사를 통해 측정한 골연령과 역연령 간 평균 차이는 6개월~1년 정도로 확인되었으며 골연령 검사의 정확도를 판단하기 위해 골연령과 역연령간의 차이에 대한 정상범위 기준 설정 등을 위한 아시아인 대상의 연구가 더 필요하다고 판단하였다.
셋째, 골연령 검사를 활용한 성인 키 예측검사 결과는 최종 성인 키와의 차이가 연령별, 성별로 다양하게 나타났으나 대체로 8세에서 15세 사이에서 평균적으로 약 3cm 정도 과대 혹은 과소 평가되었고, 최대 8~10cm 정도 차이를 보였다. 아울러 연령이 낮을수록 예측된 성인 키와 최종 성인 키 간 차이가 크게 나타났으며, 연령이 높아질수록 그 차이가 작아지는 경향이 확인되었다. 선택 문헌들의 대상자 특성들이 이질적이고 대상자 수가 적은 문헌들도 많이 포함되어 예측된 성인 키와 최종 성인 키 간 차이의 변이 폭이 넓게 나타난 것으로 보았으며, 아시아인 대상의 연구도 부족하여 성인 키 예측검사의 정확성에 대한 결론을 내리기에는 현재 문헌적 근거가 부족하다고 판단하였다.
2022년 제10차 의료기술재평가위원회(2022.10.14.)에서는 소위원회 검토 결과에 근거하여 의료기술재평가사업 관리지침 제4조제10항에 의거 “골연령 검사”에 대해 다음과 같이 심의하였다.
첫째, 골연령 검사를 위해 손 방사선 사진 촬영시 노출되는 방사선의 유효선량은 0.0001~0.1mSv로 인체에 위해를 야기시킬만한 수준이 아니어서 골연령 검사를 안전한 검사로 판단하였다.
둘째, 골연령 검사를 통해 측정한 골연령과 역연령 간 평균 차이는 6개월~1년 정도이었으며 그 차이의 정상범위에 대한 기준 설정 등을 위한 한국인 대상의 연구가 골연령 검사의 정확도를 판단하기 위해 필요하다.
셋째, 골연령 검사를 활용한 성인 키 예측검사는 최종 성인 키와의 차이가 연령별, 성별로 다양하게 나타났으나 대체로 8세에서 15세 사이에서 평균적으로 약 3cm 정도 과대 혹은 과소 평가되었고, 최대 8~10cm 정도 차이를 보였다. 아울러 연령이 낮을수록 예측된 성인 키와 최종 성인 키 간 차이가 크게 나타났으며, 연령이 높아질수록 그 차이가 작아지는 경향이 확인되었다. 선택 문헌들의 대상자 특성들이 이질적이고 대상자 수가 적은 문헌들도 많이 포함되어 예측된 성인 키와 최종 성인 키 간 차이의 변이 폭이 넓게 나타난 것으로 보았으며, 한국인 대상의 연구도 부족하여 성인 키 예측검사의 정확성에 대한 결론을 내리기에는 근거가 부족하다.
주요어
골연령, 성인 키 예측, 안전성, 효과성
Bone age, Prediction of adult height, Safety, Effectiveness
Background
Bone age is a measure of physical development or skeletal maturity in growing children and can be used to predict adult height. Among the various imaging methods such as X-ray imaging, computed tomography (CT), and magnetic resonance imaging (MRI), X-ray imaging is the most commonly used method for bone age assessment.
Bone age assessment has been selected as a subject of reevaluation to provide public information through health technology reassessment on this technology, which has recently gained increasing public interest as a selected non-reimbursable item. Accordingly, the assessment plan for this technology was reviewed during the third session of the Medical Technology Evaluation Committee in 2022 (March 11, 2022), and the final review was conducted during the tenth session of the Medical Technology Evaluation Committee in 2022 (October 14, 2022).
Purpose and Methods
The purpose of this study was to examine the clinical safety and efficacy of bone age assessment to provide public information.
All assessment methods were finalized after review by the “bone age study subcommittee” (hereinafter referred to as “subcommittee”). Considering the study purpose, the subcommittee comprised nine experts: two pediatricians, two orthopedic surgeons (pediatric), two rehabilitation medicine specialists (pediatric), two radiologists, and one evidence-based medicine specialist.
To provide nationwide information, a questionnaire survey was conducted among the National Evidence-based Healthcare Collaborating Agency (NECA) public participation group to address the public's questions about bone age assessment. The survey results revealed that the most common questions were about the accuracy of bone age assessment, its ability to predict adult height, and the level of radiation exposure. Accordingly, comparisons between bone age and actual chronological age and between predicted adult height and actual adult height and evaluation of the risk level associated with radiation dose were included in the scope of the assessment. Moreover, considering that bone age assessment in clinical practice is used to confirm whether the current growth status is within the normal range and to predict potential pathological short stature, the evaluation was divided into two parts: bone age assessment and adult height prediction assessment. The key questions in the assessment were “Is bone age assessment safe and effective in children and adolescents?” and “Is prediction of adult height using bone age assessment clinically effective in children and adolescents?”
Since it is already a known fact that bone age assessments results generally show a high correlation with chronological age, despite slight differences, overview of related systematic reviews was performed for the assessment. Bone age assessment methods are limited to the current mainly used methods, namely, the Greulich-Pyle (GP) method and the Tanner-Whitehouse 3 radius ulna-short bones (TW3 RUS) method. In addition, original study conducted in Korea was reviewed to confirm the appropriateness of bone age assessment in Korean children.
To evaluate the effectiveness of using bone age assessment for adult height prediction, a systematic literature review was conducted. The methods for adult height prediction were limited to the GP-Bayley-Pinnea (BP) method and the TW3 RUS method, which are predominantly used at present. The accuracy of adult height prediction was confirmed by comparing the final adult height with the predicted adult height.
Based on the key questions, a literature search was conducted using five domestic databases (KoreaMed, KMbase, KISS, KERIS, and ScienceOn) and three international databases (Ovid MEDLINE, Ovid EMBASE, and Cochrane Central Register of Controlled Trials). Literature selection (that was based on inclusion and exclusion criteria) and risk of bias (RoB) assessment were independently performed by two reviewers. Data extraction was initially performed first by a single reviewer, and then, the extracted results were independently assessed by another reviewer to check for errors. RoB assessment was performed using A Measurement Tool to Assess Systematic Reviews-2 (AMSTAR-2) tool for systematic reviews and the Quality Assessment of Diagnostic Accuracy Studies-2 (QUADAS-2) tool for diagnostic cohort studies. Quantitative analysis was performed through meta-analysis when applicable, using mean difference (MD) as the measure for analyzing trends of change by race, gender, and age. Qualitative review analysis was applied when quantitative analysis was not feasible.
Results
A total of 20 articles were finally selected: four on bone age assessment and 16 on adult height prediction using bone age assessment.
Among the four studies on bone age assessment, three were systematic literature reviews and one was a original study conducted in Korean children. Among the three systematic reviews, two used the GP method to compare bone age assessment results with chronological age, and one article used the GP and TW3 RUS methods to identify differences between bone age assessment results and chronological age. RoB assessment results showed that the overall reliability was “low” to “very low.” The original study in healthy prepubescent Korean children examined the correlation between the GP, TW3, and Korean standard bone age chart (KS) methods and chronological age and determined the intra-test reliability.
All the 16 articles on adult height prediction using bone age assessment were diagnostic cohort studies, which presented the differences between final adult height and predicted adult height. The study populations in these studies included the following: patients with constitutional growth delay, delayed puberty, or short stature (n=7); children with constitutional tall stature or healthy children with tall stature (n=3); and regular participants, healthy children, or athletes (n=6). The RoB assessment results revealed that the RoB associated with participant selection was “high” in 43.8% of studies and “unclear” in 31.2% of studies, while the RoB associated with the reference standard was “high” in 6% of studies and “unclear” in 12.5% of studies.
Bone age assessment
The safety and efficacy results of bone age assessment were as follows:
The safety of bone age assessment was evaluated in terms of radiation exposure from X-ray imaging. A review of relevant literature showed that bone age assessment involves analyzing X-ray images of the left hand to determine bone age, and the effective dose of radiation exposure during the hand X-ray imaging was found to be 0.0001–0.1 mSv. Therefore, the subcommittee evaluated radiation exposure from bone age assessment as safe, considering that the effective dose of radiation exposure is not at a level that would cause harm to the human body.
The efficacy of bone age assessment was confirmed through review of three systematic literature reviews. The MD between bone age and chronological age was approximately 1–6 months. Among studies included in the systematic review, the study on Asian populations reported an overall difference of 1.8 months (95% confidence interval [CI]; -3.6, 7.2) among males and of -1.2 months (95% CI -3.8, 1.4) among females. In addition, subgroup analysis by age showed that age tended to be underestimated by up to one year among boys aged 2–10 years, overestimated among boys aged 15 years, underestimated by up to one year among girls aged 4–5 years, and overestimated among girls aged 13 years.
Results from the original study regarding the correlation between bone age assessment methods (the GP, TW3, KS methods) and chronological age revealed a correlation coefficient of 0.87–0.9. The intra-observer intra-class correlation coefficient for each method ranged from 0.99 to 1.00.
Based on these findings, the subcommittee suggested that bone age assessment can be used for diagnosing various pediatric disorders related to growth abnormalities by comparing the difference between bone age and chronological age. When bone age is higher than chronological age, it may indicate conditions such as precocious puberty, whereas when bone age is lower than chronological age, it may indicate conditions such as delayed puberty, growth hormone deficiency, or thyroid hormone deficiency. The subcommittee also highlighted that bone age assessment can be used for monitoring disease progression and treatment response for these conditions. The results also confirmed differences between bone age and chronological age by age and ethnicity, in addition, a tendency of gender difference was also found to be different by ethnicity. It is necessary to identify the standards for the normal range of differences between bone age and chronological age among Asian populations. However, due to limited research, current clinical practice relies on the expertise of clinicians to determine the clinical significance of the results. In cases wherein a disorder is suspected, bone age assessment results are considered along with clinical findings and other test results.
Adult height prediction using bone age assessment
The effectiveness of adult height prediction using bone age assessment was examined, and the following results were obtained:
In studies involving healthy children, one study using the TW3 RUS method reported a difference of 3.34 cm for males (95% CI -5.34, 12.02) and 2.78 cm for females (95% CI -5.94, 11.50) between predicted and final adult height.
In studies involving general participants (without specifying characteristics), one study using the GP-BP method reported a difference of -1.45 cm for females (95% CI -7.21, 4.31) between predicted and final adult height.
For short stature and constitutional growth delay, meta-analysis results showed a combined MD of 1.92 cm (95% CI -1.61, 5.45, I2=0%) for boys (from five studies) and -1.56 cm (95% CI -5.19, 2.08, I2=0%) for girls (from three studies) when using the GP-BP method.
The MD between predicted and final adult height in tall stature (using the GP-BP method) was reported to be 2.30 cm (95% CI -6.91, 11.51) among boys (one article) and 0.40 cm (95% CI -3.59, 4.38, I2=0%) among girls (two articles, meta-analysis).
The MD between predicted adult height and final adult height in children aged 8–15 years was 0.9~3.1 cm (95% CI -8.23, 8.74) among boys and –2.38~1.3 cm (95% CI -9.82, 7.8) among girls. Of these, one article on Asian boys with no growth-related problems (from the Middle East, athletes, based on the GP-BP method) reported that the MD between predicted adult height and final adult height was 0.9~1.4 cm (95% CI 0.2, 1.9) at each age for those aged 12.5–15 years. One article on girls (from Türkiye, study participants, based on the GP-BP method) reported that the MD between predicted adult height and final adult height was –2.38~0.09 cm (95% CI -9.39, 8.42) for those aged 9–14 years. Overall, the MD and CI range between predicted adult height and final adult height tended to increase at younger ages and decrease at older ages.
In the meta-analysis on the correlation between predicted and final adult height, the combined correlation coefficient was 0.74 (95% CI 0.53, 0.86, I2=86%) for boys (four articles) and 0.74 (95% CI 0.57, 0.84, I2=0%) for girls (two articles).
Significant factors influencing the difference between predicted adult height and final adult height were target height, chronological age at the time of bone age study, height measured at the time of bone age test, bone age, and degree of bone age delay.
The subcommittee noted that the growth rate varies at each age group from 8 to 15 years, and the characteristics of the study subjects in the literature are heterogeneous, with many studies having a small sample size. As a result, there is a wide CI range for the MD between predicted adult height and final adult height. Because individuals with constitutional growth delay or delayed puberty have a lower bone age than chronological age, the difference between predicted adult height and final adult height may appear larger, whereas individuals with tall stature or faster growth rate may have already achieved bone maturity, and thus, the difference may appear smaller. Moreover, there is a lack of research on Asian populations, which leads to insufficient evidence to draw conclusions about the accuracy of adult height prediction using bone age assessment. The subcommittee emphasized that bone age assessment should be considered as a supplementary test for growth evaluation, and the overall assessment should include other tests. It is also important to periodically evaluate growth trends rather than relying solely on a single assessment.
Conclusions
Based on available evidence in the literature, the subcommittee presented the following findings on the safety of bone age assessment and the effectiveness of bone age assessment and prediction adult height using bone age assessment:
First, the effective dose of radiation exposure during hand X-ray imaging for bone age assessment was identified to be 0.0001~0.1 mSv, which is not at a level that could be harmful to the human body. Accordingly, the subcommittee determined bone age assessment as a safe health technology.
Second, the MD between chronological age and bone age measured by bone age assessment was approximately 6–12 months. The subcommittee concluded that to determine the accuracy of bone age assessment, additional studies on Asian populations are needed to establish the normal range for the difference between bone age and chronological age.
Third, the results of adult height prediction using bone age assessment showed varying differences between predicted adult height and final adult height depending on age and gender. The height was overestimated or underestimated by approximately 3 cm between the ages of 8 and 15 years, with a maximum difference of up to 8–10 cm. In addition, the difference between predicted and final adult height tended to be larger at a younger age and smaller at an older age. The wide variability in the difference between predicted and final adult height was attributed to the heterogeneous characteristics of the study participants and the inclusion of studies with small sample sizes. Furthermore, the subcommittee determined that there is lack of research specifically conducted on Korean populations, which contributes to insufficient evidence in the literature to reach a conclusion on the accuracy of predicting adult height using bone age assessment.
During the tenth session of the Committee of Health Technology Reassessment in 2022 (October 14, 2022), the following conclusions were made on the “bone age assessment” based on the subcommittee findings in accordance with Article 4-10 of the Guidelines for Management of Health Technology Reassessment Project.
First, the effective dose of radiation exposure during hand X-ray imaging for bone age assessment was identified to be 0.0001~0.1 mSv, which is not a level that could be harmful to the human body. Accordingly, bone age study was determined to be a safe health technology.
Second, the MD between chronological age and bone age measured by bone age assessment was approximately 6–12 months. Additional studies on Asian populations are needed to establish the normal range for differences between bone age and chronological age to determine the accuracy of bone age assessment.
Third, the differences between results of predicted adult height (using bone age assessment) and final adult height varied depending on age and gender. The height was overestimated or underestimated by approximately 3 cm between the ages of 8 and 15 years, with a maximum difference of up to 8–10 cm. In addition, the difference between predicted and final adult height tended to be larger at a younger age. It was determined that the large variation in the difference between predicted and final adult height could be attributed to the heterogeneous characteristics of the participants in the selected articles and the inclusion of many articles with a small sample size, while there was lack of studies on Asian populations. Accordingly, there is insufficient evidence in the literature to reach a conclusion on the accuracy of predicting adult height using bone age assessment.
Keywords
Bone age, adult height prediction, Safety, Effectiveness