Publications

Detailed Information

베이지안 시공간 모형을 이용한 읍면동 수준 기대수명 산출 : Estimation of Small-area Level Life Expectancy Using a Bayesian Spatio-temporal Model

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김익한

Advisor
강영호
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
베이즈 정리편향기대수명모형통계적소지역 분석불확실성
Description
학위논문(박사) -- 서울대학교대학원 : 의과대학 의학과, 2022.2. 강영호.
Abstract
With the expansion of available data sources and the development of analysis methods, efforts to determine the health status of small-area units are increasing. Identifying health levels in sub-regional units can reveal geographical differences that might be masked when high-level areas are used as an analysis unit. The results would discover vulnerable population groups and serve as a starting point for policy efforts. In addition, the small-area level analysis has fewer ecological fallacies because the population characteristics are relatively homogeneous, and exposure to health determinants is even.
Identification of small-area health levels requires epidemiological, geographic, and statistical efforts. Specifically, selecting appropriate data sources, analysis units, and health-level metrics is needed. In addition, combining data over several years or using a statistical model is requested, given the sparseness of the data.
Previous Korean studies calculated and compared the small area (eup, myeon, and dong) mortality, mainly using the standardized mortality ratio (SMR) as the metric and combining data from many years. The main reason for using the SMR was that Statistics Korea restricts the public use of the number of deaths by age group at the small-area level.
SMR is convenient because it does not require age-specific mortality rates. However, it is controversial to compare mortality rates between small areas because the denominator of the SMR, which is calculated by summing the product of the age-specific mortality rate of the standard population and the age-specific populations, is different for each small area. Therefore, the following two assumptions should be satisfied to compare SMRs between small areas. First, the age structures of small areas should be similar. Second, the ratio of age-specific mortality rates between standard and study populations should not differ notably between age groups, although simultaneous satisfaction of the two assumptions is not mandatory. Other representative mortality metrics include comparative mortality figures (CMF) and life expectancy (LE). LE is understandable and intuitive not only for researchers but also for the public and policymakers. LE also has the advantage of not requiring a standard population.
The National Health Insurance Service (NHIS) of Korea maintains the National Health Information Database (NHID), which includes information such as gender, age, and place of residence (eup, myeon, or dong) of almost the entire Korean population. In addition, NHID has the advantage of extensionality through linking with other databases in NHIS or death statistics of the Korea Statistics to acquire the individual's death status or additional various health information.
The Bayesian Spatio-temporal model has been widely used to calculate the mortality rate at the small-area level. Given the autocorrelation of mortalities, the Bayesian Spatio-temporal model overcomes the data sparsity by borrowing information of adjacent regions, time, and age groups. According to previous studies, the conventional method requires at least 5,000 people per region to calculate LE stably, but the Bayesian spatial model requires only at least 2,000 people. However, the minimum number of people using the Bayesian Spatio-temporal model is unknown. In addition, the traditional method satisfied the normality assumption of estimates when the population was 5,000 or more. Despite this, Bayesian hierarchical models could not reveal the minimum requested population.
This study examined the possibilities of using the NHID for mortality estimates in Korea at the small area level and a mortality measure to compare mortality. This study also explored the possible Bayesian Spatio-temporal model that calculates LE at the small-area level in Korea through a simulation study considering the geographical age structure and characteristics.
First, this study explored the possibility of the NHID to calculate the small-area-level mortality by comparing the number of population and deaths, crude mortality, and SMR between the NHID and national administrative data (NAD) of the Ministry of the Interior and Safety. The study results showed that the total population and deaths during the study period (2014-2017) using the NHID were almost identical to those of NAD, regardless of gender. Small-area-level population and death distributions were virtually the same in both datasets. The magnitude of the Pearson correlation coefficient of both population and death numbers was above 0.996. The Pearson correlation coefficient of the SMRs ranged from 0.937 to 0.972. Based on the results, we considered that the NHID could calculate the mortality rate at a small area level in Korea.
Second, this study calculated the mortality at the small-area level using SMR, CMF, and LE using the 2013-2017 NHID and compared the results according to the degree of urbanization. Although age-specific mortality of all small areas in Korea was assumed to be the same as the age-specific mortality of the entire study population, the SMR was different for each small area. SMR was higher in urban areas than in other areas. The ranking using SMR was significantly different from that of the CMF and LE. Rank differences were more pronounced in areas with high mortality rates. However, the differences between the CMF and LE rankings were relatively small. The difference between the CMF and SMR was large in rural areas, especially in areas with small populations. Therefore, SMR comparisons among small regions on a national scale may induce bias. CMF and LE should assess mortality based on their age if age-specific mortality is available.
Third, this study evaluated the Bayesian Spatio-temporal models for calculating the small-area level LE using the 2013-2017 Korea Statistics resident registration mid-term population and death data. The Monte Carlo simulation method created 1,000 hypothetical datasets assuming that all districts in Korea had female populations of 500, 1,000, 2,000, 5,000, 10,000, and 25,000. The age structure of each district maintains its actual age structure. LE for each dataset was calculated using the traditional, Bayesian spatial and Spatio-temporal models. The precision, 95% uncertainty interval (UI) width and coverage, and normality of each method for each scenario were compared. A 95% UI coverage was defined as the probability of containing the true value in the 95% UI. The Bayesian Spatio-temporal model consisted of three linear, nonlinear, and linear and nonlinear mixed models. The results showed that the Bayesian spatial and Spatio-temporal models calculated LE more accurately than the traditional method in all scenarios. The 95% UI width using the Bayesian Spatio-temporal models was 20-60% using the traditional method. The traditional method satisfied the normality assumption when the population was 10,000 or more, but the Bayesian spatial and Spatio-temporal models approximated the normal distribution even when the population was 500. However, the Bayesian Spatio-temporal models did not satisfy normality in the large population scenarios. The LE calculation using the Bayesian Spatio-temporal models had the highest data efficiency among the utilized methods. However, when the Bayesian Spatio-temporal models were used, the 95% UI interval was narrow, the coverage rate was low, and normality was not satisfied when the population was large. Therefore, when comparing LE between small areas using the Bayesian Spatio-temporal model, it is necessary to compare the posterior distribution with appropriate cut-off value selection, not the comparison assuming normality.
Fourth, this study provided the results of calculating LE at the small-area level using the 2013-2017 NHID. We found a significant difference in LE between urban and rural areas for men and women, but the gap was larger in men than in women. There were also disparities in life expectancy between the small areas within the region. The median LE at the small area level increased during the study period, similar to the national mean LE for men and women. The dispersion exhibited a slight increase. When we calculated the average annual change rate of LE by small area during the study period, the rate varied by region, but the magnitude was moderate. In the analysis results of the association with LE in 2013, neither men nor women showed a significant association. The study results showed a gap in LE between and within regions in Korea, but the magnitude of the gap stagnated during the study period.
This study explored data sources and appropriate measurement tools for calculating LE at the small-area level in Korea. This study also suggested a statistical model that can overcome the sparseness of the data and calculate the small-area-level LE during 2013–2017. The results can assist policymakers, researchers, and the public in understanding the between and within regional health inequalities and the process of mortality changes. It would also help identify local health determinants and inform policy decisions and planning.
가용한 자료원이 확대되고 분석 방법의 발전에 따라 소지역 단위 건강 수준 산출을 위한 노력이 증가하고 있다. 소지역 단위 건강 수준 산출은 높은 층위의 지역을 분석 단위로 했을 때 가려지는 지역 간 차이를 분명하게 드러낼 수 있어 취약 인구 집단을 발견하고 건강 불평등 해소를 위한 정책적 노력의 시발점이 될 수 있다. 소지역 단위 분석은 지역에 속한 인구 특성이 비교적 동질적이고 건강 결정 인자들에 대한 폭로가 고르기 때문에 생태학적 오류가 적다. 지역을 어떻게 정의할 것인가에 따라 결과가 달라지는 변환 가능 공간 단위 문제(modifiable area unit problem, MAUP) 또한 비교적 적다고 알려져 있다.
소지역 수준 건강 수준 산출은 역학적, 지리적, 통계적 노력이 필요하다. 구체적으로 소지역 수준 건강 수준 산출에 적합한 자료원 활용과 함께 적절한 소지역 단위 및 건강 수준 측정 도구 선정, 데이터의 희박성을 고려하여 수 년 간의 자료를 합치거나 통계 모형을 이용한 산출 등이 요구된다.
그간 우리나라에서는 읍·면·동을 분석 단위로 한 소지역 수준 사망률이 측정되어 왔다. 현재까지 국내에서 이루어졌던 읍·면·동 수준 사망률 산출 연구는 다년간의 자료를 합하여 주로 표준화사망비를 산출한 후, 읍·면·동 간 표준화사망비를 비교하였다. 표준화사망비를 이용하여 사망률을 측정한 가장 큰 이유는 선행 연구들에서 이용한 통계청 자료는 읍·면·동 수준에서 연령군별 사망자 수를 제공하지 않기 때문이다.
표준화사망비는 연령군별 사망률 정보가 필요하지 않기 때문에 산출이 용이하다. 그러나 표준화사망비를 지역 간 사망률 비교에 이용할 수 있을지에 대해서 논란이 있다. 그 이유는 표준인구의 연령군별 사망률과 해당 소지역의 연령군별 인구수의 곱을 모두 합하여 산출하는 표준화사망비의 분모가 소지역마다 다르기 때문이다. 표준화사망비를 이용하여 지역 간 사망률을 비교하기 위해서는 다음 두 가지 가정을 만족하여야 한다. 첫째, 비교하고자 하는 소지역들의 연령 구조가 유사하여야 한다. 둘째, 표준인구 연령군별 사망률과의 비가 연령군 간 크게 다르지 않아야 한다. 그러나 두 가지 가정을 동시에 만족할 필요는 없다. 표준화사망비 외에 소지역 수준 사망률을 측정할 수 있는 도구로는 비교사망지수와 기대수명 등이 있다. 기대수명은 연구자들뿐만 아니라 대중과 정책 결정자들의 이해가 쉽고, 산출 시 표준인구가 필요 없다는 장점이 있다.
국민건강보험공단의 건강정보 데이터베이스(건강정보DB)는 우리나라 거의 모든 인구의 성별, 연령, 거주지(읍·면·동) 등의 정보를 포함한다. 또한 통계청의 사망통계자료와 연계하여 건강정보DB 대상자들의 사망 여부를 조사할 수 있어 읍·면·동 수준에서 연령군별 사망자 수 획득이 가능하다. 또한 국민건강보험공단의 다른 데이터베이스와의 연계를 통하여 다양한 건강 정보를 파악할 수 있다는 장점을 가지고 있다.
최근 들어 소지역 수준 사망률 산출 시 베이지안 시공간 모형이 널리 이용되고 있다. 베이지안 시공간 모형은 소지역 수준에서 사망률 산출 시의 데이터의 희박성을 극복하기 위한 방법들 중 하나로 인접한 지역이나 시간, 연령군 간 사망률의 자기상관성을 고려하여 정보를 빌려서 사용한다. 선행 연구들에 따르면 전통적 기대수명 산출 방법을 이용할 경우 안정적인 기대수명 산출을 위하여 지역당 최소 5,000명의 인구수가 필요하였는데 베이지안 공간 모형을 이용하는 경우 최소 2,000명이 필요하였다. 그러나 아직까지 베이지안 시공간 모형을 이용하였을 때 필요한 최소 인구수는 알려지지 않았다. 또한 전통적 기대수명 산출 방법에서는 안정적 인구 집단인 경우 인구수가 5,000명 이상일 때부터 정규성을 만족하는 것으로 나타났지만 베이지안 계층 모형을 이용했을 때 정규성을 만족하기 위한 최소 인구수는 밝혀지지 않았다.
본 연구에서는 국민건강보험공단의 건강정보DB를 우리나라 읍·면·동 수준 사망률 산출 연구에 활용할 수 있는지를 파악하고, 읍·면·동 간 사망률 비교에 적합한 건강 수준 측정 도구를 탐색하였다. 또한 선행 연구에서 활용한 베이지안 시공간 모형들 중 우리나라의 지역별 연령 구조와 특성 등을 고려하여 소지역 수준 사망률 산출에 적합한 모형을 시뮬레이션 연구를 통하여 파악하였다. 마지막으로 베이지안 시공간 모형을 이용하여 실제 우리나라 읍·면·동 수준 기대수명을 산출하였다.
첫째, 본 연구에서는 국민건강보험공단 건강정보DB의 읍·면·동 수준 사망률 산출 이용 가능성을 탐색하기 위하여 행정안전부의 국가행정자료를 이용하여 산출한 읍·면·동 수준 인구 및 사망자 수, 조사망률, 표준화사망비를 비교하였다. 2014-2017년 연구 기간 동안 건강정보DB를 이용하여 산출한 전체 인구수와 사망자 수는 성별에 상관없이 국가행정자료의 수치와 거의 같았다. 읍·면·동 수준 인구수와 사망자 수 분포 또한 두 자료가 거의 유사하였다. 두 자료의 읍·면·동 수준 인구수와 사망자 수의 피어슨 상관계수(Pearson correlation coefficient) 크기는 모두 0.996 이상으로 매우 컸다. 읍·면·동 수준 표준화사망비의 피어슨 상관계수 크기 범위는 0.937-0.972로 나타났다. 이 결과를 통하여 국민건강보험공단의 국민건강정보DB를 우리나라 읍·면·동 수준 사망률 산출에 이용할 수 있다고 판단하였다.
둘째, 본 연구에서는 2013-2017년 국민건강정보DB를 이용하여 표준화사망비와 함께 비교사망지수, 기대수명을 이용하여 읍·면·동별 사망률을 산출하고 결과를 비교하였다. 연구 결과에 따르면 우리나라 모든 읍·면·동의 연령군별 사망률이 2015년도 전체 인구의 연령군별 사망률과 같다고 가정하였을 때도 표준화사망비는 다르게 측정되었다. 이 때 동 지역은 읍과 면 지역에 비해서 표준화사망비가 높게 측정되는 경향을 보였다. 표준화사망비를 이용하여 매긴 사망률 순위는 비교사망지수, 기대수명을 이용하여 매긴 순위와 차이가 컸다. 순위 차이는 사망률이 높은 지역에서 두드러졌다. 그러나 비교사망지수와 기대수명을 이용하여 매긴 순위는 비교적 차이가 적었다. 비교사망지수와 표준화사망비 간 비는 면 지역에서 변이가 컸는데 특히 인구수가 적은 지역에서 변이가 컸다. 따라서 표준화사망비를 이용하여 전국 규모에서 읍·면·동 간 사망률 비교 시에는 비뚤림을 유발할 가능성이 있다. 연령군별 사망률의 획득이 가능하다면 표준화사망비보다 비교사망지수와 기대수명을 이용하여 읍·면·동 간 사망률을 비교하여야 한다.
셋째, 본 연구에서는 2013-2017년 통계청 주민등록연앙인구와 사망통계자료를 이용하여 소지역 수준 기대수명 산출 베이지안 시공간 모형을 평가하였다. 우리나라 모든 시·군·구 여성 인구수가 500명, 1,000명, 2,000명, 5,000명, 10,000명, 25,000명임을 가정한 시나리오별로 몬테 카를로 시뮬레이션 방법을 이용하여 1,000개의 가상 데이터셋을 생성하였다. 각 시·군·구의 연령 구조는 실제 연령 구조를 유지하였다. 각 데이터셋을 전통적 기대수명 산출 방법, 베이지안 공간 및 시공간 모형들을 이용하여 산출하고 각 방법의 정확성, 95% 불확실성 구간의 넓이와 함께 참값을 포함할 확률로 정의한 보장률, 정규성 등을 비교하였다. 베이지안 시공간 모형은 선형 항과 비선형 항의 포함 여부가 다른 세 종류의 모형을 이용하였다. 분석 결과, 모든 시나리오에서 베이지안 공간 및 시공간 모형은 전통적 기대수명 산출 방법보다 정확한 기대수명 산출이 가능하였다. 베이지안 공간 모형에 비해서 시공간 모형의 정확성이 더 나았다. 베이지안 시공간 모형을 이용하여 산출한 95% 불확실성 구간의 넓이는 전통적 기대수명 산출 방법을 이용하여 산출한 넓이의 20-60%였고 보장률은 95%를 하회하였다. 전통적 기대수명 산출 방법을 이용할 경우 인구수가 10,000명 이상일 때 정규성을 만족하였지만 베이지안 공간 및 시공간 모형은 인구수가 500명일 때도 정규분포에 근사하였다. 그러나 베이지안 시공간 모형은 인구수가 많은 시나리오에서는 정규성을 만족하지 않았다. 따라서 베이지안 시공간 모형을 이용한 지역 간 기대수명 비교 시 정규성을 가정한 비교가 아니라 사후 분포와 절단값 선정을 이용한 비교가 필요하다.
넷째, 이 연구에서 2013-2017년 국민건강정보DB를 이용하여 남녀별 읍·면·동 수준 기대수명을 산출한 결과, 남성과 여성 모두 도시-농촌 지역 간 기대수명 격차가 나타났는데 여성에 비해서 남성에서 격차가 더 컸다. 지역 내에서도 읍·면·동 간 기대수명 격차가 나타났다. 연구 기간 동안 읍·면·동 수준 기대수명의 중앙값은 남녀 모두 전국 평균 기대수명과 유사한 속도로 증가하였다. 읍·면·동 수준 기대수명의 분산 크기는 미세한 증가 추세를 보였다. 연구기간 동안 읍·면·동별 기대수명의 연평균 변화율 산출 결과, 기대수명의 연평균 변화율은 지역별로 차이가 있었지만 크기가 크지는 않았다. 2013년 기대수명과 연평균 변화율 간 관련성 분석 결과에서도 남녀 모두 유의미한 관련성을 보이지 않았다. 우리나라의 읍·면·동 수준 기대수명을 산출한 결과, 지역 간 및 지역 내 기대수명 격차가 존재하였지만 연구기간 동안 읍·면·동 간 기대수명 격차의 크기가 뚜렷하게 증가하지는 않았다.
본 연구에서는 우리나라의 읍·면·동 수준 사망률을 산출하는 데 이용할 수 있는 자료원과 적절한 측정 도구를 탐색하고, 데이터의 희박성을 극복할 수 있는 산출 방법을 적용하여 최종적으로 실제 읍·면·동 수준 기대수명을 산출하였다. 본 연구 결과는 정책 결정자나 연구자, 대중들로 하여금 지역 간 혹은 지역 내 사망률 격차를 파악하고, 사망률 변화 과정에 대한 이해를 도울 수 있다. 또한 지역 건강 수준에 대한 이해와 정보에 입각한 정책 결정 및 계획을 도울 수 있을 것이다.
Language
kor
URI
https://hdl.handle.net/10371/183241

https://dcollection.snu.ac.kr/common/orgView/000000169128
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share