В связи с расширением полномочий местного самоуправления возрастает потребность в адекватной оценке социально-экономической ситуации на низовом уровне, в том числе ее демографической составляющей.
Проблема, с которой сталкиваются исследователи при расчете показателей дожития для малых популяций, заключается в ненадежности таких оценок, что следует из стохастической природы демографических процессов. Поэтому для вычисления, в частности, таблиц смертности малолюдных совокупностей, возрастает потребность в явном очерчивании границ доверительных интервалов, в которых могут находиться показатели дожития.
Существует два подхода к решению этой проблемы: нахождение стандартной погрешности по соответствующим формулам и нахождение границ доверительных интервалов на основе моделирования чисел умерших по методу Монте-Карло. Более распространенным в практике статистических ведомств является метод, разработанный Ч. Л. Чангом.
Но он не учитывает вклад открытого возрастного интервала. Эта проблема нашла свое решение в работах П. Силкокса и других, а также Е. Ло и других. В этом исследовании были использованы данные о возрастной структуре и естественном движении нескольких административных районов Украины за период 2002-2015 годы. С учетом распределения по полу и типу поселения было исследовано 364 таблицы смертности для совокупностей от 2810 до 46 113 человек.
Стандартная погрешность не превысила 4,5 года для ожидаемой продолжительности жизни при рождении. Минимальная величина стандартной погрешности составила 0,7 года для населения 37-42 тыс. человек. Для населения более 40 тыс. стандартная погрешность не превысила 0,85 года. Для таблиц смертности по соответствующим областям стандартная погрешность ожидаемой продолжительности жизни при рождении не превысила 0,36 года для населения около 200 тыс. человек.
Открытый возрастной интервал дает дополнительный вклад в дисперсию ожидаемой продолжительности жизни при рождении, 10-20% есть у более половины исследованных таблиц. Показано, что сравнение величины ожидаемой продолжительности жизни населения районов, даже одной области не всегда дает определенное представление, в каком из них смертность на самом деле ниже. Этот факт надо учитывать в сравнительной оценке демографического развития территорий субрегионального уровня.
Ключевые слова: таблица смертности, стандартная погрешность, доверительный интервал.
Постановка и актуальность проблемы. Проблема построения таблицы смертности для малого населения очевидна любому, знакомому с законом больших чисел: чем меньше численность населения, тем менее надежными являются его статистические оценки, в частности те, которые содержатся в таблице смертности.
Таким образом, таблица смертности, рассчитанная для сравнительно малого населения, требует явного определения границ доверительных интервалов. Однако текущая практика обычно обходит этап оценки надежности демографических показателей.
Показатели таблицы смертности используют для анализа демографической ситуации, они могут служить индикаторами социально-экономического положения в регионе. Демографические характеристики населения являются важными показателями, на основе которых могут быть приняты управленческие решения.
Поэтому такой инструмент анализа как таблица смертности является необходимым для руководителей разного уровня.
Увеличение компетенций на местном уровне, в соответствии с законом Украины «О внесении изменений в некоторые законодательные акты Украины относительно расширения полномочий органов местного самоуправления и оптимизации предоставления административных услуг» № 888-VIII от 10.12.2015 обусловливает усиление внимания к статистическим данным соответствующего территориального уровня.
Из изложенного материала выше очевидно, что наведение границ доверительных интервалов для основных демографических показателей является актуальным.
Анализ последних исследований и публикаций и нерешенные ранее части общей проблемы. Первым стройную методологию оценки статистической погрешности показателей дожития и ожидаемой продолжительности жизни разработал Ч. Л. Чанг (Ch.L. Chiang), и изложил ее в монографии. Этим методом пользуются статистические службы Канады и Великобритании.
П. Силкокс и др. (Silcocks P.B.S. et al.) впервые привлекли внимание к проблеме оценки погрешности в открытом возрастном интервале, которую Ч. Л. Чанг считал нулевой, и предложили собственную формулу.
Основными целями Б. Тосон (B. Toson) и А. Бейкера (A. Baker) были сравнения методологии расчета таблиц смертности и обретение пригодной для использования в случае малого населения. А также определение минимальной численности, ниже которой ожидаемую продолжительность жизни рассчитывать не целесообразно, и рассмотрение влияния возрастных групп с отсутствием смертных случаев.
По поводу выбора метода вычисления таблиц они нашли, что различия на результатах почти не сказываются. Для установления минимальной численности населения, для которой есть смысл рассчитывать таблицу смертности, они выполнили серию тестов с разной численностью населения – от 1 тыс. до 80 тыс. лиц.
Тесты представляли собой симуляции по методу Монте-Карло для генерирования значений продолжительности жизни с населением, половозрастная структура которого была зафиксирована в соответствии с населением Англии и Уэльса в середине 1991 г.
Положенные в основу коэффициенты смертности базировались на Английских таблицах смертности, которые являются трехлетними таблицами смертности для Англии и Уэльса за годы, смежные с годом переписи.
На основе моделирования определено, что пять тысяч человек являются минимальной величиной, для которой целесообразно исчислять продолжительность жизни. При меньшей численности стандартная погрешность быстро возрастает, а ширина доверительных интервалов достигает более 15 лет для населения в 1 тыс. человек.
Отмечено также, что даже если публикация доверительных интервалов для продолжительности жизни по избирательным округам окажется невыполнимой, идея предоставления мерила вариации к этим показателям будет иметь пользу для других региональных результатов, что является подходящим и для Украины.
Д. Айрес (D. Eayres) и И. Уильямс (E. Williams) подтвердили минимальный размер населения в пять тысяч, для которого можно рассчитать таблицу смертности с приемлемой доверительной вероятностью.
Они заметили, что со снижением размера популяции таблицы смертности имеют тенденцию к завышению ожидаемой продолжительности жизни. Отдельно внимание они уделили проблеме возрастных групп с отсутствием смертных случаев и пришли к выводу, что методы подстановки теоретических величин не улучшают оценку.
С. Щербов (S. Scherbov) и Д. Эдиев (D. Ediev) выполнили моделирование, основанное на использовании таблиц смертности мужчин и женщин некоторых стран Европы и Японии. Для каждой таблицы смертности они нашли возрастные структуры стабильного населения, которые соответствуют годовым темпам роста населения, %: -2, -1, 0, 1 и 2. Численность этих поселений была масштабируема до восьми уровней: 1, 5, 10, 25, 50, 100, 250 тыс. и 1 млн. человек.
Также исследователи сравнили показатели полных и сокращенных таблиц смертности и показали, что использование сокращенной таблицы по сравнению с полной существенно меньше влияет на точность оценки, чем выбор открытого интервала.
Е. Ло и др. (Lo E. et al.) развили предыдущие исследования и сосредоточили внимание именно на проблеме учета открытого возрастного интервала таблицы смертности. Они показали, что смертность в этом интервале может существенно влиять на дисперсию продолжительности жизни, особенно с уменьшением количества человеко-лет под риском смерти. Также они привели в указанном труде исправленную формулу для оценки дисперсии.
Таким образом, в названных работах проблема построения таблиц смертности для малочисленных регионов решалась в целом, для любых случаев, за исключением, в котором вычисления осуществлены на реальных данных регионов Канады.
В Украине население по возрастным группам в малых регионах распределено крайне неравномерно. Поэтому целесообразно рассчитать таблицы смертности с доверительными интервалами для фактических данных населения малых регионов и сравнить с их стационарными аналогами.
Цель статьи. Исследовать возможности построения таблиц смертности для населения отдельных административных районов и городов в зависимости от их населенности; изучить зависимость ширины доверительных интервалов для показателей ожидаемой продолжительности жизни населения от численности населения под риском смерти.
А также выяснить, насколько оправданным является использование возрастной структуры теоретического (стационарного) населения как заменителя реального возрастного спектра населения.
Новизной статьи является сравнительный анализ стандартного отклонения ожидаемой продолжительности жизни при рождении для реальных популяций субрегионального уровня и их теоретических эквивалентов, а также практические рекомендации по построению таблиц смертности для субрегионального уровня с вычислением доверительных интервалов.
Изложение основного материала. В отличие от теоретических популяций или населения Англии и Уэльса в целом, использованных в цитированных выше работах, возрастной спектр населения Украины и ее регионов является довольно пестрым, что обусловлено историческими особенностями демографического развития.
В частности, значительные отличия от общей украинской половозрастной структуры можно найти в малолюдных административных районах с преимущественно сельским населением. Более того, даже реальная возрастная структура населения всей Украины на рубеже тысячелетий сильно отличалась от своего стабильного эквивалента.
Хотя С. Щербов и Д. Эдиев соглашаются, что возрастная структура может значительно влиять на установление доверительных интервалов и значимость вариации, для расчетов они выбирают возрастные структуры стабильного населения, просто масштабируя его к разной численности. Население всей Англии тоже более равномерно распределено по возрасту, чем в отдельных ее графствах.
Статистические данные. Вычисление осуществлено на основе данных текущей (после переписной) оценки численности населения по полу и возрасту за период 2002-2015 гг. Для Гороховского (Волынской), Мироновского (Киевской), Беляевского, Захаровского (Одесской), Дергачевского (Харьковской области) районов, г. Новоград-Волынский (Житомирской) и Новокаховского горсовета (Херсонской области).
Выбор именно этих административных единиц основывается на опыте предыдущих расчетов, которые показали, что смертность в некоторых из этих районов на удивление точно соответствует областному уровню (с учетом особенностей половозрастной структуры), а других наоборот – сильно отличается. Поэтому решено подробнее их исследовать.
Численность населения выбранных административных единиц варьирует от 2810 до 46113 человек. Поскольку рассматриваемый период охватывает 14 календарных лет, то численность исследуемых популяций составляет 364 единицы.
Детализация половозрастной структуры: по однолетним возрастным группам до 69 лет и укрупненной возрастной группе 70 лет и старше, за исключением данных переписи 2001 года. Также были доступны числа умерших лиц по полу, возрасту (по однолетним возрастным группам) и годам рождения (по однолетним когортами).
Оценка численности населения по возрастным группам в пределах группы 70 и старше была осуществлена по когортам от данных последней переписи. Если оказывалось, что когорта вымирала полностью, и значение становилось отрицательным, употребляли гипотезу, что умерли те, кто прибыл в этом же календарном году. Конечно, они могли прибыть и в предыдущие годы и не зарегистрироваться, здесь гипотеза сложнее, но не более правомерна.
Метод. Сокращенные таблицы смертности для указанных выше административных единиц вычислены демографическим методом (на основе возрастных коэффициентов смертности). Если в определенном интервале (даже пятилетнем) не случилось смертей, то для него находили гипотетическое число смертей, исходя из коэффициента смертности в этом возрасте для всего региона. Такой подход использует статистическая служба Канады, а также Е. Ло и другие.
Конечно, это искусственно завышает смертность. Однако нулевой коэффициент смертности определяет нулевую вероятность умереть, хотя очевидно, что вероятность смерти существует в любом возрасте. Здесь отсутствие смертей в некоторых возрастных интервалах предопределяет определенное завышение ожидаемой продолжительности жизни и, соответственно переоценку «успехов», достигнутых малыми популяциями.
Коррекция именно числа умерших лиц, а не вероятности смерти, что было бы логично в контексте данного исследования обусловлена потребностью в положительном числе смертей. Поскольку их отсутствие, согласно формуле (1), приводит к делению на ноль.
Поэтому, если в данных о количестве смертей в возрастном интервале случается ноль, то соответствующую численность населения следует умножить на коэффициент смертности в этом же возрасте в регионе, частью которого является исследуемое население.
Если в исследуемом регионе отсутствует население в определенном возрасте (даже в пятилетнем возрастном интервале), что случается в старших возрастных группах, то открытый возрастной интервал следует снижать до того возраста, в котором коэффициент смертности будет выше предыдущего (младший) возрастной интервал.
Среди исследуемого набора популяций для 42 открытый интервал составляет 100 лет и старше, для 95 – открытый интервал 95 лет и старше, для 125 – 90 лет и старше, для 77 – 85 лет и старше, для 25 оказалось необходимым снизить начало открытого интервала до 80 лет. Для удобства дальнейшего анализа все таблицы были приведены к открытому интервалу 85 лет и старше.
Из-за громоздкости расчетов и соответствующих исходных таблиц для наглядного примера были выбраны только городские женщины Беляевского района Одесской области в 2003 г.
Причинами этого была их довольно малая численность (8428,5 лиц на середину 2003 г.). Для формирования достаточно широкого доверительного интервала, но не слишком малого, чтобы демонстрировать пример, что не рекомендован для расчетов. Год для примера был выбран — 2003, поскольку он достаточно близок к данным переписи населения, но доверительный интервал несколько шире, чем случился в 2002 г.
Так, в приведенном примере для нахождения ненулевых значений умерших в возрастных группах 0, 1-4, 10-14, 15-19 и 20-24 года численность городских женщин Беляевского района была умноженная на коэффициенты смертности городских женщин Одесской области в 2003 г. в соответствующем возрасте.
Результат приведен в статье 4 (таблица). Таким образом, с 364 исследуемых популяций до 14 не было добавлено умерших лиц. К 200 добавлено менее 1% умерших, к 128 – от 1 до 5% и до 22 единиц было добавлено более 5% дополнительных умерших.
Следует отметить, что существуют и другие подходы к решению проблемы отсутствия смертей в интервале. Так, П. Силкокс с соавторами в таких случаях предлагают вводить положительное малое число 0,693 или 3. В. Тосон и А. Бейкер, Е. Андреев (E. Andreev) и В. Школьников (Shkolnikov V.) использовали метод Монте-Карло для моделирования случайных величин чисел умерших.
Ч. Л. Чанг постулирует, что, поскольку вероятность смерти в открытом возрастном интервале равна единице, а вероятность дожития соответственно равна нулю, то дисперсия этой величины тоже равна нулю. Однако стохастическая вариативность показателей таблицы смертности вытекает не из вероятности дожития как такового, а из малых чисел умерших. Поэтому Е. Ло и др. учитывая неуверенность показателей смертности открытого возрастного интервала, предложили добавлять поправочный член.
Таким образом, в ст. 14 (таблица) записана вероятность дожить от начала текущего до начала открытого возрастного интервала. В ст. 15-ой квадрат, поделенный на произведение численности населения и куба коэффициента смертности открытого возрастного интервала (6). Сумма ст. 13 и 15 по строкам дает выборочную дисперсию ожидаемой продолжительности жизни с учетом вклада открытого возрастного интервала (ст. 16 в таблице).
Иными словами, первое слагаемое формулы (8) тождественно формуле дисперсии Ч. Л. Чанга (4), но со своей дисперсией вероятности дожития. Соответственно и вычисляется аналогично, что показано в ст. 19-24.
Пример расчета второго слагаемого формулы (8) приведены в ст. 25, а именно: квадрат каждой строки ст. 14 нужно разделить на произведение куба коэффициента смертности открытого возрастного интервала и численности населения в том же интервале и умножить на соотношение последних строк ст. 19 и 20 (таблица).
Таким образом, дисперсия ожидаемой продолжительности жизни с над дисперсией и учетом открытого возрастного интервала (ст. 26) будет суммой ст. 24 и 25 по строкам. Чтобы получить стандартное отклонение ожидаемой продолжительности жизни (ст. 27) следует найти квадратный корень из значений в ст. 26 (таблица). В ст. 28 приведена относительная погрешность (соотношение дисперсий) с учетом открытого возрастного (ст. 27) интервала и без него.
Результаты. Как следует из таблицы, смертность в открытом возрастном интервале действительно может давать заметный вклад в дисперсию ожидаемой продолжительности жизни. Из формул (6) и (8), предложенных E. Ло и др., видно, что для этого должна сложиться ситуация со сравнительно малым коэффициентом смертности в открытом возрастном интервале и со сравнительно малой численностью населения в нем же.
Так, в 202 из 364 построенных таблиц смертности открытый интервал 85 лет и старше дополнительно внес в дисперсию ожидаемой продолжительности жизни при рождении от 10 до 20%.
Вычисления показали, что ширина доверительных интервалов, в которых лежит ожидаемая продолжительность жизни при рождении с 95% вероятностью, быстро совпадает с увеличением численности населения под риском смерти. Для населения менее пяти тысяч стандартная погрешность составляет от 2,12 до 4,48 года, для населения от пяти до 10 тысяч – от 1,56 до 2,71 года, от 40 до 47 тысяч не превышает 0,85 года.
Самая стандартная ошибка ожидаемой продолжительности жизни при рождении оказалась в сельских мужчин горсовета Новой Каховки – от 3,05 до 4,48 года. Конечно, это наименьшая совокупность из исследованных — менее трех тысяч человек.
Интересно, что по абсолютной величине стандартная погрешность ожидаемой продолжительности жизни при достижении 60 лет близка к соответствующей при рождении. Так, график 1,96 стандартного отклонения выглядит очень схоже (рис. 2), хотя, конечно, относительная погрешность значительно больше для возраста 60 лет: для ожидаемой продолжительности жизни при рождении стандартная погрешность не превышает 7%, а при достижении 60 лет может составить 31%.
Интересной проблемой является правомерность использования теоретического населения, эквивалентного реальному. Расчеты показывают, что стандартная погрешность ожидаемой продолжительности жизни при рождении у теоретического населения, что по общей численности тождественная реальному населению, обычно ниже.
Из 364 анализируемых случаев такая ситуация имеется в 267. Причем существенное отличие может случиться даже для населения более 35 тысяч, как это произошло в совокупности женщин Новой Каховки – разница составила более 10%.
В общем, особой зависимости от численности не наблюдается, и даже по численности населения около пяти тысяч человек стандартная погрешность ожидаемой продолжительности жизни для реального населения может быть близкой к его стационарному аналогу. Конечно, здесь сказывается, с одной стороны, степень близости возрастного распределения реального и стационарного населения, а с другой – величина погрешности, значение которой является большим в меньшей популяции.
Так, в упомянутом случае возрастная структура женщин Новой Каховки (37 тыс. человек) заметно отличается от своего стационарного эквивалента. Стандартная погрешность составила 0,87 года против 0,79 года (разница в 10,2%) в стационарном населении.
Если взять в сравнение население почти в десять раз меньше – городских мужчин Захаровского района (4 тыс. лиц), то стандартная погрешность в реальном и стационарном населении оказалась тождественной до второго знака после запятой (2,58 года), а относительная разница составила лишь двадцатую часть процента.
На рис. 4 видно, что возрастная структура городских мужчин Захаровского района заметно ближе к своему стационарному эквиваленту, чем структура женщин Новой Каховки. Таким образом, использование теоретической возрастной структуры является оправданным, если исследовано ее сходство с реальным.
Ч. Л. Чанг рассматривает число умерших лиц как биномиальную случайную переменную от численности населения. Отсюда вытекают возможности моделирования чисел умерших по методу Монте-Карло (генерирование случайных чисел), что было осуществлено в работах.
Сравнение метода, предложенного E. Ло и др. с алгоритмом Е. Андреева и В. Школьникова дает подобные результаты. Например, доверительные интервалы ожидаемой продолжительности жизни при рождении для городских женщин Беляевского района достаточно близки. Метод E. Ло и др. всегда имеет более широкие границы доверительного интервала вследствие учета дополнительных факторов неопределенности (о чем говорилось выше), которые не учитывал Ч. Л. Чанг.
Например, понятно, что продолжительность жизни городских и сельских мужчин одного горсовета (Новой Каховки) вряд ли может сильно отличаться. Расчет соответствующих таблиц смертности показывает, что сельские мужчины живут в среднем заметно меньше, за исключением 2004 и 2010 гг.
Однако, учитывая неопределенность, обусловленную малой численностью сельских мужчин горсовета и, соответственно, малым числом умерших, можно видеть, что ширина доверительных интервалов ожидаемой продолжительности жизни при рождении городских мужчин почти полностью перекрывается доверительным интервалом сельских мужчин.
По методу Ч. Л. Чанга, стандартная погрешность ожидаемой продолжительности жизни с возрастом снижается. По методу, предложенному Е. Ло и др., – сначала снижается, затем в старших возрастных группах растет. Это обусловлено преимущественно учетом вклада открытого возрастного интервала.
Выводы. Методы, используемые в этом исследовании, позволяют рассчитать стандартные погрешности и доверительные интервалы для ожидаемой продолжительности жизни при достижении точного возраста.
Расчет таблиц смертности для регионального (и субрегионального) уровня с соответствующей дополнительной информацией о доверительных интервалах, в которых находятся отдельные показатели, будет способствовать более глубокому пониманию динамики процессов смертности. Это, в свою очередь, позволит более корректное сравнение показателей регионов с разной численностью и половозрастной структурой населения, и принять более взвешенные управленческие решения.
Соответственно, решается проблема, для какой численности населения целесообразно производить подобные вычисления, поскольку пользователь получает конкретное значение ширины доверительного интервала, следовательно, может решить, удовлетворяет ли такая точность его потребности.
В дальнейших исследованиях целесообразно в явном виде учитывать стохастичности демографических процессов, в частности в процессе составления демографических прогнозов, что имеет особое значение для малолюдных регионов.
Автор: П.Е. Шевчук, кандидат экономических наук, старший научный сотрудник, Институт демографии и социальных исследований им. М.В. Птухи НАН Украины, E-mail: pavlo-shevchuk@ukr.net
Источник: Журнал «Демография и социальная экономика»
Перевод: BusinessForecast.by
При использовании любых материалов активная индексируемая гиперссылка на сайт BusinessForecast.by обязательна.