Количество украинцев, работающих за рубежом, растет, а имеющиеся статистические, социологические и административные данные не могут удовлетворить потребности исследователей, экспертов и специалистов органов государственного управления в своевременных и не искривленных данных.
В итоге в публикациях представлены существенно отличные оценки масштабов и тенденций миграционных процессов. В такой ситуации исследователи все чаще пытаются использовать альтернативные источники информации, к которым относятся «большие данные». Они не только решают вопрос своевременности получения информации, но и дают возможность получить информацию по вопросам, в отношении которых ранее показания были «точечными» (например, маршруты нелегальных мигрантов).
Описаны основные типы «больших данных», которые могут быть использованы для изучения миграции, их доступность для исследователя и основные недостатки. Для оценки потенциала использования «больших данных» выполнено пилотное исследование с использованием информации из открытых источников, а именно Google Trends и интернет-сайтов для поиска работы.
Показано, что данные Google Trends отражают изменение направлений трудовой миграции из Российской Федерации в пользу Польши после 2014 г. (когда начался конфликт на востоке Украины). В то же время, структура вакансий с интернет-сайтов для поиска работы не соответствует профессиональной структуре трудовых мигрантов из Украины.
Сделан вывод, что на данный момент в Украине «большие данные» открытого доступа могут помочь только поверхностно охарактеризовать тенденции миграционных процессов, но не могут показать численность трудовых мигрантов, то есть могут служить дополнением к традиционным статистическим данным.
До основных барьеров для формирования решений на основе «больших данных» в изучении социальных процессов относятся низкий уровень использования интернета в Украине (по сравнению с развитыми странами), отсутствие законодательного регулирования вопроса доступа исследователей к данным частных компаний и нехватка специалистов необходимой квалификации.
Ключевые слова: трудовая миграция, источники данных, «большие данные», Google Trends, интернет, источник данных.
Постановка проблемы и актуальность. Сложная экономическая ситуация в Украине обусловила ныне значительную актуальность вопросов трудовой миграции. На данный момент точные данные о количестве украинцев, которые работают за рубежом, отсутствуют, Государственная служба статистики Украины указывает на 1,3 млн. человек (по обследованиям «Внешняя трудовая миграция населения Украины» 2015-2017 гг.), а по информации из других источников количество может превышать 2 млн. человек.
Основная причина такой разницы в оценках обусловлена отсутствием единой методики исследования процессов трудовой миграции в Украине. Источниками данных о трудовой миграции в различных странах служат реестры населения (административные данные), данные о виде на жительство, пересечении границы и обследовании (опроса).
В Украине Госстат дает оценки о количестве трудовых мигрантов на основе обследования по теме «Внешняя трудовая миграция населения Украины», которое имело три раунда 2005-2008, 2010-2012, 2015-2017 гг.
Основными недостатками этого источника данных является рост количества лиц, которые отказываются участвовать в обследовании; предоставление респондентами некорректной информации (особенно, если пребывание за границей было нелегальным); смещение оценок из-за не охвата лиц с доходом выше среднего; несвоевременность данных через значительный временной промежуток между сбором информации и обнародованием результатов исследования.
Кроме этого, точность оценок количества трудовых мигрантов вызывает сомнения из-за отсутствия данных о численности всего населения — последняя перепись состоялась в декабре 2001 года. В данном случае проблема определения точного количества лиц, работающих за рубежом, усугубляется из-за не урегулирования вопроса о статусе лиц с двойным гражданством.
Законом Украины запрещено иметь двойное гражданство, однако часть населения, живя большую часть времени на территории Украины и имея паспорт гражданина Украины, получают паспорта других государств (например, Российской Федерации, Венгрии, Болгарии). Или имеет документы, которые позволяют работать за границей в течение определенного периода без дополнительных разрешений/виз (например, карта поляка или биометрический паспорт в Венгрии).
В результате возникает необходимость привлечения новых источников информации для осуществления оценки трудовой миграции. Таким источником могут быть данные стран-реципиентов трудовых мигрантов. Например, информацию о выданных разрешениях на проживание по стране гражданства публикует Евростат.
Существенным недостатком таких данных является то, что они учитывают только тех, кто легально находится в стране.
Кроме этого, в последнее время предпринимаются попытки адаптировать к потребностям статистики другой альтернативный источник – «большие данные» (Big Data). Поскольку «большие данные» – это массивы информации, которая обновляются в режиме реального времени, существует возможность оперативно осуществлять оценку того или иного процесса и соответственно корректировать прогнозы развития явления наукастинг (от англ. nowcasting) – прогнозирование настоящего и ближайшего будущего.
Анализ имеющихся исследований. В западной литературе уже есть разработки по использованию «больших данных» в исследовании миграционных процессов. Речь идет, например, о работах Э. Загхени и др. (E. Zagheni et al.), Дж.Е. Блуменстока (J.E. Blumenstock), Я. Новака и др. (J. Novak et al.), Д. К. Владыки (D.K. Wladyka), М. Бохме (M. Böhme).
Украинских публикаций об использовании «больших данных» в изучении миграции во время анализа литературы мы не нашли. Однако в сфере социальных наук опубликован ряд тематически разрозненных работ, в которых охарактеризовано влияние «больших данных» или проиллюстрировано их использование. Это статьи О. Кисловой (O. Kyslova), В. Сариогло (V. Sarioglo), O. Хмелевской (O. Khmelevska), В. Кучерук и др. (V. Kucheruk et al.).
Стоит заметить, что основным недостатком широкого внедрения решений на основе «больших данных» в Украине, по сравнению с другими странами, является низкий уровень пенетрации интернета.
По данным Всемирного банка, в Украине в 2016 году процент пользователей интернета среди всего населения составлял 53%; для сравнения: в странах Вышеградской группы самый низкий процент в Польше – 73,3%, среди государств Прибалтики – в Литве (74,4%). Такой низкий уровень проникновения интернета в Украине ставит под сомнение возможности использования «больших данных» для анализа.
Целью статьи является оценка возможности использования «больших данных» отдельно или вместе с данными из традиционных источников для оценки различных аспектов трудовой миграции в Украине.
Научная новизна заключается в осуществлении пилотного исследования по сравнению данных официальной украинской статистики по трудовой миграции с данными, полученными из интернет-источников («большие данные»).
Методы и материалы. Информационной базой исследования были данные с платформы Google Trends; данные о вакансии с интернет-сайтов поиска работы; результаты исследования по теме «Внешняя трудовая миграция населения Украины», выполненного Государственной службой статистики Украины.
Результаты анализа данных, полученных из интернета, были сопоставлены с результатами исследования по теме «Внешняя трудовая миграция населения Украины» (на уровне сравнения процентов) для определения целесообразности использования данных из интернета для изучения трудовой миграции.
Изложение основного материала. В этой статье использовано определение «больших данных», которое подает ООН: «большие данные» – это большой по объему массив структурированной и неструктурированной информации, обработка которой требует использования новейших техник. Выделяют три главные характеристики «больших данных»:
1) большой объем (размер базы данных);
2) высокое разнообразие (обрабатываются данные различных источников и различных типов);
3) высокий уровень скорости накопления данных и их первичной обработки. Эти три характеристики называют «три V» от английских слов volume (объем), variety (разнообразие) и velocity (скорость).
Для изучения миграционных процессов, в том числе трудовой миграции, используют данные из различных источников.
Основным преимуществом использования «больших данных» является возможность получить данные своевременно (с минимальным промежутком времени между сбором данных и их доступностью для обработки исследователем или в режиме реального времени).
Это облегчает прогнозирование миграционных потоков, которые раньше считали «неожиданными» (например, в результате войны / экологической катастрофы и др.); эти данные охватывают значительные по численности группы людей; условия доступа к источнику данных, а именно отсутствие финансовых затрат на их сбор.
Основной проблемой в изучении миграции на основе «больших данных» является использование исследователями геотегов (например, из сообщений в социальных сетях или данные мобильных операторов). Таким образом, отслеживается исключительно пространственное перемещение, а информация о цели перемещения (туризм, учеба, работа и др.) остается вне поля зрения исследователей.
В случае измерения мобильности работа-дом можно на основе временных границ (день, ночь, время суток) установить местонахождение дома и места работы. В случае изучения международной миграции ситуация осложняется невозможностью отделить туристов от трудовых мигрантов и мигрантов, которые переезжают навсегда; установить гражданство лица.
Другим источником, который может вызвать смещение (некорректность) оценок на основе «больших данных», является отсутствие достоверной информации о пользователях (абонентах). Так, пользователи социальных сетей могут подавать о себе искаженную информацию, а исследователи не могут ее проверить. В случае данных мобильных операторов, даже если приобретение номера осуществляется по паспорту, лицо, которое купило номер, может передать номер в пользование другому лицу.
Хотя вряд ли такое искажение информации значимо, передачу номеров практикует незначительное количество людей, но это подчеркивает проблему репрезентативности в подобных исследованиях. Из-за отсутствия точных данных о социально-демографических характеристиках совокупности, от которой была получена информация, исследователи ничего не могут сказать относительно того, полученные данные являются ли репрезентативными в отношении всего населения или определенных групп.
Для нашего дальнейшего исследования были использованы данные Google Trends относительно запросов, касающихся работы за рубежом. Чтобы определить, могут ли данные из этого источника быть использованы для определения основных тенденций в трудовой миграции в Украине, они были сопоставлены с данными результатов исследования по теме «Внешняя трудовая миграция населения Украины».
Данное обследование осуществляет Государственная служба статистики Украины, включая лиц в возрасте от 15 до 70 лет, которые работали за границей в течение соответствующего периода. Для 2010-2012 гг. – с 1 января 2010 г. до 17 июня 2012 г. (включает АР Крым), для 2015-2018 гг. – с 1 января 2015 г. до 18 июня 2017 г. (не включает АР Крым).
Методология обследования предусматривает, что опросить могут: лица, которые работали за рубежом в определенный период и вернулись в Украину на момент проведения опроса; у лиц, которые на момент опроса все еще работали за границей – можно было опросить членов их домохозяйств.
Данные Google Trends (включают АР Крым как территорию Украины) рассмотрены за период 01.01.2013–31.12.2018. Данные до 2013 г. не рассмотрены из-за низкого уровня пользования Интернетом в этот период в Украине (в 2013 г. – 40,9% населения, в 2012 г. – 35,2%). Безусловно, 40,9% не является достаточной долей для определения тенденций на уровне Украины, но включение данных от 2013 г. позволит отследить изменение направлений миграции после начала конфликта на востоке Украины.
Google trends – платформа, на которой пользователь получает доступ к данным по относительной частоте поиска (индекс) любых сроков (поисковых запросов).
Пользователь сам вводит срок, определяет регион (например, Украина или Киевская область) и период времени и получает данные о популярности срока в указанном регионе за указанный период времени. Индекс рассчитывается как отношение объема этих запросов ко всем запросам в Google. Полученное число нормируется на шкале от 0 до 100, соответственно 100 показывает, когда именно поисковый запрос был «самым популярным».
На основе исследования по теме «Внешняя трудовая миграция населения Украины» были выделены страны, куда направляется больше всего трудовых мигрантов: Италия, Польша, Российская Федерация и Чехия. Далее для каждой страны был создан перечень поисковых запросов, которые содержали слово работа или вакансия (например, «работа в Италии», «работа Италия», «работа Рим» и др.).
В поисковых запросах использованы также названия страны или столицы. В отношении Российской Федерации в запросах учтен и город Санкт-Петербург, Италии — Милан. На этапе отбора поискового запроса использованы запросы на украинском, русском, английском языке и национальном языке страны (например, для Италии – итальянском).
Далее из всего перечня запросов для одной страны отбирали один запрос, который имел самую высокую среднюю частоту за исследуемый период. Для поиска работы в Италии таким был запрос «работа в Италии», для Польши – «работа в Польше», для России – «работа в Москве», в Чехии – «работа в Чехии» (все запросы на русском языке).
По данным Google Trends прослеживается изменение основных направлений поиска работы за рубежом: если до 2014 г. (когда начался вооруженный конфликт) работу в основном искали в Российской Федерации, то после 2014 г. произошло снижение количества поисковых запросов по работе в РФ и значительное увеличение количества запросов по работе в Польше.
Это находит отражение и в данных обследования по теме «Внешняя трудовая миграция населения Украины», которые показывают переориентацию направлений трудовой миграции из России на Польшу.
Кроме этого, по данным Google Trends можно увидеть, что «пиковая» популярность работы в Польше приходится на февраль 2015 года. Это можно сопоставить с событиями на востоке страны (в январе 2015 г. активизировались бои за Донецкий аэропорт) и с девальвацией национальной валюты, что значительно могло повлиять на миграционные настроения населения в Украине из-за долларизации экономики.
Рост индекса Google Trends относительно запросов о работе в Польше происходит в основном в январе – марте каждого года. Наиболее вероятно, в данные периоды пользователи интернета ищут информацию относительно необходимых документов для выезда на сезонные работы.
По данным Евростата, в Польше в 2017 году было выдано около 545 тыс. разрешений на проживание гражданам Украины (в связи с трудоустройством, впервые выданы разрешения), из них – 91% на сезонные работы.
Результаты опроса домохозяйств показывают, что доли лиц, которые имели работу в Италии и Чехии, довольно близких к значительным изменениям до/после 2014 г. не наблюдаем. Это в принципе подтверждается на данных Google Trends, но кривая запросов о работе в Чехии со второй половины 2016 г. постепенно растет. Однако произошло ли изменение направлений миграции (с Италии на Чехию), можно будет определить только после получения новых данных обследования.
Еще одним источником данных о работе за пределами Украины могут быть сайты, на которых размещаются объявления об имеющихся вакансиях за рубежом. Например, ниже приведены результаты, полученные на основе анализа объявлений о вакансиях с двух сайтов – hh.ua и flagma.pl. Сайт hh.ua входит в пятерку сайтов для поиска работы в Украине (сентябрь 2018 г., по данным Factum Group, – по уровню охвата аудитории 1+). На этом сайте помещены объявления о вакансиях в Украине и за ее пределами.
С этого сайта были отобраны только предложения в РФ. Сайт flagma.pl имеет самый большой трафик из Украины (по состоянию на 11.2018 – 30,5%) среди польских сайтов для поиска работы (проанализирован трафик по данным сайтов praca.pl, pl.jooble.org, infopraca.pl, pracuj.pl). Поскольку объявления на сайте представлены в основном на русском и украинском языках. С этого сайта были отобраны вакансии в Польше.
Выгрузка объявлений с сайта выполнена с помощью приложения с платформы dexi.io. Одним из преимуществ этой платформы является то, что в ней есть визуальный редактор веб-механизмов, что дает возможность работать с программой людям, не знакомым с кодировкой. Еще одно преимущество заключается в том, что все созданные и использованные пользователем «инструменты» (алгоритмы программы) контролируются самой платформой, поэтому не нужно настраивать сервер и внутренние базы данных.
Благодаря широкому спектру функций в наборе инструментов был создан инструмент, который сканировал веб-страницы сайтов для поиска работы, «вытягивал» и трансформировал веб-данные в таблице. Скорость сканирования составляет около 30 вакансий в минуту (учитывая, что среднее количество вакансий на странице – 20), из этого следует, что за полный рабочий день создается база вакансий из более 40 000 позиций, которые могут быть структурированы по городам, профессиям и тому подобное.
По названию работы в объявлении все вакансии были закодированы по классификатору профессий (версия от 2010 г.; на уровне кода с первого знака; на основе сравнения названия работы в вакансии и названия профессии). Существенным недостатком такого кодирования является то, что, например, все вакансии менеджеров были отнесены к категории «Законодатели, высшие государственные служащие, руководители, менеджеры».
На следующем этапе мы решили проверить, соответствует ли структура вакансий с сайтов поиска работы в структуре профессий трудовых мигрантов из Украины в Польше и РФ. Данные в таблице свидетельствуют, что структура вакансий с сайтов не соответствует структуре профессий трудовых мигрантов, за исключением группы «простейшие профессии» в Польше.
Также по вакансиям с сайтов видно смещение вакансий в Польше в сторону самых простых профессий, а в РФ – в сторону профессий с кодами 1-4 (по результатам исследования этот сдвиг не столь значительный: по профессиям с кодами 1-4 в РФ работало 13,3% мигрантов, а в Польше – 2,4%).
Этот сдвиг может быть обусловлен различным типом сайтов: на flagma.pl работодатели могут поместить объявления бесплатно, а на hh.ua при размещении объявления необходимо оплатить сразу, что «отфильтровывает» значительную часть работодателей, которые ищут работников для работы на заводах или в сельском хозяйстве.
Различия между данными с сайта поиска работы и данными статистического обследования может быть результатом того, что не были рассмотрены все сайты для поиска работы: например, как указано выше, на сайте flagma.pl объявления в основном представлены на русском и украинском языках.
Соответственно, профессии, требующие знания языка (коды 1-5) будут размещены работодателем на других сайтах. Также является ограничением, что данные с сайта для поиска работы были взяты по состоянию на одну дату. Вероятно, что при отслеживании более длинных промежутков во времени результаты были бы более точными.
Потенциально данные с сайтов поиска работы должны указывать на основные тенденции относительно того, спрос на которые удовлетворяется за счет рабочей силы из Украины.
С украинской стороны единственным источником данных по мигрантам является обследование по теме «Внешняя трудовая миграция населения Украины», но оно не учитывает граждан, уехавших семьями. Это затрудняет сопоставление данных сайтов и обследование, учитывая, что политика, например, РФ, поощряет переселение на территорию страны именно целых семей, в том числе по программам, которые предоставляют финансовую помощь каждому члену семьи.
Таким образом, спрос на представителей определенных профессий удовлетворяется в стране-реципиенте, что не находит отражения в данных украинской статистики.
Выводы. Предпринята попытка определить потенциал использования «больших данных» для оценки определенных аспектов трудовой миграции в Украине. Полученные результаты свидетельствуют, что динамика поисковых запросов (на примере Google Trends) отражает основную переориентацию с работы в России на работу в Польше, имевшую место после 2014 г.
В то же время, возможность сопоставления структуры вакансий с сайтов поиска работы и структуры профессий трудовых мигрантов, оцененных по результатам исследования по теме «Внешняя трудовая миграция населения Украины», является проблематичной и требует дальнейших исследований.
В целом, данные, полученные из Google Trends, могут быть использованы для приближенной, качественной характеристики процессов, тогда как проблема масштабов трудовой миграции остается нерешенной.
С учетом низкого уровня пользования Интернетом в Украине представляется, что, по крайней мере, в ближайшие годы, исследователи должны сочетать использование данных интернет с данными из традиционных источников.
Серьезными барьерами для использования «больших данных» являются:
1) отсутствие законодательного регулирования, которое бы обеспечивало специалистам органов государственной власти, экспертам и исследователям доступ к не персонифицированным данным частных компаний;
2) нехватка специалистов по анализу «больших данных»;
3) нехватка доступного методического и программного обеспечения для работы с «большими данными».
По результатам выполненного исследования можно прийти к выводу, что традиционные методы исследования процессов трудовой миграции на основе статистических и административных данных как основы для обоснованных управленческих решений в Украине вряд ли уступят «большим данным» в ближайшей временной перспективе.
Авторы: А.В. Веремчук, главный экономист, Институт демографии и социальных исследований им. М. В. Птухи НАН Украины, E-mail: anne.veremtchouk@gmail.com
М.А. Розбицкий, аспирант, Институт демографии и социальных исследований им. М. В. Птухи НАН Украины, E-mail: mishanyarozbitskiy@gmail.com
Источник: Журнал «Демография и социальная экономика»
Перевод: BusinessForecast.by
При использовании любых материалов активная индексируемая гиперссылка на сайт BusinessForecast.by обязательна.