Выборка 10% микроданных переписи населения 2010 г: различия между версиями
Editor (обсуждение | вклад) (→Известные ограничения данных: загружен контент) |
Editor (обсуждение | вклад) (→Внесенные в набор данных изменения по сравнению с источниками: загружен контент) |
||
Строка 150: | Строка 150: | ||
== Внесенные в набор данных изменения по сравнению с источниками == | == Внесенные в набор данных изменения по сравнению с источниками == | ||
Для формирования выборки используется систематический сэмплинг (Two-Stage Systematic Sampling). | |||
* Сначала с помощью систематического сэмплинга отбираются частные домохозяйства, соответствующие выбранному критерию по числу лиц, проживающих в этих домохозяйствах (для десятипроцентной выборки — не более семи лиц в одном домохозяйстве). | |||
* На втором этапе отбираются все индивиды, проживающие в этих домохозяйствах. | |||
Отбор домохозяйств происходит по следующему алгоритму. | |||
# Исключаются наблюдения, которые соответствуют временно пребывающим на территории России и лицам из коллективных домохозяйств (наблюдения, соответствующие домохозяйствам бездомных, сохраняются), а также лицам, проживающим в населенных пунктах, которые входят в состав закрытых административно-территориальных образований (ЗАТО). | |||
# К микроданным, исходя из кода ТЕРСОН-МО населенного пункта, в котором проживает домохозяйство, добавляются географические атрибуты: код федерального округа, код региона, код муниципального района/городского округа/внутригородского района. | |||
# Уникальная выборка домохозяйств последовательно упорядочивается по следующим атрибутам: | |||
## федеральный округ; | |||
## регион; | |||
## муниципальный район, городской округ, внутригородской район; | |||
## тип населенного пункта (город/село); | |||
## количество лиц, проживающих в домохозяйстве; | |||
## идентификатор домохозяйства. | |||
# Выбирается случайное число от 1 до 10. С шагом 10 отбираются номера домохозяйств, включаемых в выборку. | |||
На втором этапе в выборку включаются все индивиды, которые проживают в отобранных домохозяйствах. | |||
== Источники данных == | == Источники данных == | ||
== Ответственные за набор данных == | == Ответственные за набор данных == |
Версия 13:12, 14 декабря 2021
История изменений
Дата | Версия | Автор | Описание изменений |
---|---|---|---|
16.12.2021 | 1.0 | Копыток Витовт Константинович | Документ создан |
Кузьмина Юлия Викторовна | |||
Тихонов Сергей Владимирович |
Общая информация о датасете
Десятипроцентная выборка с микроданными Всероссийской переписи населения 2010 года по частным домохозяйствам и индивидам, проживающим в этих домохозяйствах.
При формировании выборки использовался метод систематического сэмплинга (Two-Stage Systematic Sampling), а также исключались наблюдения, которые соответствуют временно пребывающим на территории России, лицам из коллективных домохозяйств и лицам, проживающим в населенных пунктах, которые входят в состав ЗАТО. При формировании выборки не учитывались домохозяйства, в которых проживает восемь и более лиц.
В каталоге в продвинутом режиме доступа размещена расширенная двадцатипроцентная выборка.
Единица наблюдения в датасете — член частного домохозяйства. Выборка разделена на восемь частей по федеральным округам. Минимальный уровень географической детализации — муниципальное образование второй ступени (муниципальные районы, городские округа и внутригородские районы).
В выборке представлены основные показатели из переписных листов: характеристики индивидов (возраст, пол, уровень образования, владение языками, экономическая активность, источники дохода и др.), характеристики домохозяйства (размер, родственные связи) и информация об основных характеристиках жилища.
Всего набор содержит 13 588 397 наблюдений по 67 атрибутам.
Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»).
Общее описание набора данных
Атрибут | Значение |
---|---|
Общие сведения | |
Полное наименование набора данных | Микроданные переписи населения 2010 г.: десятипроцентная выборка по частным домохозяйствам и индивидам |
Сокращенное наименование набора данных | Выборка 10% микроданных переписи населения 2010 г. |
Краткое описание набора данных | Десятипроцентная выборка с микроданными Всероссийской переписи населения 2010 года по частным домохозяйствам и индивидам, проживающим в этих домохозяйствах.
При формировании выборки использовался метод систематического сэмплинга (Two-Stage Systematic Sampling), а также исключались наблюдения, которые соответствуют временно пребывающим на территории России, лицам из коллективных домохозяйств и лицам, проживающим в населенных пунктах, которые входят в состав ЗАТО. При формировании выборки не учитывались домохозяйства, в которых проживает восемь и более лиц. В каталоге в продвинутом режиме доступа размещена расширенная двадцатипроцентная выборка. Единица наблюдения в датасете — член частного домохозяйства. Выборка разделена на восемь частей по федеральным округам. Минимальный уровень географической детализации — муниципальное образование второй ступени (муниципальные районы, городские округа и внутригородские районы). В выборке представлены основные показатели из переписных листов: характеристики индивидов (возраст, пол, уровень образования, владение языками, экономическая активность, источники дохода и др.), характеристики домохозяйства (размер, родственные связи) и информация об основных характеристиках жилища. Всего набор содержит 13 588 397 наблюдений по 67 атрибутам. Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»). |
Краткое описание источника набора данных | Выборка построена на микроданных Всероссийской переписи населения 2010 года, полученных Росстатом после обработки индивидуальных переписных листов |
Покрываемый временной период | 2010 год |
Доступные форматы | CSV (кодировка: «UTF-8», разделитель: «;») |
Размер набора данных | 2,3 ГБ |
Тематика набора данных | Статистика |
Режим доступа | Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе скачивать данные после верификации и подтверждения номера телефона) |
Периодичность публикации и обновления | |
Дата размещения в каталоге | 16.12.2021 |
Периодичность обновления в каталоге | Не обновляется |
Дата последнего обновления набора данных в каталоге | Отсутствует |
Характер последнего обновления | Не обновляется |
Дата следующего обновления набора данных | Не обновляется |
Дополнительные сведения | |
Цитирование набора данных на русском языке | Микроданные переписи населения 2010 г.: десятипроцентная выборка по частным домохозяйствам и индивидам // Росстат; обработка: Копыток В.К., Кузьмина Ю.В., Тихонов С.В. Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: открытая лицензия в исследовательских целях. Размещено: 16.12.2021. URL: https://data.rcsi.science/data-catalog/datasets/188/ |
For references (English) | 2010 Russian Census Microdata: 10% Sample of Private Households and Individuals // Rosstat; data-processing: Kopytok V., Kuzmina Y., Tikhonov S., The Research Development Infrastructure (RDI), CAG, 2021. Access: open for research purposes only. Posted: 16.12.2021. URL: http://data.rcsi.science/data-catalog/datasets/188 |
Ссылка на открытый репозиторий | Отсутствует |
Геоданные (пространственная привязка набора данных) | Нет |
Лицензия, под которой публикуется набор данных | Простая (неисключительная) лицензия для обезличенных наборов данных (с возможностью скачивания). Вы можете скачать этот набор данных, а также выполнять с ним вычислительные и аналитические операции только в исследовательских и образовательных целях. Вы также можете в этих же целях передавать другим лицам результат выполненных операций, не допуская при этом деобезличивания исходных данных и приведя ссылку на платформу ИНИД. Вам запрещается каким-либо образом деобезличивать исходные данные, раскрывать их другим лицам. Подробные условия Лицензии приведены на странице. |
Стандарт публикации | http://opendata.gosmonitor.ru/standard/3.0 |
Параметры запросов API | Интеграция через API не предусмотрена |
Структура набора данных
Набор данных разделен на восемь частей по федеральным округам:
- census_2010_30000.csv — Центральный федеральный округ;
- census_2010_31000.csv — Северо-Западный федеральный округ;
- census_2010_33000.csv — Приволжский федеральный округ;
- census_2010_34000.csv — Уральский федеральный округ;
- census_2010_35000.csv — Сибирский федеральный округ;
- census_2010_36000.csv — Дальневосточный федеральный округ;
- census_2010_37000.csv — Южный федеральный округ;
- census_2010_38000.csv — Северо-Кавказский федеральный округ.
Информация об атрибутах, их содержании, кодах, с помощью которых закодированы значения атрибутов, а также расшифровки кодов представлены в интерактивном описании (Codebook) ПО ССЫЛКЕ. Также кодбук в формате html добавлен в архив с датасетом (codebook_2010_open.html).
Известные ограничения данных
Источники данных
При формировании выборки для обеспечения конфиденциальности исключаются наблюдения, которые соответствуют:
- временно пребывающим на территории России (489 357 наблюдений);
- лицам из коллективных домохозяйств (1 857 409 наблюдений);
- лицам, проживающим в населенных пунктах, которые входят в состав закрытых административно-территориальных образований (ЗАТО) (1 272 397 наблюдений).
Десятипроцентная выборка строится с учетом ограничения максимального числа лиц, проживающих в одном домохозяйстве, — не более семи человек. В частных домохозяйствах с числом лиц не более семи проживало 135 883 740 человек (97,2% от общей численности населения частных домохозяйств без учета домохозяйств, проживающих в ЗАТО).
Описание проведенных проверок и их результатов
При подготовке выборки с микроданными исходные значения атрибутов корректировались только в том случае, если это требовалось для снижения детализации в целях сохранения конфиденциальности. В остальных случаях сохранены как названия атрибутов, так и их значения.
Переписные листы заполняются со слов респондентов. Сведения, которые респондент сообщил переписчику, дополнительно не проверяются, поэтому в некоторых случаях в выборке могут встречаться неправдоподобные или несогласованные между собой значения атрибутов.
Сопоставление распределения наблюдений в разрезе регионов, пола и возраста в выборке и исходных микроданных (по которым строилась выборка) приведено в файле shares_2010.xlsx, который размещается вместе с выборкой.
Внесенные в набор данных изменения по сравнению с источниками
Для формирования выборки используется систематический сэмплинг (Two-Stage Systematic Sampling).
- Сначала с помощью систематического сэмплинга отбираются частные домохозяйства, соответствующие выбранному критерию по числу лиц, проживающих в этих домохозяйствах (для десятипроцентной выборки — не более семи лиц в одном домохозяйстве).
- На втором этапе отбираются все индивиды, проживающие в этих домохозяйствах.
Отбор домохозяйств происходит по следующему алгоритму.
- Исключаются наблюдения, которые соответствуют временно пребывающим на территории России и лицам из коллективных домохозяйств (наблюдения, соответствующие домохозяйствам бездомных, сохраняются), а также лицам, проживающим в населенных пунктах, которые входят в состав закрытых административно-территориальных образований (ЗАТО).
- К микроданным, исходя из кода ТЕРСОН-МО населенного пункта, в котором проживает домохозяйство, добавляются географические атрибуты: код федерального округа, код региона, код муниципального района/городского округа/внутригородского района.
- Уникальная выборка домохозяйств последовательно упорядочивается по следующим атрибутам:
- федеральный округ;
- регион;
- муниципальный район, городской округ, внутригородской район;
- тип населенного пункта (город/село);
- количество лиц, проживающих в домохозяйстве;
- идентификатор домохозяйства.
- Выбирается случайное число от 1 до 10. С шагом 10 отбираются номера домохозяйств, включаемых в выборку.
На втором этапе в выборку включаются все индивиды, которые проживают в отобранных домохозяйствах.