Выборка 10% микроданных переписи населения 2002 г: различия между версиями

Материал из Data-in
(→‎Структура набора данных: добавлен контент без ссылки)
Строка 136: Строка 136:


== Известные ограничения данных ==
== Известные ограничения данных ==
=== Источники данных ===
=== Источники данных ===
При формировании выборки для обеспечения конфиденциальности исключаются наблюдения, которые соответствуют:
* временно пребывающим на территории России (239 018 наблюдений);
* лицам из коллективных домохозяйств (2 283 762 наблюдений);
* лицам, проживающим в населенных пунктах, которые входят в состав закрытых административно-территориальных образований (ЗАТО) (1 291 663 наблюдений).
Десятипроцентная выборка строится с учетом ограничения максимального числа лиц, проживающих в одном домохозяйстве, — '''не более семи человек'''. В частных домохозяйствах с числом лиц не более семи проживало 136 477 181 человек (96,3% от общей численности населения частных домохозяйств без учета домохозяйств, проживающих в ЗАТО).


=== ​Описание проведенных проверок и их результатов ===
=== ​Описание проведенных проверок и их результатов ===
При подготовке выборки с микроданными исходные значения атрибутов корректировались только в том случае, если это требовалось для снижения детализации в целях сохранения конфиденциальности. В остальных случаях сохранены как названия атрибутов, так и их значения.
Переписные листы заполняются со слов респондентов. Сведения, которые респондент сообщил переписчику, дополнительно не проверяются, поэтому в некоторых случаях в выборке могут встречаться неправдоподобные или несогласованные между собой значения атрибутов.
Сопоставление распределения наблюдений в разрезе регионов, пола и возраста в выборке и исходных микроданных (по которым строилась выборка) приведено в файле <span style="background-color: #e5fffb">shares_2002.xlsx</span>, который размещается вместе с выборкой.


== Внесенные в набор данных изменения по сравнению с источниками ==
== Внесенные в набор данных изменения по сравнению с источниками ==

Версия 11:57, 14 декабря 2021

История изменений

Дата Версия Автор Описание изменений
16.12.2021

1.0

Копыток Витовт Константинович Документ создан

Кузьмина Юлия Викторовна
Тихонов Сергей Владимирович

Общая информация о датасете

Десятипроцентная выборка с микроданными Всероссийской переписи населения 2002 года по частным домохозяйствам и индивидам, проживающим в этих домохозяйствах.

При формировании выборки использовался метод систематического сэмплинга (Two-Stage Systematic Sampling), а также исключались наблюдения, которые соответствуют временно пребывающим на территории России, лицам из коллективных домохозяйств и лицам, проживающим в населенных пунктах, которые входят в состав ЗАТО. При формировании выборки не учитывались домохозяйства, в которых проживает восемь и более лиц.

В каталоге в продвинутом режиме доступа размещена расширенная двадцатипроцентная выборка.

Единица наблюдения в датасете — член частного домохозяйства. Выборка разделена на восемь частей по федеральным округам. Минимальный уровень географической детализации — муниципальное образование второй ступени (муниципальные районы, городские округа и внутригородские районы).

В выборке представлены основные показатели из переписных листов: характеристики индивидов (возраст, пол, уровень образования, владение языками, экономическая активность, источники дохода и др.), характеристики домохозяйства (размер, родственные связи) и информация об основных характеристиках жилища.

Всего набор содержит 13 647 647 наблюдений по 57 атрибутам.

Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»).

Общее описание набора данных

Атрибут Значение
Общие сведения
Полное наименование набора данных Микроданные переписи населения 2002 г.: десятипроцентная выборка по частным домохозяйствам и индивидам
Сокращенное наименование набора данных Выборка 10% микроданных переписи населения 2002 г.
Краткое описание набора данных Десятипроцентная выборка с микроданными Всероссийской переписи населения 2002 года по частным домохозяйствам и индивидам, проживающим в этих домохозяйствах.

При формировании выборки использовался метод систематического сэмплинга (Two-Stage Systematic Sampling), а также исключались наблюдения, которые соответствуют временно пребывающим на территории России, лицам из коллективных домохозяйств и лицам, проживающим в населенных пунктах, которые входят в состав ЗАТО. При формировании выборки не учитывались домохозяйства, в которых проживает восемь и более лиц.

В каталоге в продвинутом режиме доступа размещена расширенная двадцатипроцентная выборка.

Единица наблюдения в датасете — член частного домохозяйства. Выборка разделена на восемь частей по федеральным округам. Минимальный уровень географической детализации — муниципальное образование второй ступени (муниципальные районы, городские округа и внутригородские районы).

В выборке представлены основные показатели из переписных листов: характеристики индивидов (возраст, пол, уровень образования, владение языками, экономическая активность, источники дохода и др.), характеристики домохозяйства (размер, родственные связи) и информация об основных характеристиках жилища.

Всего набор содержит 13 647 647 наблюдений по 57 атрибутам.

Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»).

Краткое описание источника набора данных Выборка построена на микроданных Всероссийской переписи населения 2002 года, полученных Росстатом после обработки индивидуальных переписных листов
Покрываемый временной период 2002 год
Доступные форматы CSV (кодировка: «UTF-8», разделитель: «;»)
Размер набора данных 2 ГБ
Тематика набора данных Статистика
Режим доступа Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе скачивать данные после верификации и подтверждения номера телефона)
Периодичность публикации и обновления
Дата размещения в каталоге 16.12.2021
Периодичность обновления в каталоге Не обновляется
Дата последнего обновления набора данных в каталоге Отсутствует
Характер последнего обновления Не обновляется
Дата следующего обновления набора данных Не обновляется
Дополнительные сведения
Цитирование набора данных на русском языке Микроданные переписи населения 2002 г.: десятипроцентная выборка по частным домохозяйствам и индивидам // Росстат; обработка: Копыток В.К., Кузьмина Ю.В., Тихонов С.В. Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: открытая лицензия в исследовательских целях. Размещено: 16.12.2021. URL: https://data.rcsi.science/data-catalog/datasets/189/
For references (English) 2002 Russian Census Microdata: 10% Sample of Private Households and Individuals // Rosstat; data-processing: Kopytok V., Kuzmina Y., Tikhonov S., The Research Development Infrastructure (RDI), CAG, 2021. Access: open for research purposes only. Posted: 16.12.2021. URL: http://data.rcsi.science/data-catalog/datasets/189
Ссылка на открытый репозиторий Отсутствует
Геоданные (пространственная привязка набора данных) Нет
Лицензия, под которой публикуется набор данных Простая (неисключительная) лицензия для обезличенных наборов данных (с возможностью скачивания).

Вы можете скачать этот набор данных, а также выполнять с ним вычислительные и аналитические операции только в исследовательских и образовательных целях. Вы также можете в этих же целях передавать другим лицам результат выполненных операций, не допуская при этом деобезличивания исходных данных и приведя ссылку на платформу ИНИД. Вам запрещается каким-либо образом деобезличивать исходные данные, раскрывать их другим лицам. Подробные условия Лицензии приведены на странице.
Стандарт публикации http://opendata.gosmonitor.ru/standard/3.0
Параметры запросов API Интеграция через API не предусмотрена

Структура набора данных

Набор данных разделен на восемь частей по федеральным округам:

  • census_2002_30000.csv — Центральный федеральный округ;
  • census_2002_31000.csv — Северо-Западный федеральный округ;
  • census_2002_33000.csv — Приволжский федеральный округ;
  • census_2002_34000.csv — Уральский федеральный округ;
  • census_2002_35000.csv — Сибирский федеральный округ;
  • census_2002_36000.csv — Дальневосточный федеральный округ;
  • census_2002_37000.csv — Южный федеральный округ;
  • census_2002_38000.csv — Северо-Кавказский федеральный округ.

Информация об атрибутах, их содержании, кодах, с помощью которых закодированы значения атрибутов, а также расшифровки кодов представлены в интерактивном описании (Codebook) ПО ССЫЛКЕ. Также кодбук в формате html добавлен в архив с датасетом (codebook_2002_open.html).

Известные ограничения данных

Источники данных

При формировании выборки для обеспечения конфиденциальности исключаются наблюдения, которые соответствуют:

  • временно пребывающим на территории России (239 018 наблюдений);
  • лицам из коллективных домохозяйств (2 283 762 наблюдений);
  • лицам, проживающим в населенных пунктах, которые входят в состав закрытых административно-территориальных образований (ЗАТО) (1 291 663 наблюдений).

Десятипроцентная выборка строится с учетом ограничения максимального числа лиц, проживающих в одном домохозяйстве, — не более семи человек. В частных домохозяйствах с числом лиц не более семи проживало 136 477 181 человек (96,3% от общей численности населения частных домохозяйств без учета домохозяйств, проживающих в ЗАТО).

​Описание проведенных проверок и их результатов

При подготовке выборки с микроданными исходные значения атрибутов корректировались только в том случае, если это требовалось для снижения детализации в целях сохранения конфиденциальности. В остальных случаях сохранены как названия атрибутов, так и их значения.

Переписные листы заполняются со слов респондентов. Сведения, которые респондент сообщил переписчику, дополнительно не проверяются, поэтому в некоторых случаях в выборке могут встречаться неправдоподобные или несогласованные между собой значения атрибутов.

Сопоставление распределения наблюдений в разрезе регионов, пола и возраста в выборке и исходных микроданных (по которым строилась выборка) приведено в файле shares_2002.xlsx, который размещается вместе с выборкой.

Внесенные в набор данных изменения по сравнению с источниками

Источники данных

Ответственные за набор данных