Выборка 10% микроданных переписи населения 2002 г: различия между версиями
Editor (обсуждение | вклад) (→Структура набора данных: добавлен контент без ссылки) |
Editor (обсуждение | вклад) м (→Ответственные за набор данных: загружен якорь на категорию) |
||
(не показано 8 промежуточных версий этого же участника) | |||
Строка 7: | Строка 7: | ||
! Описание изменений | ! Описание изменений | ||
|- | |- | ||
| rowspan="3" | 16.12.2021 | | rowspan="3" | 16.12.2021 | ||
| rowspan="3" | 1.0 | | rowspan="3" | 1.0 | ||
| Копыток Витовт Константинович | | Копыток Витовт Константинович | ||
| rowspan="3" | Документ создан | | rowspan="3" | Документ создан | ||
|- | |- | ||
| Кузьмина Юлия Викторовна | | Кузьмина Юлия Викторовна | ||
Строка 133: | Строка 133: | ||
* <span style="background-color: #e5fffb">census_2002_38000.csv</span> — Северо-Кавказский федеральный округ. | * <span style="background-color: #e5fffb">census_2002_38000.csv</span> — Северо-Кавказский федеральный округ. | ||
Информация об атрибутах, их содержании, кодах, с помощью которых закодированы значения атрибутов, а также расшифровки кодов представлены в интерактивном описании (Codebook) | Информация об атрибутах, их содержании, кодах, с помощью которых закодированы значения атрибутов, а также расшифровки кодов представлены в [https://wiki-data.rcsi.science/static-html/codebook_2002_open.html интерактивном описании (Codebook) этого набора]. Также кодбук в формате html добавлен в архив с датасетом (<span style="background-color: #e5fffb">codebook_2002_open.html</span>). | ||
== Известные ограничения данных == | == Известные ограничения данных == | ||
=== Источники данных === | === Источники данных === | ||
При формировании выборки для обеспечения конфиденциальности исключаются наблюдения, которые соответствуют: | |||
* временно пребывающим на территории России (239 018 наблюдений); | |||
* лицам из коллективных домохозяйств (2 283 762 наблюдений); | |||
* лицам, проживающим в населенных пунктах, которые входят в состав закрытых административно-территориальных образований (ЗАТО) (1 291 663 наблюдений). | |||
Десятипроцентная выборка строится с учетом ограничения максимального числа лиц, проживающих в одном домохозяйстве, — '''не более семи человек'''. В частных домохозяйствах с числом лиц не более семи проживало 136 477 181 человек (96,3% от общей численности населения частных домохозяйств без учета домохозяйств, проживающих в ЗАТО). | |||
=== Описание проведенных проверок и их результатов === | === Описание проведенных проверок и их результатов === | ||
При подготовке выборки с микроданными исходные значения атрибутов корректировались только в том случае, если это требовалось для снижения детализации в целях сохранения конфиденциальности. В остальных случаях сохранены как названия атрибутов, так и их значения. | |||
Переписные листы заполняются со слов респондентов. Сведения, которые респондент сообщил переписчику, дополнительно не проверяются, поэтому в некоторых случаях в выборке могут встречаться неправдоподобные или несогласованные между собой значения атрибутов. | |||
Сопоставление распределения наблюдений в разрезе регионов, пола и возраста в выборке и исходных микроданных (по которым строилась выборка) приведено в файле <span style="background-color: #e5fffb">shares_2002.xlsx</span>, который размещается вместе с выборкой. | |||
== Внесенные в набор данных изменения по сравнению с источниками == | == Внесенные в набор данных изменения по сравнению с источниками == | ||
Для формирования выборки используется систематический сэмплинг (Two-Stage Systematic Sampling). | |||
* Сначала с помощью систематического сэмплинга отбираются частные домохозяйства, соответствующие выбранному критерию по числу лиц, проживающих в этих домохозяйствах (для десятипроцентной выборки — не более семи лиц в одном домохозяйстве). | |||
* На втором этапе отбираются все индивиды, проживающие в этих домохозяйствах. | |||
Отбор домохозяйств происходит по следующему алгоритму. | |||
# Исключаются наблюдения, которые соответствуют временно пребывающим на территории России и лицам из коллективных домохозяйств (наблюдения, соответствующие домохозяйствам бездомных, сохраняются), а также лицам, проживающим в населенных пунктах, которые входят в состав закрытых административно-территориальных образований (ЗАТО). | |||
# К микроданным, исходя из кода ТЕРСОН-МО населенного пункта, в котором проживает домохозяйство, добавляются географические атрибуты: код федерального округа, код региона, код муниципального района/городского округа/внутригородского района. | |||
# Уникальная выборка домохозяйств последовательно упорядочивается по следующим атрибутам: | |||
## федеральный округ; | |||
## регион; | |||
## муниципальный район, городской округ, внутригородской район; | |||
## тип населенного пункта (город/село); | |||
## количество лиц, проживающих в домохозяйстве; | |||
## идентификатор домохозяйства. | |||
# Выбирается случайное число от 1 до 10. С шагом 10 отбираются номера домохозяйств, включаемых в выборку. | |||
На втором этапе в выборку включаются все индивиды, которые проживают в отобранных домохозяйствах. | |||
== Источники данных == | == Источники данных == | ||
{| class="wikitable" | |||
|- style="font-weight:bold; background-color:#D2FEF0;" | |||
! style="color:#434343;" | Атрибут | |||
! Значение | |||
|- | |||
| Полное наименование источника данных | |||
| Обработанные микроданные Всероссийской переписи населения 2002 года | |||
|- | |||
| Сокращенное наименование источника данных | |||
| Микроданные переписи населения 2002 года | |||
|- | |||
| Владелец источника данных | |||
| Федеральная служба государственной статистики | |||
|- | |||
| Краткое описание источника данных | |||
| Выборка сформирована на основе микроданных Всероссийской переписи населения 2002 года. Эти данные получены Росстатом после обработки индивидуальных переписных листов.<br /> <br />Выборка была передана Росстатом в АНО «ЦПУР» в соответствии с Дополнительным соглашением от 10.12.2021 № 1 к Соглашению об информационном и экспертно-аналитическом взаимодействии между Росстатом и ЦПУР от 11.09.2020 № 8-С | |||
|- | |||
| Ссылка на источник данных | |||
| Прямая ссылка отсутствует, источник — информационная система ограниченного доступа | |||
|- | |||
| Перечень используемых классификаторов | |||
| ТЕРСОН-МО (территориальная единица разработки статистики о населении) версии 2010 года, адаптированный для населенных пунктов, существующих на момент проведения переписи в 2002 году. | |||
|- | |||
| Понятия, используемые в источнике | |||
| '''Частными домохозяйствами''' считаются домохозяйства, размещающиеся постоянно в обычных жилых помещениях — квартирах, индивидуальных (одноквартирных) домах, комнатах в общежитиях неквартирного типа, других жилых помещениях и помещениях, приспособленных для жилья. Выборка с микроданными построена по частным домохозяйствам. Домохозяйства бездомных и студенческие общежития также учитывались при формировании выборки.<br /> <br />'''Коллективными домохозяйствами''' называются совместно проживающие группы людей, обычно объединенных общей целью, подчиненных общим правилам и совместно питающихся. К коллективным домохозяйствам относятся лица, постоянно живущие в институциональных учреждениях, то есть учреждениях социального и медицинского обслуживания, казармах, местах заключения, религиозных организациях. Наблюдения, соответствующие лицам, проживающим в коллективных домохозяйствах, не учитывались при формировании выборки<br /> | |||
|- | |||
| Методология и изменения методологии для источника данных | |||
| Подробная методология проведения переписи и подведения ее итогов отражена в Методологических пояснениях к микроданным Всероссийской переписи населения 2002 и 2010 гг. | |||
|- | |||
| Ссылки на методологию | |||
| Методологические пояснения к микроданным Всероссийской переписи населения 2002 и 2010 годов: http://www.gks.ru/free_doc/new_site/perepis2010/croc/Documents/Materials/metod_comments.docx | |||
|} | |||
== Ответственные за набор данных == | == Ответственные за набор данных == | ||
{| class="wikitable" style="background-color:#FFF;" | |||
|- | |||
! style="font-weight:bold; color:#434343;" | № | |||
! ФИО ответственного лица | |||
! Электронная почта | |||
|- | |||
| 1. | |||
| Копыток Витовт Константинович | |||
| rowspan="3" style="text-decoration:underline; color:#0563C1;" | [mailto:ask@data.rcsi.science ask@data.rcsi.science] | |||
|- | |||
| 2. | |||
| Кузьмина Юлия Викторовна | |||
|- | |||
| 3. | |||
| Тихонов Сергей Владимирович | |||
|} | |||
[[Category: Описания датасетов]] |
Текущая версия на 14:36, 24 декабря 2021
История изменений
Дата | Версия | Автор | Описание изменений |
---|---|---|---|
16.12.2021 | 1.0 | Копыток Витовт Константинович | Документ создан |
Кузьмина Юлия Викторовна | |||
Тихонов Сергей Владимирович |
Общая информация о датасете
Десятипроцентная выборка с микроданными Всероссийской переписи населения 2002 года по частным домохозяйствам и индивидам, проживающим в этих домохозяйствах.
При формировании выборки использовался метод систематического сэмплинга (Two-Stage Systematic Sampling), а также исключались наблюдения, которые соответствуют временно пребывающим на территории России, лицам из коллективных домохозяйств и лицам, проживающим в населенных пунктах, которые входят в состав ЗАТО. При формировании выборки не учитывались домохозяйства, в которых проживает восемь и более лиц.
В каталоге в продвинутом режиме доступа размещена расширенная двадцатипроцентная выборка.
Единица наблюдения в датасете — член частного домохозяйства. Выборка разделена на восемь частей по федеральным округам. Минимальный уровень географической детализации — муниципальное образование второй ступени (муниципальные районы, городские округа и внутригородские районы).
В выборке представлены основные показатели из переписных листов: характеристики индивидов (возраст, пол, уровень образования, владение языками, экономическая активность, источники дохода и др.), характеристики домохозяйства (размер, родственные связи) и информация об основных характеристиках жилища.
Всего набор содержит 13 647 647 наблюдений по 57 атрибутам.
Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»).
Общее описание набора данных
Атрибут | Значение |
---|---|
Общие сведения | |
Полное наименование набора данных | Микроданные переписи населения 2002 г.: десятипроцентная выборка по частным домохозяйствам и индивидам |
Сокращенное наименование набора данных | Выборка 10% микроданных переписи населения 2002 г. |
Краткое описание набора данных | Десятипроцентная выборка с микроданными Всероссийской переписи населения 2002 года по частным домохозяйствам и индивидам, проживающим в этих домохозяйствах.
При формировании выборки использовался метод систематического сэмплинга (Two-Stage Systematic Sampling), а также исключались наблюдения, которые соответствуют временно пребывающим на территории России, лицам из коллективных домохозяйств и лицам, проживающим в населенных пунктах, которые входят в состав ЗАТО. При формировании выборки не учитывались домохозяйства, в которых проживает восемь и более лиц. В каталоге в продвинутом режиме доступа размещена расширенная двадцатипроцентная выборка. Единица наблюдения в датасете — член частного домохозяйства. Выборка разделена на восемь частей по федеральным округам. Минимальный уровень географической детализации — муниципальное образование второй ступени (муниципальные районы, городские округа и внутригородские районы). В выборке представлены основные показатели из переписных листов: характеристики индивидов (возраст, пол, уровень образования, владение языками, экономическая активность, источники дохода и др.), характеристики домохозяйства (размер, родственные связи) и информация об основных характеристиках жилища. Всего набор содержит 13 647 647 наблюдений по 57 атрибутам. Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»). |
Краткое описание источника набора данных | Выборка построена на микроданных Всероссийской переписи населения 2002 года, полученных Росстатом после обработки индивидуальных переписных листов |
Покрываемый временной период | 2002 год |
Доступные форматы | CSV (кодировка: «UTF-8», разделитель: «;») |
Размер набора данных | 2 ГБ |
Тематика набора данных | Статистика |
Режим доступа | Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе скачивать данные после верификации и подтверждения номера телефона) |
Периодичность публикации и обновления | |
Дата размещения в каталоге | 16.12.2021 |
Периодичность обновления в каталоге | Не обновляется |
Дата последнего обновления набора данных в каталоге | Отсутствует |
Характер последнего обновления | Не обновляется |
Дата следующего обновления набора данных | Не обновляется |
Дополнительные сведения | |
Цитирование набора данных на русском языке | Микроданные переписи населения 2002 г.: десятипроцентная выборка по частным домохозяйствам и индивидам // Росстат; обработка: Копыток В.К., Кузьмина Ю.В., Тихонов С.В. Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: открытая лицензия в исследовательских целях. Размещено: 16.12.2021. URL: https://data.rcsi.science/data-catalog/datasets/189/ |
For references (English) | 2002 Russian Census Microdata: 10% Sample of Private Households and Individuals // Rosstat; data-processing: Kopytok V., Kuzmina Y., Tikhonov S., The Research Development Infrastructure (RDI), CAG, 2021. Access: open for research purposes only. Posted: 16.12.2021. URL: http://data.rcsi.science/data-catalog/datasets/189 |
Ссылка на открытый репозиторий | Отсутствует |
Геоданные (пространственная привязка набора данных) | Нет |
Лицензия, под которой публикуется набор данных | Простая (неисключительная) лицензия для обезличенных наборов данных (с возможностью скачивания). Вы можете скачать этот набор данных, а также выполнять с ним вычислительные и аналитические операции только в исследовательских и образовательных целях. Вы также можете в этих же целях передавать другим лицам результат выполненных операций, не допуская при этом деобезличивания исходных данных и приведя ссылку на платформу ИНИД. Вам запрещается каким-либо образом деобезличивать исходные данные, раскрывать их другим лицам. Подробные условия Лицензии приведены на странице. |
Стандарт публикации | http://opendata.gosmonitor.ru/standard/3.0 |
Параметры запросов API | Интеграция через API не предусмотрена |
Структура набора данных
Набор данных разделен на восемь частей по федеральным округам:
- census_2002_30000.csv — Центральный федеральный округ;
- census_2002_31000.csv — Северо-Западный федеральный округ;
- census_2002_33000.csv — Приволжский федеральный округ;
- census_2002_34000.csv — Уральский федеральный округ;
- census_2002_35000.csv — Сибирский федеральный округ;
- census_2002_36000.csv — Дальневосточный федеральный округ;
- census_2002_37000.csv — Южный федеральный округ;
- census_2002_38000.csv — Северо-Кавказский федеральный округ.
Информация об атрибутах, их содержании, кодах, с помощью которых закодированы значения атрибутов, а также расшифровки кодов представлены в интерактивном описании (Codebook) этого набора. Также кодбук в формате html добавлен в архив с датасетом (codebook_2002_open.html).
Известные ограничения данных
Источники данных
При формировании выборки для обеспечения конфиденциальности исключаются наблюдения, которые соответствуют:
- временно пребывающим на территории России (239 018 наблюдений);
- лицам из коллективных домохозяйств (2 283 762 наблюдений);
- лицам, проживающим в населенных пунктах, которые входят в состав закрытых административно-территориальных образований (ЗАТО) (1 291 663 наблюдений).
Десятипроцентная выборка строится с учетом ограничения максимального числа лиц, проживающих в одном домохозяйстве, — не более семи человек. В частных домохозяйствах с числом лиц не более семи проживало 136 477 181 человек (96,3% от общей численности населения частных домохозяйств без учета домохозяйств, проживающих в ЗАТО).
Описание проведенных проверок и их результатов
При подготовке выборки с микроданными исходные значения атрибутов корректировались только в том случае, если это требовалось для снижения детализации в целях сохранения конфиденциальности. В остальных случаях сохранены как названия атрибутов, так и их значения.
Переписные листы заполняются со слов респондентов. Сведения, которые респондент сообщил переписчику, дополнительно не проверяются, поэтому в некоторых случаях в выборке могут встречаться неправдоподобные или несогласованные между собой значения атрибутов.
Сопоставление распределения наблюдений в разрезе регионов, пола и возраста в выборке и исходных микроданных (по которым строилась выборка) приведено в файле shares_2002.xlsx, который размещается вместе с выборкой.
Внесенные в набор данных изменения по сравнению с источниками
Для формирования выборки используется систематический сэмплинг (Two-Stage Systematic Sampling).
- Сначала с помощью систематического сэмплинга отбираются частные домохозяйства, соответствующие выбранному критерию по числу лиц, проживающих в этих домохозяйствах (для десятипроцентной выборки — не более семи лиц в одном домохозяйстве).
- На втором этапе отбираются все индивиды, проживающие в этих домохозяйствах.
Отбор домохозяйств происходит по следующему алгоритму.
- Исключаются наблюдения, которые соответствуют временно пребывающим на территории России и лицам из коллективных домохозяйств (наблюдения, соответствующие домохозяйствам бездомных, сохраняются), а также лицам, проживающим в населенных пунктах, которые входят в состав закрытых административно-территориальных образований (ЗАТО).
- К микроданным, исходя из кода ТЕРСОН-МО населенного пункта, в котором проживает домохозяйство, добавляются географические атрибуты: код федерального округа, код региона, код муниципального района/городского округа/внутригородского района.
- Уникальная выборка домохозяйств последовательно упорядочивается по следующим атрибутам:
- федеральный округ;
- регион;
- муниципальный район, городской округ, внутригородской район;
- тип населенного пункта (город/село);
- количество лиц, проживающих в домохозяйстве;
- идентификатор домохозяйства.
- Выбирается случайное число от 1 до 10. С шагом 10 отбираются номера домохозяйств, включаемых в выборку.
На втором этапе в выборку включаются все индивиды, которые проживают в отобранных домохозяйствах.
Источники данных
Атрибут | Значение |
---|---|
Полное наименование источника данных | Обработанные микроданные Всероссийской переписи населения 2002 года |
Сокращенное наименование источника данных | Микроданные переписи населения 2002 года |
Владелец источника данных | Федеральная служба государственной статистики |
Краткое описание источника данных | Выборка сформирована на основе микроданных Всероссийской переписи населения 2002 года. Эти данные получены Росстатом после обработки индивидуальных переписных листов. Выборка была передана Росстатом в АНО «ЦПУР» в соответствии с Дополнительным соглашением от 10.12.2021 № 1 к Соглашению об информационном и экспертно-аналитическом взаимодействии между Росстатом и ЦПУР от 11.09.2020 № 8-С |
Ссылка на источник данных | Прямая ссылка отсутствует, источник — информационная система ограниченного доступа |
Перечень используемых классификаторов | ТЕРСОН-МО (территориальная единица разработки статистики о населении) версии 2010 года, адаптированный для населенных пунктов, существующих на момент проведения переписи в 2002 году. |
Понятия, используемые в источнике | Частными домохозяйствами считаются домохозяйства, размещающиеся постоянно в обычных жилых помещениях — квартирах, индивидуальных (одноквартирных) домах, комнатах в общежитиях неквартирного типа, других жилых помещениях и помещениях, приспособленных для жилья. Выборка с микроданными построена по частным домохозяйствам. Домохозяйства бездомных и студенческие общежития также учитывались при формировании выборки. Коллективными домохозяйствами называются совместно проживающие группы людей, обычно объединенных общей целью, подчиненных общим правилам и совместно питающихся. К коллективным домохозяйствам относятся лица, постоянно живущие в институциональных учреждениях, то есть учреждениях социального и медицинского обслуживания, казармах, местах заключения, религиозных организациях. Наблюдения, соответствующие лицам, проживающим в коллективных домохозяйствах, не учитывались при формировании выборки |
Методология и изменения методологии для источника данных | Подробная методология проведения переписи и подведения ее итогов отражена в Методологических пояснениях к микроданным Всероссийской переписи населения 2002 и 2010 гг. |
Ссылки на методологию | Методологические пояснения к микроданным Всероссийской переписи населения 2002 и 2010 годов: http://www.gks.ru/free_doc/new_site/perepis2010/croc/Documents/Materials/metod_comments.docx |
Ответственные за набор данных
№ | ФИО ответственного лица | Электронная почта |
---|---|---|
1. | Копыток Витовт Константинович | ask@data.rcsi.science |
2. | Кузьмина Юлия Викторовна | |
3. | Тихонов Сергей Владимирович |