Доходы и имущество госслужащих за 2013-2020 гг: различия между версиями
Editor (обсуждение | вклад) (→Общее описание набора данных: исправлено название раздела) |
Editor (обсуждение | вклад) (→Структура набора данных (Codebook): исправлено название раздела) |
||
| Строка 28: | Строка 28: | ||
Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»). | Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»). | ||
== | == Общее описание набора данных == | ||
{| class="wikitable" style="color:#202122;" | {| class="wikitable" style="color:#202122;" | ||
|- style="font-weight:bold; background-color:#FFF;" | |- style="font-weight:bold; background-color:#FFF;" | ||
| Строка 103: | Строка 103: | ||
| Интеграция через API не предусмотрена | | Интеграция через API не предусмотрена | ||
|} | |} | ||
== Источники данных == | == Источники данных == | ||
Датасет представлен в виде плоской таблицы (data.csv), содержащей 26 атрибута, 22 199 наблюдений. | Датасет представлен в виде плоской таблицы (data.csv), содержащей 26 атрибута, 22 199 наблюдений. | ||
Версия 15:00, 29 ноября 2021
История изменений
| Дата | Версия | Автор | Описание изменений |
|---|---|---|---|
| 28.10.2020 | 1.0 | Витовт Копыток Ольга Батова |
Документ создан |
| 30.11.2021 | 2.0 | Ксения Зиндер Эльвира Гизатуллина, |
Описание дополнено после обновления датасета данными за 2020 год и сведениями об имуществе чиновника, доходах и имуществе членов его семьи |
Общая информация о датасете
Данные о доходах и имуществе сотрудников российских министерств и членов их семей, полученные из опубликованных антикоррупционных деклараций за 2013-2020 гг.
Согласно ФЗ №273 «О противодействии коррупции», госслужащие и прочие публичные должностные лица ежегодно подают декларации о доходах, транспортных средствах, недвижимом имуществе, находящемся в пользовании и в собственности в отношении себя, супруги(а) и несовершеннолетних детей. Эти сведения размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств. В наборе объединены распарсенные данные 18 федеральных министерств за 2013-2020 гг. Сведения были дополнены информацией о поле, семейном положении, количестве несовершеннолетних детей.
Единица наблюдения в датасете — сведения о госслужащем за конкретный год. Поскольку количество членов семьи у одного чиновника может различаться, данные о доходе и имуществе чиновника, а также доходе и имуществе членов его семьи представлены отдельными строками.
Набор охватывает период с 2013 по 2020 год, содержит 22199 наблюдений по 26 атрибутам.
Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»).
Общее описание набора данных
| Атрибут | Значение |
|---|---|
| Общие сведения | |
| Полное наименование набора данных | Доходы и имущество госслужащих: объединенные сведения из антикоррупционных деклараций сотрудников российских министерств |
| Сокращенное наименование набора данных | Доходы и имущество госслужащих за 2013-2020 гг. |
| Краткое описание набора данных | Данные о доходах и имуществе сотрудников российских министерств и членов их семей, полученные из опубликованных антикоррупционных деклараций за 2013-2020 гг. Согласно ФЗ №273 «О противодействии коррупции», госслужащие и прочие публичные должностные лица ежегодно подают декларации о доходах, транспортных средствах, недвижимом имуществе, находящемся в пользовании и в собственности в отношении себя, супруги(а) и несовершеннолетних детей. Эти сведения размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств. В наборе объединены распарсенные данные 18 федеральных министерств за 2013-2020 гг. Сведения были дополнены информацией о поле, семейном положении, количестве несовершеннолетних детей. Единица наблюдения в датасете — сведения о госслужащем за конкретный год. Поскольку количество членов семьи у одного чиновника может различаться, данные о доходе и имуществе чиновника, а также доходе и имуществе членов его семьи представлены отдельными строками. Набор охватывает период с 2013 по 2020 год, содержит 22199 наблюдений по 26 атрибутам. |
| Краткое описание источника набора данных | Данные о декларируемом доходе и имуществе госслужащих размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств в виде файлов различных форматов. |
| Покрываемый временной период | 2013-2020 |
| Доступные форматы | CSV (кодировка: «UTF-8», разделитель: «;») |
| Размер набора данных | 41,9 МБ |
| Тематика набора данных | Доход государственных служащих. Экономика |
| Режим доступа | Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе и скачивать данные) |
| Периодичность публикации и обновления | |
| Дата размещения в каталоге | 28.10.2020 |
| Периодичность обновления в каталоге | Ежегодно |
| Дата последнего обновления набора данных в каталоге | 30.11.2021 |
| Характер последнего обновления | Добавлены сведения за 2020 год, расширен состав атрибутов в наборе данных: добавлена информация о имуществе государственного служащего, а также о доходах и имуществе членов его/ее семьи. |
| Дата следующего обновления набора данных | Не установлена |
| Дополнительные сведения | |
| Цитирование набора данных на русском языке | Доходы и имущество госслужащих: объединенные сведения из антикоррупционных деклараций сотрудников российских министерств // Официальные сайты федеральных министерств РФ; обработка: Зиндер К.М., Гизатуллина Э.Г. Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2020. Доступ: Лицензия CC BY-SA. Размещено: 30.11.2021. URL: https://data.rcsi.science/data-catalog/datasets/150/ |
| For references (English) | Income and property of civil servants: information from anti-corruption declarations of Russian ministries // Official websites of the federal ministries of Russian Federation: Zinder. K., Gizatullina E., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 30.11.2021. URL: https://data.rcsi.science/data-catalog/datasets/150/ |
| Ссылка на открытый репозиторий | отсутствует |
| Геоданные (пространственная привязка набора данных) | нет |
| Лицензия, под которой публикуется набор данных | СС BY-SA (Creative Commons) https://creativecommons.org/licenses/by-sa/4.0/ Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии — CC BY-SA |
| Стандарт публикации | http://opendata.gosmonitor.ru/standard/3.0 |
| Параметры запросов API | Интеграция через API не предусмотрена |
Источники данных
Датасет представлен в виде плоской таблицы (data.csv), содержащей 26 атрибута, 22 199 наблюдений.
Формат данных: CSV (кодировка: «UTF-8», разделитель: «;»).
| Атрибут | Описание | Единица измерения | Количество пропусков | Формат |
|---|---|---|---|---|
| year | Год, за который поданы сведения о доходах и имуществе | 0 | int | |
| state_agency | Краткое обозначение министерства латиницей | 0 | string | |
| state_agency_full | Полное название министерства | 0 | string | |
| state_agency_short | Краткое обозначение министерства кириллицей | 0 | string | |
| name | Фамилия, имя, отчество или фамилия и инициалы служащего, приведенные к стандартному написанию с помощью регулярных выражений | 0 | string | |
| position | Наименование должности из первоисточника, скорректированное с помощью сервиса Яндекс.Спеллер | 0 | string | |
| position_standard | Стандартизированная должность в соответствии с Указом Президента РФ от 31.12.2005 №1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы». В случае, если указанная в первоисточнике должность не включена в данную классификацию, присвоено значение «не стандарт» | 0 | string | |
| position_category | Категория должности | 0 | string | |
| position_group | Группа должности | 0 | string | |
| family | Указание на то, относится ли приведенные данные к самому служащему (значение «чиновник»), или членам его семьи («супруга», «супруг» или «ребенок») | 0 | string | |
| gender | Пол госслужащего, определенный с помощью автоматического алгоритма, исходя из его ФИО и/или исходя из пола того, с кем он/она состоит в браке. | 871 | string | |
| married | Состоит ли служащий в браке | 0 | string | |
| children | Количество несовершеннолетних детей | шт. | 0 | int |
| type | Тип объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, вид объекта» файлов, скачанных с официального сайта министерства) | 0 | string | |
| own_type | Вид собственности на объект недвижимости (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, вид собственности», файлов, скачанных с официального сайта министерства) | 0 | string | |
| meters | Площадь объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, площадь (кв.м)», файлов, скачанных с официального сайта министерства) | кв. м | 0 | string |
| country | Страна расположения объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, страна расположения», файлов, скачанных с официального сайта министерства) | 0 | string | |
| use_type | Тип объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, вид объекта», файлов, скачанных с официального сайта министерства) | 0 | string | |
| use_meters | Площадь объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, площадь (кв.м)», файлов, скачанных с официального сайта министерства) | кв. м | 0 | string |
| use_country | Страна расположения объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, страна расположения», файлов, скачанных с официального сайта министерства) | 0 | string | |
| income | Декларированный годовой доход | рубль | 0 | numeric |
| source | «Сведения об источниках получения средств, за счет которых совершена сделка (вид приобретенного имущества, источники)» файлов, скачанных с официального сайта министерства | 0 | string | |
| source_sum | Сумма дополнительного дохода, указанная в графе source или в графе «income», в случаях, когда дополнительный доход был указан в графе «income», а не в графе «source» | рубль | 0 | numeric |
| source_sort | Дополнительно сгенерированная переменная, содержащая информацию о типе полученного дополнительного дохода. Заполняется в случаях, если указано наличие дополнительного дохода, но не указан его размер. Варианты значений:
|
0 | string | |
| car | Транспортные средства (соответствует содержанию графы «Транспортные средства (вид, наименование, марка)», файлов, скачанных с официального сайта министерства) | 0 | string | |
| car_brands | Список марок автомобилей, указанных в поле car, в стандартизованном виде. Марки других транспортных средств в этом поле не указаны. | list |
Известные ограничения данных
Полнота данных
Наиболее полно в публикуемых в открытом доступе документах представлены сведения о декларированном годовом доходе и имуществе госслужащих федеральных министерств, занимающих следующие должности: первый заместитель министра, заместитель министра, директор департамента, заместитель директора департамента, начальник отдела, заместитель начальника отдела, референт. Сведения о декларированном доходе и имуществе государственных служащих, занимающих прочие должности, носят фрагментарный характер.
Данные Минстроя и Минобрнауки за 2013 г. и Минэкономразвития за 2013-2014 гг. исключены из набора на этапе парсинга по причине того, что формат заполнения выложенных на сайтах файлов не дает возможности обработать их автоматизированными способами и преобразовать в машиночитаемый вид без множественных ошибок.
В набор данных включались сведения только о государственных служащих центральных аппаратов федеральных министерств проживающих и работающих на территории Российской федерации. Кроме того были исключены данные сотрудников министерств, которые отработали не полный год в тех случаях, когда об это было указано в источнике данных. Эти сотрудники отработали меньше полного года, поэтому сумма их годового дохода несравнима с суммами дохода сотрудников, отработавших полный год.
В набор не включены данные МИД и негражданских министерств (МВД, МЧС, Минобороны) из-за невозможности стандартизировать должности этих ведомств и, соответственно, сравнивать их с остальными гражданскими министерствами. Кроме того, Минобороны не публикует в декларациях должности своих служащих, а МИД и МВД с 2019 года публикует декларации только усеченного списка сотрудников (менее 10 человек).
Охват данных министерств по годам представлен в таблице ниже.
| Наименование министерства | Год | |||||||
|---|---|---|---|---|---|---|---|---|
| 2013 | 2014 | 2015 | 2016 | 2017 | 2018 | 2019 | 2020 | |
| Минэкономразвития России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Минфин России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минпромторг России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минэнерго России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минздрав России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минсельхоз России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минтранс России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минвостокразвития России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минцифры России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минкультуры России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минприроды России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минтруд России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минспорт России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минстрой России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| Минюст России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| Минобрнауки России | ✓ | ✓ | ✓ | ✓ | ||||
| Минпросвещения России | ✓ | ✓ | ✓ | |||||
| Минобрнауки России | ✓ | ✓ | ✓ | |||||
Качество данных
- Данные в изначальных файлах заполняются и оформляются очень разнообразно, несмотря единую форму отчетной таблицы. В редких случаях при заполнении допускаются ошибки, данные вписываются в другой столбец, смещаются колонки таблицы. В ходе ручной обработки данных и парсинга были устранено большинство типичных смещений/искажений данных. Точность обработки по различным атрибутам колеблется между 98,3% и 100%.
- Наименования должностей государственных служащих в наборе данных не в полной мере соответствует должностям, перечисленным в Указе Президента РФ N 1574, поскольку в сведениях о доходах, расходах, об имуществе и обязательствах имущественного характера, публикуемых на официальных сайтах федеральных министерств, используются произвольные формулировки названий должностей. Например, затруднительно отделить должность «начальник отдела» (код 05-1-2-015) категории «руководители» от должности «начальник отдела в департаменте» (код 05-3-2-018) категории «специалисты». Такая же проблема характерна для государственных служащих, занимающих позиции заместителей начальника отдела. В наборе данных сохранена колонка «position», в которой приведены исходные формулировки (после проверки Яндекс.Спеллер), в колонке «position_standard» приведены скорректированные наименования должностей.
- Колонки с описанием имущества («type», «use_type») заполняются без использования четких стандартизованных типов, что приводит к появлению широкого разнообразия и разной степени детализации для описания схожих видов имущества. Колонка с типом собственности «own_type» в некоторых случаях содержит также размер доли в собственности.
- Графа «Сведения об источниках получения средств, за счет которых совершена сделка (вид приобретенного имущества, источники)» (колонка «source») заполняется с разным качеством. В некоторых случаях сведения о наличии дополнительного источника дохода имеются, но его размер не указан. Кроме того, иногда сведения о дополнительных источниках получения дохода указывается в графе «Декларированный доход».
Внесенные в набор данных изменения по сравнению с источниками
- Данные о декларированном годовом доходе, размещенные на официальных сайтах федеральных министерств в файлах разных форматов (xls, xlsx, doc, docx, rar, zip, pdf), преобразованы в плоскую таблицу в машиночитаемом формате;
- Исправлены опечатки в наименованиях должностей;
- Наименования должностей приведены к унифицированному виду в соответствии с Указом Президента РФ от 31.12.2005 N 1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы»;
- Созданы дополнительные переменные с категорией и группой должностей («position_category» и «position_group»). Для присвоения категории и группы использована классификация в соответствии с Указом Президента РФ от 31.12.2005 №1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы». В файлах-первоисточниках используются произвольные названия должностей, не в полной мере соответствующие реестру из-за чего в отдельных случаях оказывается затруднительно определять категории и группы должностей. Так, невозможно отделить должность «начальник отдела» (код 05-1-2-015) категории «руководители» от должности «начальник отдела в департаменте» (код 05-3-2-018) категории «специалисты». В связи с этим все начальники объединены в дополнительную категорию «руководители/специалисты». Аналогичная ситуация с «заместителем начальника отдела» (код 05-1-2-015.1) категории «руководители» главной группы должностей и «заместителем начальника отдела в департаменте» (код 05-3-3-023) категории «специалисты» ведущей группы должностей. Все заместители начальников объединены в дополнительную категорию «руководители/специалисты» и группу «главная/ведущая».
- Из данных, приведенных в графе «Декларируемый доход» файла-первоисточника, извлечена сумма дохода, переведена в числовой формат с удалением текстовых комментариев. Результат сохранен в переменной «income»;
- Из текстовых пояснений-описаний источников дохода извлечена сумма дополнительного дохода и размещена в переменной «source_sum»;
- На основании переменных «source» и «source_sum» создана дополнительная переменная «source_sort». Значения «exta» или «all_together» говорят о том, что имел место внешний источник дохода (наследство, субсидия, кредит), но сумма дополнительного дохода чиновником не указана;
- В отдельной колонке отражены полные («state_agency_full») и сокращенные («state_agency_short») названия федеральных министерств;
- С помощью библиотеки Russiannames (определяет пол по ФИО) и на основании информации о наличии у сотрудника супруга или супруги определен пол служащего и размещен в колонке «gender». Не удалось получить эту характеристику только у 4% наблюдений;
- Подсчитано количество несовершеннолетних детей и размещено в колонке «children»;
- Добавлено поле «married», в котором указан семейный статус служащего, определенный на основании наличия супруга/супруги;
- В части файлов-первоисточников данные о стране расположения объекта недвижимого имущества и его площади проведены в одной колонке. Проведена проверка на смешивание этих данных и автоматизированными средствами данные разделены по соответствующим отдельным колонкам.
Ответственные за набор данных
| № | ФИО ответственного лица | Электронная почта |
|---|---|---|
| 1. | Зиндер Ксения Михайлова | k.zinder@cpur.ru |
| 2. | Гизатуллина Эльвира Габдрашитовна | e.gizatullina@data.rcsi.science |