Доходы и имущество госслужащих за 2013-2020 гг: различия между версиями

Материал из Data-in
(→‎Структура набора данных (Codebook): исправлено название раздела)
(→‎Источники данных: исправлено название раздела)
Строка 104: Строка 104:
|}
|}


== Источники данных ==
== Структура набора данных (Codebook) ==
Датасет представлен в виде плоской таблицы (data.csv), содержащей 26 атрибута, 22 199 наблюдений.
Датасет представлен в виде плоской таблицы (data.csv), содержащей 26 атрибута, 22 199 наблюдений.


Строка 276: Строка 276:
| style="background-color:#FFF; color:#202122;" | list
| style="background-color:#FFF; color:#202122;" | list
|}
|}
== Известные ограничения данных ==  
== Известные ограничения данных ==  
=== Полнота данных ===
=== Полнота данных ===

Версия 15:01, 29 ноября 2021

История изменений

Дата Версия Автор Описание изменений
28.10.2020 1.0 Витовт Копыток
Ольга Батова
Документ создан
30.11.2021 2.0 Ксения Зиндер Эльвира Гизатуллина,
Описание дополнено после обновления датасета данными за 2020 год и сведениями об имуществе чиновника, доходах и имуществе членов его семьи

Общая информация о датасете

Данные о доходах и имуществе сотрудников российских министерств и членов их семей, полученные из опубликованных антикоррупционных деклараций за 2013-2020 гг.

Согласно ФЗ №273 «О противодействии коррупции», госслужащие и прочие публичные должностные лица ежегодно подают декларации о доходах, транспортных средствах, недвижимом имуществе, находящемся в пользовании и в собственности в отношении себя, супруги(а) и несовершеннолетних детей. Эти сведения размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств. В наборе объединены распарсенные данные 18 федеральных министерств за 2013-2020 гг. Сведения были дополнены информацией о поле, семейном положении, количестве несовершеннолетних детей.

Единица наблюдения в датасете — сведения о госслужащем за конкретный год. Поскольку количество членов семьи у одного чиновника может различаться, данные о доходе и имуществе чиновника, а также доходе и имуществе членов его семьи представлены отдельными строками.

Набор охватывает период с 2013 по 2020 год, содержит 22199 наблюдений по 26 атрибутам.

Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»).

Общее описание набора данных

Атрибут Значение
Общие сведения
Полное наименование набора данных Доходы и имущество госслужащих: объединенные сведения из антикоррупционных деклараций сотрудников российских министерств
Сокращенное наименование набора данных Доходы и имущество госслужащих за 2013-2020 гг.
Краткое описание набора данных Данные о доходах и имуществе сотрудников российских министерств и членов их семей, полученные из опубликованных антикоррупционных деклараций за 2013-2020 гг.

Согласно ФЗ №273 «О противодействии коррупции», госслужащие и прочие публичные должностные лица ежегодно подают декларации о доходах, транспортных средствах, недвижимом имуществе, находящемся в пользовании и в собственности в отношении себя, супруги(а) и несовершеннолетних детей. Эти сведения размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств. В наборе объединены распарсенные данные 18 федеральных министерств за 2013-2020 гг. Сведения были дополнены информацией о поле, семейном положении, количестве несовершеннолетних детей.

Единица наблюдения в датасете — сведения о госслужащем за конкретный год. Поскольку количество членов семьи у одного чиновника может различаться, данные о доходе и имуществе чиновника, а также доходе и имуществе членов его семьи представлены отдельными строками.

Набор охватывает период с 2013 по 2020 год, содержит 22199 наблюдений по 26 атрибутам.
Краткое описание источника набора данных Данные о декларируемом доходе и имуществе госслужащих размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств в виде файлов различных форматов.
Покрываемый временной период 2013-2020
Доступные форматы CSV (кодировка: «UTF-8», разделитель: «;»)
Размер набора данных 41,9 МБ
Тематика набора данных Доход государственных служащих. Экономика
Режим доступа Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе и скачивать данные)
Периодичность публикации и обновления
Дата размещения в каталоге 28.10.2020
Периодичность обновления в каталоге Ежегодно
Дата последнего обновления набора данных в каталоге 30.11.2021
Характер последнего обновления Добавлены сведения за 2020 год, расширен состав атрибутов в наборе данных: добавлена информация о имуществе государственного служащего, а также о доходах и имуществе членов его/ее семьи.
Дата следующего обновления набора данных Не установлена
Дополнительные сведения
Цитирование набора данных на русском языке Доходы и имущество госслужащих: объединенные сведения из антикоррупционных деклараций сотрудников российских министерств // Официальные сайты федеральных министерств РФ; обработка: Зиндер К.М., Гизатуллина Э.Г. Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2020. Доступ: Лицензия CC BY-SA. Размещено: 30.11.2021. URL: https://data.rcsi.science/data-catalog/datasets/150/
For references (English) Income and property of civil servants: information from anti-corruption declarations of Russian ministries // Official websites of the federal ministries of Russian Federation: Zinder. K., Gizatullina E., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 30.11.2021. URL: https://data.rcsi.science/data-catalog/datasets/150/
Ссылка на открытый репозиторий отсутствует
Геоданные (пространственная привязка набора данных) нет
Лицензия, под которой публикуется набор данных СС BY-SA (Creative Commons)
https://creativecommons.org/licenses/by-sa/4.0/
Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии — CC BY-SA
Стандарт публикации http://opendata.gosmonitor.ru/standard/3.0
Параметры запросов API Интеграция через API не предусмотрена

Структура набора данных (Codebook)

Датасет представлен в виде плоской таблицы (data.csv), содержащей 26 атрибута, 22 199 наблюдений.

Формат данных: CSV (кодировка: «UTF-8», разделитель: «;»).

Атрибут Описание Единица измерения Количество пропусков Формат
year Год, за который поданы сведения о доходах и имуществе 0 int
state_agency Краткое обозначение министерства латиницей 0 string
state_agency_full Полное название министерства 0 string
state_agency_short Краткое обозначение министерства кириллицей 0 string
name Фамилия, имя, отчество или фамилия и инициалы служащего, приведенные к стандартному написанию с помощью регулярных выражений 0 string
position Наименование должности из первоисточника, скорректированное с помощью сервиса Яндекс.Спеллер 0 string
position_standard Стандартизированная должность в соответствии с Указом Президента РФ от 31.12.2005 №1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы». В случае, если указанная в первоисточнике должность не включена в данную классификацию, присвоено значение «не стандарт» 0 string
position_category Категория должности 0 string
position_group Группа должности 0 string
family Указание на то, относится ли приведенные данные к самому служащему (значение «чиновник»), или членам его семьи («супруга», «супруг» или «ребенок») 0 string
gender Пол госслужащего, определенный с помощью автоматического алгоритма, исходя из его ФИО и/или исходя из пола того, с кем он/она состоит в браке. 871 string
married Состоит ли служащий в браке 0 string
children Количество несовершеннолетних детей шт. 0 int
type Тип объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, вид объекта» файлов, скачанных с официального сайта министерства) 0 string
own_type Вид собственности на объект недвижимости (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, вид собственности», файлов, скачанных с официального сайта министерства) 0 string
meters Площадь объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, площадь (кв.м)», файлов, скачанных с официального сайта министерства) кв. м 0 string
country Страна расположения объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, страна расположения», файлов, скачанных с официального сайта министерства) 0 string
use_type Тип объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, вид объекта», файлов, скачанных с официального сайта министерства) 0 string
use_meters Площадь объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, площадь (кв.м)», файлов, скачанных с официального сайта министерства) кв. м 0 string
use_country Страна расположения объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, страна расположения», файлов, скачанных с официального сайта министерства) 0 string
income Декларированный годовой доход рубль 0 numeric
source «Сведения об источниках получения средств, за счет которых совершена сделка (вид приобретенного имущества, источники)» файлов, скачанных с официального сайта министерства 0 string
source_sum Сумма дополнительного дохода, указанная в графе source или в графе «income», в случаях, когда дополнительный доход был указан в графе «income», а не в графе «source» рубль 0 numeric
source_sort Дополнительно сгенерированная переменная, содержащая информацию о типе полученного дополнительного дохода. Заполняется в случаях, если указано наличие дополнительного дохода, но не указан его размер. Варианты значений:
  • «saved» - накопления чиновника, доход от продажи его имущества;
  • «extra» - деньги, полученные извне: взятые в кредит, полученные в качестве наследства, субсидии и проч.
  • «all_together» - деньги и накопленные, и полученные извне.
    Если дополнительного дохода нет или его размер указан, то принимает, то графа остается пустой.
0 string
car Транспортные средства (соответствует содержанию графы «Транспортные средства (вид, наименование, марка)», файлов, скачанных с официального сайта министерства) 0 string
car_brands Список марок автомобилей, указанных в поле car, в стандартизованном виде. Марки других транспортных средств в этом поле не указаны. list

Известные ограничения данных

Полнота данных

Наиболее полно в публикуемых в открытом доступе документах представлены сведения о декларированном годовом доходе и имуществе госслужащих федеральных министерств, занимающих следующие должности: первый заместитель министра, заместитель министра, директор департамента, заместитель директора департамента, начальник отдела, заместитель начальника отдела, референт. Сведения о декларированном доходе и имуществе государственных служащих, занимающих прочие должности, носят фрагментарный характер.

Данные Минстроя и Минобрнауки за 2013 г. и Минэкономразвития за 2013-2014 гг. исключены из набора на этапе парсинга по причине того, что формат заполнения выложенных на сайтах файлов не дает возможности обработать их автоматизированными способами и преобразовать в машиночитаемый вид без множественных ошибок.

В набор данных включались сведения только о государственных служащих центральных аппаратов федеральных министерств проживающих и работающих на территории Российской федерации. Кроме того были исключены данные сотрудников министерств, которые отработали не полный год в тех случаях, когда об это было указано в источнике данных. Эти сотрудники отработали меньше полного года, поэтому сумма их годового дохода несравнима с суммами дохода сотрудников, отработавших полный год.

В набор не включены данные МИД и негражданских министерств (МВД, МЧС, Минобороны) из-за невозможности стандартизировать должности этих ведомств и, соответственно, сравнивать их с остальными гражданскими министерствами. Кроме того, Минобороны не публикует в декларациях должности своих служащих, а МИД и МВД с 2019 года публикует декларации только усеченного списка сотрудников (менее 10 человек).

Охват данных министерств по годам представлен в таблице ниже.

Наименование министерства Год
2013 2014 2015 2016 2017 2018 2019 2020
Минэкономразвития России
Минфин России
Минпромторг России
Минэнерго России
Минздрав России
Минсельхоз России
Минтранс России
Минвостокразвития России
Минцифры России
Минкультуры России
Минприроды России
Минтруд России
Минспорт России
Минстрой России
Минюст России
Минобрнауки России
Минпросвещения России
Минобрнауки России

Качество данных

  • Данные в изначальных файлах заполняются и оформляются очень разнообразно, несмотря единую форму отчетной таблицы. В редких случаях при заполнении допускаются ошибки, данные вписываются в другой столбец, смещаются колонки таблицы. В ходе ручной обработки данных и парсинга были устранено большинство типичных смещений/искажений данных. Точность обработки по различным атрибутам колеблется между 98,3% и 100%.
  • Наименования должностей государственных служащих в наборе данных не в полной мере соответствует должностям, перечисленным в Указе Президента РФ N 1574, поскольку в сведениях о доходах, расходах, об имуществе и обязательствах имущественного характера, публикуемых на официальных сайтах федеральных министерств, используются произвольные формулировки названий должностей. Например, затруднительно отделить должность «начальник отдела» (код 05-1-2-015) категории «руководители» от должности «начальник отдела в департаменте» (код 05-3-2-018) категории «специалисты». Такая же проблема характерна для государственных служащих, занимающих позиции заместителей начальника отдела. В наборе данных сохранена колонка «position», в которой приведены исходные формулировки (после проверки Яндекс.Спеллер), в колонке «position_standard» приведены скорректированные наименования должностей.
  • Колонки с описанием имущества («type», «use_type») заполняются без использования четких стандартизованных типов, что приводит к появлению широкого разнообразия и разной степени детализации для описания схожих видов имущества. Колонка с типом собственности «own_type» в некоторых случаях содержит также размер доли в собственности.
  • Графа «Сведения об источниках получения средств, за счет которых совершена сделка (вид приобретенного имущества, источники)» (колонка «source») заполняется с разным качеством. В некоторых случаях сведения о наличии дополнительного источника дохода имеются, но его размер не указан. Кроме того, иногда сведения о дополнительных источниках получения дохода указывается в графе «Декларированный доход».

Внесенные в набор данных изменения по сравнению с источниками

  • Данные о декларированном годовом доходе, размещенные на официальных сайтах федеральных министерств в файлах разных форматов (xls, xlsx, doc, docx, rar, zip, pdf), преобразованы в плоскую таблицу в машиночитаемом формате;
  • Исправлены опечатки в наименованиях должностей;
  • Наименования должностей приведены к унифицированному виду в соответствии с Указом Президента РФ от 31.12.2005 N 1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы»;
  • Созданы дополнительные переменные с категорией и группой должностей («position_category» и «position_group»). Для присвоения категории и группы использована классификация в соответствии с Указом Президента РФ от 31.12.2005 №1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы». В файлах-первоисточниках используются произвольные названия должностей, не в полной мере соответствующие реестру из-за чего в отдельных случаях оказывается затруднительно определять категории и группы должностей. Так, невозможно отделить должность «начальник отдела» (код 05-1-2-015) категории «руководители» от должности «начальник отдела в департаменте» (код 05-3-2-018) категории «специалисты». В связи с этим все начальники объединены в дополнительную категорию «руководители/специалисты». Аналогичная ситуация с «заместителем начальника отдела» (код 05-1-2-015.1) категории «руководители» главной группы должностей и «заместителем начальника отдела в департаменте» (код 05-3-3-023) категории «специалисты» ведущей группы должностей. Все заместители начальников объединены в дополнительную категорию «руководители/специалисты» и группу «главная/ведущая».
  • Из данных, приведенных в графе «Декларируемый доход» файла-первоисточника, извлечена сумма дохода, переведена в числовой формат с удалением текстовых комментариев. Результат сохранен в переменной «income»;
  • Из текстовых пояснений-описаний источников дохода извлечена сумма дополнительного дохода и размещена в переменной «source_sum»;
  • На основании переменных «source» и «source_sum» создана дополнительная переменная «source_sort». Значения «exta» или «all_together» говорят о том, что имел место внешний источник дохода (наследство, субсидия, кредит), но сумма дополнительного дохода чиновником не указана;
  • В отдельной колонке отражены полные («state_agency_full») и сокращенные («state_agency_short») названия федеральных министерств;
  • С помощью библиотеки Russiannames (определяет пол по ФИО) и на основании информации о наличии у сотрудника супруга или супруги определен пол служащего и размещен в колонке «gender». Не удалось получить эту характеристику только у 4% наблюдений;
  • Подсчитано количество несовершеннолетних детей и размещено в колонке «children»;
  • Добавлено поле «married», в котором указан семейный статус служащего, определенный на основании наличия супруга/супруги;
  • В части файлов-первоисточников данные о стране расположения объекта недвижимого имущества и его площади проведены в одной колонке. Проведена проверка на смешивание этих данных и автоматизированными средствами данные разделены по соответствующим отдельным колонкам.

Ответственные за набор данных

ФИО ответственного лица Электронная почта
1. Зиндер Ксения Михайлова k.zinder@cpur.ru
2. Гизатуллина Эльвира Габдрашитовна e.gizatullina@data.rcsi.science