Доходы и имущество госслужащих за 2013-2020 гг: различия между версиями
Editor (обсуждение | вклад) м (→= Качество данных: контент дооформлен) |
Editor (обсуждение | вклад) (→Внесенные в набор данных изменения по сравнению с источниками: контент загружен и оформлен) |
||
Строка 490: | Строка 490: | ||
== Внесенные в набор данных изменения по сравнению с источниками == | == Внесенные в набор данных изменения по сравнению с источниками == | ||
* Данные о декларированном годовом доходе, размещенные на официальных сайтах федеральных министерств в файлах разных форматов (xls, xlsx, doc, docx, rar, zip, pdf), преобразованы в плоскую таблицу в машиночитаемом формате; | |||
* Исправлены опечатки в наименованиях должностей; | |||
* Наименования должностей приведены к унифицированному виду в соответствии с Указом Президента РФ от 31.12.2005 N 1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы»; | |||
* Созданы дополнительные переменные с категорией и группой должностей ('''«position_category»''' и '''«position_group»'''). Для присвоения категории и группы использована классификация в соответствии с Указом Президента РФ от 31.12.2005 №1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы». В файлах-первоисточниках используются произвольные названия должностей, не в полной мере соответствующие реестру из-за чего в отдельных случаях оказывается затруднительно определять категории и группы должностей. Так, невозможно отделить должность «начальник отдела» (код 05-1-2-015) категории «руководители» от должности «начальник отдела в департаменте» (код 05-3-2-018) категории «специалисты». В связи с этим все начальники объединены в дополнительную категорию «руководители/специалисты». Аналогичная ситуация с «заместителем начальника отдела» (код 05-1-2-015.1) категории «руководители» главной группы должностей и «заместителем начальника отдела в департаменте» (код 05-3-3-023) категории «специалисты» ведущей группы должностей. Все заместители начальников объединены в дополнительную категорию «руководители/специалисты» и группу «главная/ведущая». | |||
* Из данных, приведенных в графе «Декларируемый доход» файла-первоисточника, извлечена сумма дохода, переведена в числовой формат с удалением текстовых комментариев. Результат сохранен в переменной '''«income»;''' | |||
* Из текстовых пояснений-описаний источников дохода извлечена сумма дополнительного дохода и размещена в переменной '''«source_sum»;''' | |||
* На основании переменных «source» и «source_sum» создана дополнительная переменная «source_sort». Значения '''«exta»''' или '''«all_together»''' говорят о том, что имел место внешний источник дохода (наследство, субсидия, кредит), но сумма дополнительного дохода чиновником не указана; | |||
* В отдельной колонке отражены полные ('''«state_agency_full»''') и сокращенные ('''«state_agency_short»''') названия федеральных министерств; | |||
* С помощью библиотеки Russiannames (определяет пол по ФИО) и на основании информации о наличии у сотрудника супруга или супруги определен пол служащего и размещен в колонке '''«gender»'''. Не удалось получить эту характеристику только у 4% наблюдений; | |||
* Подсчитано количество несовершеннолетних детей и размещено в колонке '''«children»'''; | |||
* Добавлено поле '''«married»,''' в котором указан семейный статус служащего, определенный на основании наличия супруга/супруги; | |||
* В части файлов-первоисточников данные о стране расположения объекта недвижимого имущества и его площади проведены в одной колонке. Проведена проверка на смешивание этих данных и автоматизированными средствами данные разделены по соответствующим отдельным колонкам. | |||
== Ответственные за набор данных == | == Ответственные за набор данных == | ||
{| class="wikitable" style="font-weight:bold; background-color:#D2FEF0;" | {| class="wikitable" style="font-weight:bold; background-color:#D2FEF0;" |
Версия 12:06, 29 ноября 2021
История изменений
Дата | Версия | Автор | Описание изменений |
---|---|---|---|
28.10.2020 | 1.0 | Витовт Копыток Ольга Батова |
Документ создан |
30.11.2021 | 2.0 | Ксения Зиндер Эльвира Гизатуллина, |
Описание дополнено после обновления датасета данными за 2020 год и сведениями об имуществе чиновника, доходах и имуществе членов его семьи |
Общее описание набора данных
Данные о доходах и имуществе сотрудников российских министерств и членов их семей, полученные из опубликованных антикоррупционных деклараций за 2013-2020 гг.
Согласно ФЗ №273 «О противодействии коррупции», госслужащие и прочие публичные должностные лица ежегодно подают декларации о доходах, транспортных средствах, недвижимом имуществе, находящемся в пользовании и в собственности в отношении себя, супруги(а) и несовершеннолетних детей. Эти сведения размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств. В наборе объединены распарсенные данные 18 федеральных министерств за 2013-2020 гг. Сведения были дополнены информацией о поле, семейном положении, количестве несовершеннолетних детей.
Единица наблюдения в датасете — сведения о госслужащем за конкретный год. Поскольку количество членов семьи у одного чиновника может различаться, данные о доходе и имуществе чиновника, а также доходе и имуществе членов его семьи представлены отдельными строками.
Набор охватывает период с 2013 по 2020 год, содержит 22199 наблюдений по 26 атрибутам.
Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»).
Структура набора данных (Codebook)
Атрибут | Значение |
---|---|
Общие сведения | |
Полное наименование набора данных | Доходы и имущество госслужащих: объединенные сведения из антикоррупционных деклараций сотрудников российских министерств |
Сокращенное наименование набора данных | Доходы и имущество госслужащих за 2013-2020 гг. |
Краткое описание набора данных | Данные о доходах и имуществе сотрудников российских министерств и членов их семей, полученные из опубликованных антикоррупционных деклараций за 2013-2020 гг. Согласно ФЗ №273 «О противодействии коррупции», госслужащие и прочие публичные должностные лица ежегодно подают декларации о доходах, транспортных средствах, недвижимом имуществе, находящемся в пользовании и в собственности в отношении себя, супруги(а) и несовершеннолетних детей. Эти сведения размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств. В наборе объединены распарсенные данные 18 федеральных министерств за 2013-2020 гг. Сведения были дополнены информацией о поле, семейном положении, количестве несовершеннолетних детей. Единица наблюдения в датасете — сведения о госслужащем за конкретный год. Поскольку количество членов семьи у одного чиновника может различаться, данные о доходе и имуществе чиновника, а также доходе и имуществе членов его семьи представлены отдельными строками. Набор охватывает период с 2013 по 2020 год, содержит 22199 наблюдений по 26 атрибутам. |
Краткое описание источника набора данных | Данные о декларируемом доходе и имуществе госслужащих размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств в виде файлов различных форматов. |
Покрываемый временной период | 2013-2020 |
Доступные форматы | CSV (кодировка: «UTF-8», разделитель: «;») |
Размер набора данных | 41,9 МБ |
Тематика набора данных | Доход государственных служащих. Экономика |
Режим доступа | Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе и скачивать данные) |
Периодичность публикации и обновления | |
Дата размещения в каталоге | 28.10.2020 |
Периодичность обновления в каталоге | Ежегодно |
Дата последнего обновления набора данных в каталоге | 30.11.2021 |
Характер последнего обновления | Добавлены сведения за 2020 год, расширен состав атрибутов в наборе данных: добавлена информация о имуществе государственного служащего, а также о доходах и имуществе членов его/ее семьи. |
Дата следующего обновления набора данных | Не установлена |
Дополнительные сведения | |
Цитирование набора данных на русском языке | Доходы и имущество госслужащих: объединенные сведения из антикоррупционных деклараций сотрудников российских министерств // Официальные сайты федеральных министерств РФ; обработка: Зиндер К.М., Гизатуллина Э.Г. Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2020. Доступ: Лицензия CC BY-SA. Размещено: 30.11.2021. URL: https://data.rcsi.science/data-catalog/datasets/150/ |
For references (English) | Income and property of civil servants: information from anti-corruption declarations of Russian ministries // Official websites of the federal ministries of Russian Federation: Zinder. K., Gizatullina E., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 30.11.2021. URL: https://data.rcsi.science/data-catalog/datasets/150/ |
Ссылка на открытый репозиторий | отсутствует |
Геоданные (пространственная привязка набора данных) | нет |
Лицензия, под которой публикуется набор данных | СС BY-SA (Creative Commons) https://creativecommons.org/licenses/by-sa/4.0/ Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии — CC BY-SA |
Стандарт публикации | http://opendata.gosmonitor.ru/standard/3.0 |
Параметры запросов API | Интеграция через API не предусмотрена |
Источники данных
Датасет представлен в виде плоской таблицы (data.csv), содержащей 26 атрибута, 22 199 наблюдений.
Формат данных: CSV (кодировка: «UTF-8», разделитель: «;»).
Атрибут | Описание | Единица измерения | Количество пропусков | Формат |
---|---|---|---|---|
year | Год, за который поданы сведения о доходах и имуществе | 0 | int | |
state_agency | Краткое обозначение министерства латиницей | 0 | string | |
state_agency_full | Полное название министерства | 0 | string | |
state_agency_short | Краткое обозначение министерства кириллицей | 0 | string | |
name | Фамилия, имя, отчество или фамилия и инициалы служащего, приведенные к стандартному написанию с помощью регулярных выражений | 0 | string | |
position | Наименование должности из первоисточника, скорректированное с помощью сервиса Яндекс.Спеллер | 0 | string | |
position_standard | Стандартизированная должность в соответствии с Указом Президента РФ от 31.12.2005 №1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы». В случае, если указанная в первоисточнике должность не включена в данную классификацию, присвоено значение «не стандарт» | 0 | string | |
position_category | Категория должности | 0 | string | |
position_group | Группа должности | 0 | string | |
family | Указание на то, относится ли приведенные данные к самому служащему (значение «чиновник»), или членам его семьи («супруга», «супруг» или «ребенок») | 0 | string | |
gender | Пол госслужащего, определенный с помощью автоматического алгоритма, исходя из его ФИО и/или исходя из пола того, с кем он/она состоит в браке. | 871 | string | |
married | Состоит ли служащий в браке | 0 | string | |
children | Количество несовершеннолетних детей | шт. | 0 | int |
type | Тип объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, вид объекта» файлов, скачанных с официального сайта министерства) | 0 | string | |
own_type | Вид собственности на объект недвижимости (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, вид собственности», файлов, скачанных с официального сайта министерства) | 0 | string | |
meters | Площадь объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, площадь (кв.м)», файлов, скачанных с официального сайта министерства) | кв. м | 0 | string |
country | Страна расположения объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, страна расположения», файлов, скачанных с официального сайта министерства) | 0 | string | |
use_type | Тип объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, вид объекта», файлов, скачанных с официального сайта министерства) | 0 | string | |
use_meters | Площадь объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, площадь (кв.м)», файлов, скачанных с официального сайта министерства) | кв. м | 0 | string |
use_country | Страна расположения объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, страна расположения», файлов, скачанных с официального сайта министерства) | 0 | string | |
income | Декларированный годовой доход | рубль | 0 | numeric |
source | «Сведения об источниках получения средств, за счет которых совершена сделка (вид приобретенного имущества, источники)» файлов, скачанных с официального сайта министерства | 0 | string | |
source_sum | Сумма дополнительного дохода, указанная в графе source или в графе «income», в случаях, когда дополнительный доход был указан в графе «income», а не в графе «source» | рубль | 0 | numeric |
source_sort | Дополнительно сгенерированная переменная, содержащая информацию о типе полученного дополнительного дохода. Заполняется в случаях, если указано наличие дополнительного дохода, но не указан его размер. Варианты значений:
|
0 | string | |
car | Транспортные средства (соответствует содержанию графы «Транспортные средства (вид, наименование, марка)», файлов, скачанных с официального сайта министерства) | 0 | string | |
car_brands | Список марок автомобилей, указанных в поле car, в стандартизованном виде. Марки других транспортных средств в этом поле не указаны. | list |
Известные ограничения данных
Полнота данных
Наиболее полно в публикуемых в открытом доступе документах представлены сведения о декларированном годовом доходе и имуществе госслужащих федеральных министерств, занимающих следующие должности: первый заместитель министра, заместитель министра, директор департамента, заместитель директора департамента, начальник отдела, заместитель начальника отдела, референт. Сведения о декларированном доходе и имуществе государственных служащих, занимающих прочие должности, носят фрагментарный характер.
КОРТИНКО Рис. 1. Доля служащих центральных аппаратов федеральных министерств, чьи декларации были размещены публично в период 2014-2020 гг..
Данные Минстроя и Минобрнауки за 2013 г. и Минэкономразвития за 2013-2014 гг. исключены из набора на этапе парсинга по причине того, что формат заполнения выложенных на сайтах файлов не дает возможности обработать их автоматизированными способами и преобразовать в машиночитаемый вид без множественных ошибок.
В набор данных включались сведения только о государственных служащих центральных аппаратов федеральных министерств проживающих и работающих на территории Российской федерации. Кроме того были исключены данные сотрудников министерств, которые отработали не полный год в тех случаях, когда об это было указано в источнике данных. Эти сотрудники отработали меньше полного года, поэтому сумма их годового дохода несравнима с суммами дохода сотрудников, отработавших полный год.
В набор не включены данные МИД и негражданских министерств (МВД, МЧС, Минобороны) из-за невозможности стандартизировать должности этих ведомств и, соответственно, сравнивать их с остальными гражданскими министерствами. Кроме того, Минобороны не публикует в декларациях должности своих служащих, а МИД и МВД с 2019 года публикует декларации только усеченного списка сотрудников (менее 10 человек).
Охват данных министерств по годам представлен в таблице ниже.
Наименование министерства | Год | |||||||
---|---|---|---|---|---|---|---|---|
2013 | 2014 | 2015 | 2016 | 2017 | 2018 | 2019 | 2020 | |
Минэкономразвития России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
Минфин России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минпромторг России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минэнерго России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минздрав России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минсельхоз России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минтранс России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минвостокразвития России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минцифры России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минкультуры России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минприроды России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минтруд России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минспорт России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минстрой России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
Минюст России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минобрнауки России | ✓ | ✓ | ✓ | ✓ | ||||
Минпросвещения России | ✓ | ✓ | ✓ | |||||
Минобрнауки России | ✓ | ✓ | ✓ |
Качество данных
- Данные в изначальных файлах заполняются и оформляются очень разнообразно, несмотря единую форму отчетной таблицы. В редких случаях при заполнении допускаются ошибки, данные вписываются в другой столбец, смещаются колонки таблицы. В ходе ручной обработки данных и парсинга были устранено большинство типичных смещений/искажений данных. Точность обработки по различным атрибутам колеблется между 98,3% и 100%.
- Наименования должностей государственных служащих в наборе данных не в полной мере соответствует должностям, перечисленным в Указе Президента РФ N 1574, поскольку в сведениях о доходах, расходах, об имуществе и обязательствах имущественного характера, публикуемых на официальных сайтах федеральных министерств, используются произвольные формулировки названий должностей. Например, затруднительно отделить должность «начальник отдела» (код 05-1-2-015) категории «руководители» от должности «начальник отдела в департаменте» (код 05-3-2-018) категории «специалисты». Такая же проблема характерна для государственных служащих, занимающих позиции заместителей начальника отдела. В наборе данных сохранена колонка «position», в которой приведены исходные формулировки (после проверки Яндекс.Спеллер), в колонке «position_standard» приведены скорректированные наименования должностей.
- Колонки с описанием имущества («type», «use_type») заполняются без использования четких стандартизованных типов, что приводит к появлению широкого разнообразия и разной степени детализации для описания схожих видов имущества. Колонка с типом собственности «own_type» в некоторых случаях содержит также размер доли в собственности.
- Графа «Сведения об источниках получения средств, за счет которых совершена сделка (вид приобретенного имущества, источники)» (колонка «source») заполняется с разным качеством. В некоторых случаях сведения о наличии дополнительного источника дохода имеются, но его размер не указан. Кроме того, иногда сведения о дополнительных источниках получения дохода указывается в графе «Декларированный доход».
Внесенные в набор данных изменения по сравнению с источниками
- Данные о декларированном годовом доходе, размещенные на официальных сайтах федеральных министерств в файлах разных форматов (xls, xlsx, doc, docx, rar, zip, pdf), преобразованы в плоскую таблицу в машиночитаемом формате;
- Исправлены опечатки в наименованиях должностей;
- Наименования должностей приведены к унифицированному виду в соответствии с Указом Президента РФ от 31.12.2005 N 1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы»;
- Созданы дополнительные переменные с категорией и группой должностей («position_category» и «position_group»). Для присвоения категории и группы использована классификация в соответствии с Указом Президента РФ от 31.12.2005 №1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы». В файлах-первоисточниках используются произвольные названия должностей, не в полной мере соответствующие реестру из-за чего в отдельных случаях оказывается затруднительно определять категории и группы должностей. Так, невозможно отделить должность «начальник отдела» (код 05-1-2-015) категории «руководители» от должности «начальник отдела в департаменте» (код 05-3-2-018) категории «специалисты». В связи с этим все начальники объединены в дополнительную категорию «руководители/специалисты». Аналогичная ситуация с «заместителем начальника отдела» (код 05-1-2-015.1) категории «руководители» главной группы должностей и «заместителем начальника отдела в департаменте» (код 05-3-3-023) категории «специалисты» ведущей группы должностей. Все заместители начальников объединены в дополнительную категорию «руководители/специалисты» и группу «главная/ведущая».
- Из данных, приведенных в графе «Декларируемый доход» файла-первоисточника, извлечена сумма дохода, переведена в числовой формат с удалением текстовых комментариев. Результат сохранен в переменной «income»;
- Из текстовых пояснений-описаний источников дохода извлечена сумма дополнительного дохода и размещена в переменной «source_sum»;
- На основании переменных «source» и «source_sum» создана дополнительная переменная «source_sort». Значения «exta» или «all_together» говорят о том, что имел место внешний источник дохода (наследство, субсидия, кредит), но сумма дополнительного дохода чиновником не указана;
- В отдельной колонке отражены полные («state_agency_full») и сокращенные («state_agency_short») названия федеральных министерств;
- С помощью библиотеки Russiannames (определяет пол по ФИО) и на основании информации о наличии у сотрудника супруга или супруги определен пол служащего и размещен в колонке «gender». Не удалось получить эту характеристику только у 4% наблюдений;
- Подсчитано количество несовершеннолетних детей и размещено в колонке «children»;
- Добавлено поле «married», в котором указан семейный статус служащего, определенный на основании наличия супруга/супруги;
- В части файлов-первоисточников данные о стране расположения объекта недвижимого имущества и его площади проведены в одной колонке. Проведена проверка на смешивание этих данных и автоматизированными средствами данные разделены по соответствующим отдельным колонкам.
Ответственные за набор данных
№ | ФИО ответственного лица | Электронная почта |
---|---|---|
1. | Зиндер Ксения Михайлова | k.zinder@cpur.ru |
2. | Гизатуллина Эльвира Габдрашитовна | e.gizatullina@data.rcsi.science |