Доходы и имущество госслужащих за 2013-2020 гг: различия между версиями
Editor (обсуждение | вклад) (1. Загружен контент (raw: Качество данных, картинка выше, ), не загружен: Внесеннеые в набор данных изменени) |
Editor (обсуждение | вклад) м (→= Качество данных: контент дооформлен) |
||
Строка 483: | Строка 483: | ||
|} | |} | ||
=== Качество данных == | === Качество данных === | ||
* Данные в изначальных файлах заполняются и оформляются очень разнообразно, несмотря единую форму отчетной таблицы. В редких случаях при заполнении допускаются ошибки, данные вписываются в другой столбец, смещаются колонки таблицы. В ходе ручной обработки данных и парсинга были устранено большинство типичных смещений/искажений данных. Точность обработки по различным атрибутам колеблется между 98,3% и 100%. | |||
* Наименования должностей государственных служащих в наборе данных не в полной мере соответствует должностям, перечисленным в Указе Президента РФ N 1574, поскольку в сведениях о доходах, расходах, об имуществе и обязательствах имущественного характера, публикуемых на официальных сайтах федеральных министерств, используются произвольные формулировки названий должностей. Например, затруднительно отделить должность «начальник отдела» (код 05-1-2-015) категории «руководители» от должности «начальник отдела в департаменте» (код 05-3-2-018) категории «специалисты». Такая же проблема характерна для государственных служащих, занимающих позиции заместителей начальника отдела. В наборе данных сохранена колонка '''«position»,''' в которой приведены исходные формулировки (после проверки Яндекс.Спеллер), в колонке '''«position_standard»''' приведены скорректированные наименования должностей. | |||
* Колонки с описанием имущества ('''«type», «use_type»''') заполняются без использования четких стандартизованных типов, что приводит к появлению широкого разнообразия и разной степени детализации для описания схожих видов имущества. Колонка с типом собственности '''«own_type»''' в некоторых случаях содержит также размер доли в собственности. | |||
* Графа «Сведения об источниках получения средств, за счет которых совершена сделка (вид приобретенного имущества, источники)» (колонка «source») заполняется с разным качеством. В некоторых случаях сведения о наличии дополнительного источника дохода имеются, но его размер не указан. Кроме того, иногда сведения о дополнительных источниках получения дохода указывается в графе «Декларированный доход». | * Графа «Сведения об источниках получения средств, за счет которых совершена сделка (вид приобретенного имущества, источники)» (колонка '''«source»''') заполняется с разным качеством. В некоторых случаях сведения о наличии дополнительного источника дохода имеются, но его размер не указан. Кроме того, иногда сведения о дополнительных источниках получения дохода указывается в графе «Декларированный доход». | ||
== Внесенные в набор данных изменения по сравнению с источниками == | == Внесенные в набор данных изменения по сравнению с источниками == |
Версия 12:00, 29 ноября 2021
История изменений
Дата | Версия | Автор | Описание изменений |
---|---|---|---|
28.10.2020 | 1.0 | Витовт Копыток Ольга Батова |
Документ создан |
30.11.2021 | 2.0 | Ксения Зиндер Эльвира Гизатуллина, |
Описание дополнено после обновления датасета данными за 2020 год и сведениями об имуществе чиновника, доходах и имуществе членов его семьи |
Общее описание набора данных
Данные о доходах и имуществе сотрудников российских министерств и членов их семей, полученные из опубликованных антикоррупционных деклараций за 2013-2020 гг.
Согласно ФЗ №273 «О противодействии коррупции», госслужащие и прочие публичные должностные лица ежегодно подают декларации о доходах, транспортных средствах, недвижимом имуществе, находящемся в пользовании и в собственности в отношении себя, супруги(а) и несовершеннолетних детей. Эти сведения размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств. В наборе объединены распарсенные данные 18 федеральных министерств за 2013-2020 гг. Сведения были дополнены информацией о поле, семейном положении, количестве несовершеннолетних детей.
Единица наблюдения в датасете — сведения о госслужащем за конкретный год. Поскольку количество членов семьи у одного чиновника может различаться, данные о доходе и имуществе чиновника, а также доходе и имуществе членов его семьи представлены отдельными строками.
Набор охватывает период с 2013 по 2020 год, содержит 22199 наблюдений по 26 атрибутам.
Датасет доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»).
Структура набора данных (Codebook)
Атрибут | Значение |
---|---|
Общие сведения | |
Полное наименование набора данных | Доходы и имущество госслужащих: объединенные сведения из антикоррупционных деклараций сотрудников российских министерств |
Сокращенное наименование набора данных | Доходы и имущество госслужащих за 2013-2020 гг. |
Краткое описание набора данных | Данные о доходах и имуществе сотрудников российских министерств и членов их семей, полученные из опубликованных антикоррупционных деклараций за 2013-2020 гг. Согласно ФЗ №273 «О противодействии коррупции», госслужащие и прочие публичные должностные лица ежегодно подают декларации о доходах, транспортных средствах, недвижимом имуществе, находящемся в пользовании и в собственности в отношении себя, супруги(а) и несовершеннолетних детей. Эти сведения размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств. В наборе объединены распарсенные данные 18 федеральных министерств за 2013-2020 гг. Сведения были дополнены информацией о поле, семейном положении, количестве несовершеннолетних детей. Единица наблюдения в датасете — сведения о госслужащем за конкретный год. Поскольку количество членов семьи у одного чиновника может различаться, данные о доходе и имуществе чиновника, а также доходе и имуществе членов его семьи представлены отдельными строками. Набор охватывает период с 2013 по 2020 год, содержит 22199 наблюдений по 26 атрибутам. |
Краткое описание источника набора данных | Данные о декларируемом доходе и имуществе госслужащих размещаются в открытом доступе в разделах «Противодействие коррупции» на официальных сайтах федеральных министерств в виде файлов различных форматов. |
Покрываемый временной период | 2013-2020 |
Доступные форматы | CSV (кодировка: «UTF-8», разделитель: «;») |
Размер набора данных | 41,9 МБ |
Тематика набора данных | Доход государственных служащих. Экономика |
Режим доступа | Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе и скачивать данные) |
Периодичность публикации и обновления | |
Дата размещения в каталоге | 28.10.2020 |
Периодичность обновления в каталоге | Ежегодно |
Дата последнего обновления набора данных в каталоге | 30.11.2021 |
Характер последнего обновления | Добавлены сведения за 2020 год, расширен состав атрибутов в наборе данных: добавлена информация о имуществе государственного служащего, а также о доходах и имуществе членов его/ее семьи. |
Дата следующего обновления набора данных | Не установлена |
Дополнительные сведения | |
Цитирование набора данных на русском языке | Доходы и имущество госслужащих: объединенные сведения из антикоррупционных деклараций сотрудников российских министерств // Официальные сайты федеральных министерств РФ; обработка: Зиндер К.М., Гизатуллина Э.Г. Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2020. Доступ: Лицензия CC BY-SA. Размещено: 30.11.2021. URL: https://data.rcsi.science/data-catalog/datasets/150/ |
For references (English) | Income and property of civil servants: information from anti-corruption declarations of Russian ministries // Official websites of the federal ministries of Russian Federation: Zinder. K., Gizatullina E., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 30.11.2021. URL: https://data.rcsi.science/data-catalog/datasets/150/ |
Ссылка на открытый репозиторий | отсутствует |
Геоданные (пространственная привязка набора данных) | нет |
Лицензия, под которой публикуется набор данных | СС BY-SA (Creative Commons) https://creativecommons.org/licenses/by-sa/4.0/ Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии — CC BY-SA |
Стандарт публикации | http://opendata.gosmonitor.ru/standard/3.0 |
Параметры запросов API | Интеграция через API не предусмотрена |
Источники данных
Датасет представлен в виде плоской таблицы (data.csv), содержащей 26 атрибута, 22 199 наблюдений.
Формат данных: CSV (кодировка: «UTF-8», разделитель: «;»).
Атрибут | Описание | Единица измерения | Количество пропусков | Формат |
---|---|---|---|---|
year | Год, за который поданы сведения о доходах и имуществе | 0 | int | |
state_agency | Краткое обозначение министерства латиницей | 0 | string | |
state_agency_full | Полное название министерства | 0 | string | |
state_agency_short | Краткое обозначение министерства кириллицей | 0 | string | |
name | Фамилия, имя, отчество или фамилия и инициалы служащего, приведенные к стандартному написанию с помощью регулярных выражений | 0 | string | |
position | Наименование должности из первоисточника, скорректированное с помощью сервиса Яндекс.Спеллер | 0 | string | |
position_standard | Стандартизированная должность в соответствии с Указом Президента РФ от 31.12.2005 №1574 (ред. от 30.07.2020) «О Реестре должностей федеральной государственной гражданской службы». В случае, если указанная в первоисточнике должность не включена в данную классификацию, присвоено значение «не стандарт» | 0 | string | |
position_category | Категория должности | 0 | string | |
position_group | Группа должности | 0 | string | |
family | Указание на то, относится ли приведенные данные к самому служащему (значение «чиновник»), или членам его семьи («супруга», «супруг» или «ребенок») | 0 | string | |
gender | Пол госслужащего, определенный с помощью автоматического алгоритма, исходя из его ФИО и/или исходя из пола того, с кем он/она состоит в браке. | 871 | string | |
married | Состоит ли служащий в браке | 0 | string | |
children | Количество несовершеннолетних детей | шт. | 0 | int |
type | Тип объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, вид объекта» файлов, скачанных с официального сайта министерства) | 0 | string | |
own_type | Вид собственности на объект недвижимости (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, вид собственности», файлов, скачанных с официального сайта министерства) | 0 | string | |
meters | Площадь объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, площадь (кв.м)», файлов, скачанных с официального сайта министерства) | кв. м | 0 | string |
country | Страна расположения объекта недвижимости, находящегося в собственности (соответствует содержанию графы «Объекты недвижимости, находящиеся в собственности, страна расположения», файлов, скачанных с официального сайта министерства) | 0 | string | |
use_type | Тип объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, вид объекта», файлов, скачанных с официального сайта министерства) | 0 | string | |
use_meters | Площадь объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, площадь (кв.м)», файлов, скачанных с официального сайта министерства) | кв. м | 0 | string |
use_country | Страна расположения объекта недвижимости, находящегося в пользовании (соответствует содержанию графы «Объекты недвижимости, находящиеся в пользовании, страна расположения», файлов, скачанных с официального сайта министерства) | 0 | string | |
income | Декларированный годовой доход | рубль | 0 | numeric |
source | «Сведения об источниках получения средств, за счет которых совершена сделка (вид приобретенного имущества, источники)» файлов, скачанных с официального сайта министерства | 0 | string | |
source_sum | Сумма дополнительного дохода, указанная в графе source или в графе «income», в случаях, когда дополнительный доход был указан в графе «income», а не в графе «source» | рубль | 0 | numeric |
source_sort | Дополнительно сгенерированная переменная, содержащая информацию о типе полученного дополнительного дохода. Заполняется в случаях, если указано наличие дополнительного дохода, но не указан его размер. Варианты значений:
|
0 | string | |
car | Транспортные средства (соответствует содержанию графы «Транспортные средства (вид, наименование, марка)», файлов, скачанных с официального сайта министерства) | 0 | string | |
car_brands | Список марок автомобилей, указанных в поле car, в стандартизованном виде. Марки других транспортных средств в этом поле не указаны. | list |
Известные ограничения данных
Полнота данных
Наиболее полно в публикуемых в открытом доступе документах представлены сведения о декларированном годовом доходе и имуществе госслужащих федеральных министерств, занимающих следующие должности: первый заместитель министра, заместитель министра, директор департамента, заместитель директора департамента, начальник отдела, заместитель начальника отдела, референт. Сведения о декларированном доходе и имуществе государственных служащих, занимающих прочие должности, носят фрагментарный характер.
КОРТИНКО Рис. 1. Доля служащих центральных аппаратов федеральных министерств, чьи декларации были размещены публично в период 2014-2020 гг..
Данные Минстроя и Минобрнауки за 2013 г. и Минэкономразвития за 2013-2014 гг. исключены из набора на этапе парсинга по причине того, что формат заполнения выложенных на сайтах файлов не дает возможности обработать их автоматизированными способами и преобразовать в машиночитаемый вид без множественных ошибок.
В набор данных включались сведения только о государственных служащих центральных аппаратов федеральных министерств проживающих и работающих на территории Российской федерации. Кроме того были исключены данные сотрудников министерств, которые отработали не полный год в тех случаях, когда об это было указано в источнике данных. Эти сотрудники отработали меньше полного года, поэтому сумма их годового дохода несравнима с суммами дохода сотрудников, отработавших полный год.
В набор не включены данные МИД и негражданских министерств (МВД, МЧС, Минобороны) из-за невозможности стандартизировать должности этих ведомств и, соответственно, сравнивать их с остальными гражданскими министерствами. Кроме того, Минобороны не публикует в декларациях должности своих служащих, а МИД и МВД с 2019 года публикует декларации только усеченного списка сотрудников (менее 10 человек).
Охват данных министерств по годам представлен в таблице ниже.
Наименование министерства | Год | |||||||
---|---|---|---|---|---|---|---|---|
2013 | 2014 | 2015 | 2016 | 2017 | 2018 | 2019 | 2020 | |
Минэкономразвития России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
Минфин России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минпромторг России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минэнерго России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минздрав России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минсельхоз России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минтранс России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минвостокразвития России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минцифры России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минкультуры России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минприроды России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минтруд России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минспорт России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минстрой России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
Минюст России | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Минобрнауки России | ✓ | ✓ | ✓ | ✓ | ||||
Минпросвещения России | ✓ | ✓ | ✓ | |||||
Минобрнауки России | ✓ | ✓ | ✓ |
Качество данных
- Данные в изначальных файлах заполняются и оформляются очень разнообразно, несмотря единую форму отчетной таблицы. В редких случаях при заполнении допускаются ошибки, данные вписываются в другой столбец, смещаются колонки таблицы. В ходе ручной обработки данных и парсинга были устранено большинство типичных смещений/искажений данных. Точность обработки по различным атрибутам колеблется между 98,3% и 100%.
- Наименования должностей государственных служащих в наборе данных не в полной мере соответствует должностям, перечисленным в Указе Президента РФ N 1574, поскольку в сведениях о доходах, расходах, об имуществе и обязательствах имущественного характера, публикуемых на официальных сайтах федеральных министерств, используются произвольные формулировки названий должностей. Например, затруднительно отделить должность «начальник отдела» (код 05-1-2-015) категории «руководители» от должности «начальник отдела в департаменте» (код 05-3-2-018) категории «специалисты». Такая же проблема характерна для государственных служащих, занимающих позиции заместителей начальника отдела. В наборе данных сохранена колонка «position», в которой приведены исходные формулировки (после проверки Яндекс.Спеллер), в колонке «position_standard» приведены скорректированные наименования должностей.
- Колонки с описанием имущества («type», «use_type») заполняются без использования четких стандартизованных типов, что приводит к появлению широкого разнообразия и разной степени детализации для описания схожих видов имущества. Колонка с типом собственности «own_type» в некоторых случаях содержит также размер доли в собственности.
- Графа «Сведения об источниках получения средств, за счет которых совершена сделка (вид приобретенного имущества, источники)» (колонка «source») заполняется с разным качеством. В некоторых случаях сведения о наличии дополнительного источника дохода имеются, но его размер не указан. Кроме того, иногда сведения о дополнительных источниках получения дохода указывается в графе «Декларированный доход».
Внесенные в набор данных изменения по сравнению с источниками
Ответственные за набор данных
№ | ФИО ответственного лица | Электронная почта |
---|---|---|
1. | Зиндер Ксения Михайлова | k.zinder@cpur.ru |
2. | Гизатуллина Эльвира Габдрашитовна | e.gizatullina@data.rcsi.science |