Характеристики нормотворческого процесса в России – текстовый корпус: различия между версиями
Editor (обсуждение | вклад) м (→Общее описание набора данных: Исправлен размер датасета) |
Editor (обсуждение | вклад) м (→Внесенные в набор данных изменения по сравнению с источниками: исправлено последнее предложение про потери) |
||
Строка 172: | Строка 172: | ||
Набор содержит все тексты проектов, размещённых на regulation.gov.ru и sozd.duma.gov.ru. В случае regulation.gov.ru это касается всех тех проектов, которые достигли стадии «Размещение проекта акта». | Набор содержит все тексты проектов, размещённых на regulation.gov.ru и sozd.duma.gov.ru. В случае regulation.gov.ru это касается всех тех проектов, которые достигли стадии «Размещение проекта акта». | ||
= Внесенные в набор данных изменения по сравнению с источниками = | = Внесенные в набор данных изменения по сравнению с источниками = | ||
* Тексты проектов НПА на ОРВ и тексты законопроектов, внесённых в Госдуму Правительством, размещаются в открытом доступе на сайтах regulation.gov.ru и sozd.duma.gov.ru, соответственно. Как правило, они приводятся в виде отсканированного документа в формате pdf, реже – в форматах doc, rtf, zip. | * Тексты проектов НПА на ОРВ и тексты законопроектов, внесённых в Госдуму Правительством, размещаются в открытом доступе на сайтах regulation.gov.ru и sozd.duma.gov.ru, соответственно. Как правило, они приводятся в виде отсканированного документа в формате pdf, реже – в форматах doc, rtf, zip. | ||
* Для того, чтобы собрать тексты документов, был разработан скрипт, осуществляющий постраничный обход порталов, а затем документы были приведены в текстовый формат с использованием распознавания образов, реализованного в свободно распространяемой библиотеке <span style="background-color: rgb(229, 255, 251);">textract.</span> В процессе распознавания ввиду ошибок форматов были утеряны | * Для того, чтобы собрать тексты документов, был разработан скрипт, осуществляющий постраничный обход порталов, а затем документы были приведены в текстовый формат с использованием распознавания образов, реализованного в свободно распространяемой библиотеке <span style="background-color: rgb(229, 255, 251);">textract.</span>В процессе распознавания ввиду ошибок форматов и/или некорректного размещения на порталах были утеряны 212 текстов законопроектов и 67 текстов проектов на ОРВ. | ||
= Источники данных = | = Источники данных = |
Версия 07:42, 7 октября 2021
Характеристики нормотворческого процесса в России: текстовый корпус проектов НПА c regulation.gov.ru и sozd.duma.gov.ru
Скачать датасет можно в каталоге ИНИД по ссылке
История изменений
Дата | Версия | Автор | Описание изменений |
---|---|---|---|
07.10.2021 | 1.0 | Василевская Мария Михайловна Зорин Семён Юрьевич |
Документ создан |
Общая информация о датасете
Набор данных состоит из двух частей:
1. тексты проектов нормативно-правовых актов (НПА), размещенных на портале regulation.gov.ru[regulation.gov.ru] в рамках процедуры оценки регулирующего воздействия (ОРВ) с 2012 по 2021 г. (таблица regulation_texts.csv);
2. тексты законопроектов, внесенных на рассмотрение в Госдуму с 1994 по 2021 г. (таблица duma_texts.csv).
Единица наблюдения в датасете – текст НПА в его последней редакции и внутренний идентификатор проекта. Внутренние идентификаторы проектов являются общими с соответствующими идентификаторами в другом датасете ИНИД - «Нормотворческий процесс в России: результаты оценки регулирующего воздействия и метаданные проектов НПА c regulation.gov.ru и sozd.duma.gov.ru». (описание датасета на Wiki) На основе этих идентификаторов возможно связать мета-данные проектов НПА с их текстами в последней редакции.
Таблица regulation_texts.csv содержит 11 384 наблюдения; таблица duma_texts.csv – более 21 914 наблюдений.
Все таблицы доступны в формате CSV (кодировка: «UTF-8», разделитель: «;»).
Общее описание набора данных
Атрибут | Значение |
---|---|
Общие сведения | |
Полное наименование набора данных | Характеристики нормотворческого процесса в России: текстовый корпус проектов НПА с regulation.gov.ru и sozd.duma.gov.ru |
Сокращенное наименование набора данных | Характеристики нормотворческого процесса в России за 1994-2021 гг. – текстовый корпус |
Краткое описание набора данных | Набор данных состоит из двух частей:
1. тексты проектов нормативно-правовых актов (НПА), размещенных на портале regulation.gov.ru в рамках процедуры оценки регулирующего воздействия (ОРВ) с 2012 по 2021 г. (таблица regulation_texts.csv); 2. тексты законопроектов, внесенных на рассмотрение в Госдуму с 1994 по 2021 г. (таблица duma_texts.csv). Единица наблюдения в датасете – текст НПА в его последней редакции и внутренний идентификатор проекта. Внутренние идентификаторы проектов являются общими с соответствующими идентификаторами в другом датасете ИНИД - «Нормотворческий процесс в России: результаты оценки регулирующего воздействия и метаданные проектов НПА c regulation.gov.ru и sozd.duma.gov.ru». (описание датасета на Wiki) На основе этих идентификаторов возможно связать мета-данные проектов НПА с их текстами в последней редакции.Таблица regulation_texts.csv содержит 11 451 наблюдения; таблица duma_texts.csv – более 22 тыс. наблюдений. |
Краткое описание источника набора данных | С началом разработки нового проекта нормативно-правового акта (НПА) ведомство-разработчик обязано разместить тексты готовящихся проектов на портале Минэкономразвития regulation.gov.ru в открытом доступе. С внесением законопроекта на рассмотрение в Государственную Думу тексты проектов публикуются на сайте sozd.duma.gov.ru. |
Покрываемый временной период | Для проектов НПА на ОРВ: 2012-2021 гг. Для законопроектов, внесенных в Госдуму: 1994-2021 гг. |
Доступные форматы | CSV (кодировка: «UTF-8», разделитель: «;») |
Размер набора данных | 953 Мбайт |
Тематика набора данных | Право, Нормотворческий процесс |
Режим доступа | Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе и скачивать данные) |
Периодичность публикации и обновления | |
Дата размещения в каталоге | 07.10.2021 |
Периодичность обновления | Ежегодно |
Дата последнего обновления набора данных | 07.10.2021 |
Характер последнего обновления | -- |
Дата следующего обновления набора данных | 07.10.2022 |
Дополнительные сведения | |
Цитирование набора данных на русском языке | Характеристики нормотворческого процесса в России: текстовый корпус проектов с regulation.gov.ru и sozd.duma.gov.ru // Минэкономразвития России, Госдума России; обработка: Василевская М.М., Зорин С.Ю., Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: Лицензия CC BY-SA. Размещено: 28.09.2021. URL: https://data.rcsi.science/data-catalog/datasets/177 |
For references (English) | Rule-making process in Russia: text corpora of regulations drafts from regulation.gov.ru & sozd.duma.gov.ru // Ministry of Economic Development of Russian Federation, Federal State Duma; data processing: Vasilevskaia M., Zorin S., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 28.09.2021. URL: https://data.rcsi.science/data-catalog/datasets/177 |
Ссылка на открытый репозиторий | https://github.com/CAG-ru/cag-public/tree/master/projects/ria |
Геоданные (пространственная привязка набора данных) | нет |
Лицензия, под которой публикуется набор данных | СС BY-SA (Creative Commons) https://creativecommons.org/licenses/by-sa/4.0/ Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии — CC BY-SA |
Стандарт публикации | http://opendata.gosmonitor.ru/standard/3.0 |
Параметры запросов API | Интеграция через API не предусмотрена |
Структура набора данных (Codebook)
Датасет представлен в виде двух плоских таблиц в формате CSV (кодировка: «UTF-8», разделитель: «;»):
- Таблица «Тексты проектов НПА на ОРВ» (regulation_texts.csv): 11 тыс. наблюдения за 2012-2021 гг.
- Таблица «Тексты законопроектов, внесенных на рассмотрение в Госдуму» (duma_texts.csv): 22 тыс. наблюдений за 1994 - 2021 гг.
Тексты НПА на ОРВ (regulation_texts.csv)
Атрибут | Описание |
Пояснение |
Количество пропусков (NaN) (шт/%) |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
regulation_project_id | Идентификатор проекта на regulation.gov.ru | Соответствует идентификаторам проектов в таблицах regulation_projects.csv, regulaton_duma_matches.csv датасета «Нормотворческий процесс в России: результаты оценки регулирующего воздействия и метаданные проектов НПА c regulation.gov.ru и sozd.duma.gov.ru» | 0 | string | ||
text | Полный текст проекта НПА | 0 | string |
Тексты законопроектов, внесенных на рассмотрение в Госдуму (duma_texts.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) (шт/%) | Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
duma_project_id | Идентификатор проекта на regulation.gov.ru | Соответствует идентификаторам проектов в таблицах duma_projects.csv, regulaton_duma_matches.csv датасета «Нормотворческий процесс в России: результаты оценки регулирующего воздействия и метаданные проектов НПА c regulation.gov.ru и sozd.duma.gov.ru» | 0 | string | ||
text | Полный текст проекта | 0 | string |
Известные ограничения данных
Полнота данных
Набор содержит все тексты проектов, размещённых на regulation.gov.ru и sozd.duma.gov.ru. В случае regulation.gov.ru это касается всех тех проектов, которые достигли стадии «Размещение проекта акта».
Внесенные в набор данных изменения по сравнению с источниками
- Тексты проектов НПА на ОРВ и тексты законопроектов, внесённых в Госдуму Правительством, размещаются в открытом доступе на сайтах regulation.gov.ru и sozd.duma.gov.ru, соответственно. Как правило, они приводятся в виде отсканированного документа в формате pdf, реже – в форматах doc, rtf, zip.
- Для того, чтобы собрать тексты документов, был разработан скрипт, осуществляющий постраничный обход порталов, а затем документы были приведены в текстовый формат с использованием распознавания образов, реализованного в свободно распространяемой библиотеке textract.В процессе распознавания ввиду ошибок форматов и/или некорректного размещения на порталах были утеряны 212 текстов законопроектов и 67 текстов проектов на ОРВ.
Источники данных
Федеральный портал проектов нормативных правовых актов (regulation.gov.ru)
Атрибут | Значение |
---|---|
Полное наименование источника данных | Федеральный портал проектов нормативных правовых актов regulation.gov.ru |
Сокращенное наименование источника данных | regulation.gov.ru |
Владелец источника данных | Министерство экономического развития РФ |
Краткое описание источника данных | Интернет-портал, содержащий документацию и данные о нормативно-правовых актах |
Ссылка на источник данных | https://regulation.gov.ru/ |
Перечень используемых классификаторов | нет |
Понятия, используемые в источнике | Нормативный правовой акт (НПА) – это правовой акт, который содержит правовые нормы, общие установления, рассчитанные, как правило, на длительное применение и распространяющиеся на неопределенный круг лиц. Нормативный акт, являясь предписанием общего значения, распространяет свое действие не на одно конкретное отношение, а на тот или иной вид общественных отношений. Оценка регулирующего воздействия (ОРВ) – специальная процедура, сопровождающая разработку НПА, регулирующих экономические отношения, в рамках которой дается четкое определение проблемы, которую предполагается устранить регуляторными методами, рассматриваются альтернативные способы ее решения, оценивается экономическая целесообразность и обоснованность вводимых в законодательство изменений, и проводятся общественные обсуждения. В ряде случаев, результатом проведения ОРВ может стать отказ от введения нового регулирования или от изменения действующего, поскольку наиболее оптимальным способом может быть признано решение предоставить рыночных механизмам скомпенсировать проблему самостоятельно. |
Методология и изменения методологии для источника данных | Согласно п. 3 Правил раскрытия ФОИВами информации, утвержденных Постановлением Правительства РФ от 25 августа 2012 г. N 851, при разработке проектов нормативно-правовых актов федерального значения ведомства-разработчики обязаны размещать тексты НПА и ряд дополнительной информации по ним на Федеральном портале проектов нормативно-правовых актов, regulation.gov.ru. На текущий момент ОРВ проводится в отношении следующих видов НПА:
|
Ссылки на методологию | Необходимость публикации проектов НПА закреплена в п. 3 Правил раскрытия ФОИВами информации, утвержденных Постановлением Правительства РФ от 25 августа 2012 г. N 851 Спектр НПА, проекты которых должны проходить ОРВ, описан в п. 60.1 Регламента Правительства РФ и в ст. 1 от 31 июля 2020 г. N 247-ФЗ «Об обязательных требованиях»”. В этих же документах, а также в Постановлении Правительства от 17 декабря 2012 г. № 1318 «О порядке проведения федеральными органами исполнительной власти оценки регулирующего воздействия», предусмотрен список исключений. |
Система обеспечения законодательной деятельности ГАС «Законотворчество» (sozd.duma.gov.ru)
Атрибут | Значение |
---|---|
Полное наименование источника данных | Система обеспечения законодательной деятельности Государственной автоматизированной системы «Законотворчество» |
Сокращенное наименование источника данных | СОЗД ГАС «Законотворчество» |
Владелец источника данных | Государственная Дума Федерального Собрания Российской Федерации |
Краткое описание источника данных | Реестр электронных карт законопроектов, рассматриваемых Государственной Думой |
Ссылка на источник данных | https://sozd.duma.gov.ru/ |
Перечень используемых классификаторов | нет |
Понятия, используемые в источнике | |
Методология и изменения методологии для источника данных | Подготовленный к внесению в Государственную Думу законопроект и материалы к нему, предусмотренные статьей 105 настоящего Регламента, направляются субъектом (субъектами) права законодательной инициативы на имя Председателя Государственной Думы. Поступивший законопроект регистрируется в Управлении документационного обеспечения Аппарата Государственной Думы в Системе автоматизированного делопроизводства и документооборота Государственной Думы. Ему присваивается регистрационный номер, который указывается вместе с наименованием законопроекта в течение всего периода прохождения законопроекта в Государственной Думе. Одновременно в Системе обеспечения законодательной деятельности на законопроект заводится электронная регистрационная карта, в которой фиксируются дата и время поступления законопроекта в Государственную Думу, состав субъектов права законодательной инициативы, внесших законопроект в Государственную Думу, сведения о прохождении законопроекта в Государственной Думе, об одобрении Государственной Думой федерального конституционного закона или о принятии федерального закона и о рассмотрении соответствующего закона Советом Федерации и Президентом Российской Федерации |
Ссылки на методологию | П. 1 ст. 107 Регламента Государственный Думы |
Ответственные за набор данных
№ | ФИО ответственного лица | Электронная почта ответственного лица |
---|---|---|
1. | Зорин Семён Юрьевич | s.zorin@cpur.ru |
2. | Василевская Мария Михайловна | m.vasilevskaia@cpur.ru |