Характеристики нормотворческого процесса в России – текстовый корпус: различия между версиями
Editor (обсуждение | вклад) м (→Общая информация о датасете: исправлено количество наблюдений) |
Editor (обсуждение | вклад) (→Общее описание набора данных: ссылка на датасет заменена на правильную) |
||
(не показаны 3 промежуточные версии этого же участника) | |||
Строка 28: | Строка 28: | ||
= Общее описание набора данных = | = Общее описание набора данных = | ||
{| class="wikitable" | {| class="wikitable" | ||
|- style="background-color:#D2FEF0;" | |- style="background-color:#D2FEF0;" | ||
! Атрибут | ! Атрибут | ||
! Значение<br | ! Значение<br> | ||
|- style="text-align:center; background-color:#FFF;" | |- style="text-align:center; background-color:#FFF;" | ||
| style="font-family: TT Norms Medium" colspan="2" | Общие | | style="font-family: TT Norms Medium" colspan="2" | Общие сведения | ||
|- | |- | ||
| Полное наименование набора данных | | Полное наименование набора данных | ||
| Характеристики нормотворческого | | Характеристики нормотворческого процесса в России: текстовый корпус проектов НПА с regulation.gov.ru и sozd.duma.gov.ru | ||
|- | |- | ||
| Сокращенное наименование набора данных | | Сокращенное наименование набора данных | ||
| Характеристики нормотворческого | | Характеристики нормотворческого процесса в России за 1994-2021 гг. – текстовый корпус | ||
|- | |- | ||
| Краткое описание набора данных | | Краткое описание набора данных | ||
| Набор данных состоит из двух частей: | | Набор данных состоит из двух частей: | ||
<p>1. тексты проектов нормативно-правовых актов (НПА), размещенных на портале [https://regulation.gov.ru regulation.gov.ru] в рамках процедуры оценки регулирующего воздействия (ОРВ) с 2012 по 2021 г. (таблица <span style="background-color: rgb(229, 255, 251);">regulation_texts.csv</span>); </p> | <p>1. тексты проектов нормативно-правовых актов (НПА), размещенных на портале [https://regulation.gov.ru regulation.gov.ru] в рамках процедуры оценки регулирующего воздействия (ОРВ) с 2012 по 2021 г. (таблица <span style="background-color: rgb(229, 255, 251);">regulation_texts.csv</span>);</p> | ||
<p>2. тексты законопроектов, внесенных на рассмотрение в Госдуму с 1994 по 2021 г. (таблица <span style="background-color: rgb(229, 255, 251);">duma_texts.csv</span>).</p> | <p>2. тексты законопроектов, внесенных на рассмотрение в Госдуму с 1994 по 2021 г. (таблица <span style="background-color: rgb(229, 255, 251);">duma_texts.csv</span>).</p>Единица наблюдения в датасете – текст НПА в его последней редакции и внутренний идентификатор проекта. Внутренние идентификаторы проектов являются общими с соответствующими идентификаторами в другом [https://data.rcsi.science/data-catalog/datasets/177/ датасете ИНИД] - «Нормотворческий процесс в России: результаты оценки регулирующего воздействия и метаданные проектов НПА c regulation.gov.ru и sozd.duma.gov.ru». [https://wiki-data.rcsi.science/index.php/%D0%A5%D0%B0%D1%80%D0%B0%D0%BA%D1%82%D0%B5%D1%80%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B8_%D0%BD%D0%BE%D1%80%D0%BC%D0%BE%D1%82%D0%B2%D0%BE%D1%80%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%B0_%D0%B2_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8 (описание датасета на Wiki)] На основе этих идентификаторов возможно связать мета-данные проектов НПА с их текстами в последней редакции. | ||
Таблица <span style="background-color: rgb(229, 255, 251);">regulation_texts.csv</span> содержит 11 451 наблюдения; таблица <span style="background-color: rgb(229, 255, 251);">duma_texts.csv</span> – более 22 тыс. наблюдений. | |||
|- | |||
Таблица <span style="background-color: rgb(229, 255, 251);">regulation_texts.csv</span> содержит | |||
|- | |||
| Краткое описание источника набора данных | | Краткое описание источника набора данных | ||
| С началом разработки нового проекта нормативно-правового акта (НПА) ведомство-разработчик | | С началом разработки нового проекта нормативно-правового акта (НПА) ведомство-разработчик обязано разместить тексты готовящихся проектов на портале Минэкономразвития regulation.gov.ru в открытом доступе.<br>С внесением законопроекта на рассмотрение в Государственную Думу тексты проектов публикуются на сайте sozd.duma.gov.ru. | ||
|- | |- | ||
| Покрываемый временной | | Покрываемый временной период | ||
| Для проектов НПА на ОРВ: 2012-2021 гг.<br | | Для проектов НПА на ОРВ: 2012-2021 гг.<br>Для законопроектов, внесенных в Госдуму: 1994-2021 гг. | ||
|- | |- | ||
| Доступные форматы | | Доступные форматы | ||
| CSV | | CSV (кодировка: «UTF-8», разделитель: «;») | ||
|- | |- | ||
| Размер набора данных | | Размер набора данных | ||
| | | 953 Мбайт | ||
|- | |- | ||
| Тематика набора данных | | Тематика набора данных | ||
| Право, Нормотворческий процесс | | Право, Нормотворческий процесс | ||
|- | |- | ||
| Режим доступа | | Режим доступа | ||
| Открытый (у Вас есть возможность | | Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе и скачивать данные) | ||
|- | |- | ||
| style="font-family: TT Norms Medium; text-align:center" colspan="2" | Периодичность публикации и обновления | | style="font-family: TT Norms Medium; text-align:center" colspan="2" | Периодичность публикации и обновления | ||
|- | |- | ||
| Дата размещения в каталоге | | Дата размещения в каталоге | ||
| 07.10.2021 | | 07.10.2021 | ||
|- | |- | ||
| Периодичность обновления | | Периодичность обновления | ||
| Ежегодно | | Ежегодно | ||
|- | |- | ||
| Дата последнего обновления набора данных | | Дата последнего обновления набора данных | ||
| 07.10.2021 | | 07.10.2021 | ||
|- | |- | ||
| Характер последнего | | Характер последнего обновления | ||
| -- | | -- | ||
|- | |- | ||
| Дата следующего обновления набора данных | | Дата следующего обновления набора данных | ||
| 07.10.2022 | | 07.10.2022 | ||
|- | |- | ||
| style="font-family: TT Norms Medium; text-align: center" colspan="2" | Дополнительные сведения | | style="font-family: TT Norms Medium; text-align: center" colspan="2" | Дополнительные сведения | ||
|- | |- | ||
| Цитирование набора данных на русском языке | | Цитирование набора данных на русском языке | ||
| Характеристики нормотворческого | | Характеристики нормотворческого процесса в России: текстовый корпус проектов с regulation.gov.ru и sozd.duma.gov.ru // Минэкономразвития России, Госдума России; обработка: Василевская М.М., Зорин С.Ю., Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: Лицензия CC BY-SA. Размещено: 28.09.2021. URL: https://data.rcsi.science/data-catalog/datasets/178 | ||
|- | |- | ||
| For references (English) | | For references (English) | ||
| Rule-making process in Russia: text corpora | | Rule-making process in Russia: text corpora of regulations drafts from regulation.gov.ru & sozd.duma.gov.ru // Ministry of Economic Development of Russian Federation, Federal State Duma; data processing: Vasilevskaia M., Zorin S., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 28.09.2021. URL: https://data.rcsi.science/data-catalog/datasets/178 | ||
|- | |- | ||
| Ссылка на открытый репозиторий | | Ссылка на открытый репозиторий | ||
| https://github.com/CAG-ru/cag-public/tree/master/projects/ria | | https://github.com/CAG-ru/cag-public/tree/master/projects/ria | ||
|- | |- | ||
| Геоданные (пространственная привязка набора данных) | | Геоданные (пространственная привязка набора данных) | ||
| нет | | нет | ||
|- | |- | ||
| Лицензия, под которой публикуется набор данных | | Лицензия, под которой публикуется набор данных | ||
| СС BY-SA (Creative Commons)<br | | СС BY-SA (Creative Commons)<br>https://creativecommons.org/licenses/by-sa/4.0/ <br>Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии — CC BY-SA | ||
|- | |- | ||
| Стандарт публикации | | Стандарт публикации | ||
| http://opendata.gosmonitor.ru/standard/3.0 | | http://opendata.gosmonitor.ru/standard/3.0 | ||
|- | |- | ||
| Параметры запросов API | | Параметры запросов API | ||
| Интеграция через API не предусмотрена | | Интеграция через API не предусмотрена | ||
Строка 174: | Строка 172: | ||
Набор содержит все тексты проектов, размещённых на regulation.gov.ru и sozd.duma.gov.ru. В случае regulation.gov.ru это касается всех тех проектов, которые достигли стадии «Размещение проекта акта». | Набор содержит все тексты проектов, размещённых на regulation.gov.ru и sozd.duma.gov.ru. В случае regulation.gov.ru это касается всех тех проектов, которые достигли стадии «Размещение проекта акта». | ||
= Внесенные в набор данных изменения по сравнению с источниками = | = Внесенные в набор данных изменения по сравнению с источниками = | ||
* Тексты проектов НПА на ОРВ и тексты законопроектов, внесённых в Госдуму Правительством, размещаются в открытом доступе на сайтах regulation.gov.ru и sozd.duma.gov.ru, соответственно. Как правило, они приводятся в виде отсканированного документа в формате pdf, реже – в форматах doc, rtf, zip. | * Тексты проектов НПА на ОРВ и тексты законопроектов, внесённых в Госдуму Правительством, размещаются в открытом доступе на сайтах regulation.gov.ru и sozd.duma.gov.ru, соответственно. Как правило, они приводятся в виде отсканированного документа в формате pdf, реже – в форматах doc, rtf, zip. | ||
* Для того, чтобы собрать тексты документов, был разработан скрипт, осуществляющий постраничный обход порталов, а затем документы были приведены в текстовый формат с использованием распознавания образов, реализованного в свободно распространяемой библиотеке <span style="background-color: rgb(229, 255, 251);">textract.</span> В процессе распознавания ввиду ошибок форматов были утеряны | * Для того, чтобы собрать тексты документов, был разработан скрипт, осуществляющий постраничный обход порталов, а затем документы были приведены в текстовый формат с использованием распознавания образов, реализованного в свободно распространяемой библиотеке <span style="background-color: rgb(229, 255, 251);">textract.</span>В процессе распознавания ввиду ошибок форматов и/или некорректного размещения на порталах были утеряны 212 текстов законопроектов и 67 текстов проектов на ОРВ. | ||
= Источники данных = | = Источники данных = | ||
Строка 268: | Строка 266: | ||
| style="text-decoration:underline; color:#15C;" | [mailto:m.vasilevskaia@cpur.ru m.vasilevskaia@cpur.ru] | | style="text-decoration:underline; color:#15C;" | [mailto:m.vasilevskaia@cpur.ru m.vasilevskaia@cpur.ru] | ||
|} | |} | ||
[[Category: Описания датасетов]] |
Текущая версия на 08:52, 25 ноября 2021
Характеристики нормотворческого процесса в России: текстовый корпус проектов НПА c regulation.gov.ru и sozd.duma.gov.ru
Скачать датасет можно в каталоге ИНИД по ссылке
История изменений
Дата | Версия | Автор | Описание изменений |
---|---|---|---|
07.10.2021 | 1.0 | Василевская Мария Михайловна Зорин Семён Юрьевич |
Документ создан |
Общая информация о датасете
Набор данных состоит из двух частей:
1. тексты проектов нормативно-правовых актов (НПА), размещенных на портале regulation.gov.ru[regulation.gov.ru] в рамках процедуры оценки регулирующего воздействия (ОРВ) с 2012 по 2021 г. (таблица regulation_texts.csv);
2. тексты законопроектов, внесенных на рассмотрение в Госдуму с 1994 по 2021 г. (таблица duma_texts.csv).
Единица наблюдения в датасете – текст НПА в его последней редакции и внутренний идентификатор проекта. Внутренние идентификаторы проектов являются общими с соответствующими идентификаторами в другом датасете ИНИД - «Нормотворческий процесс в России: результаты оценки регулирующего воздействия и метаданные проектов НПА c regulation.gov.ru и sozd.duma.gov.ru». (описание датасета на Wiki) На основе этих идентификаторов возможно связать мета-данные проектов НПА с их текстами в последней редакции.
Таблица regulation_texts.csv содержит 11 384 наблюдения; таблица duma_texts.csv – более 21 914 наблюдений.
Все таблицы доступны в формате CSV (кодировка: «UTF-8», разделитель: «;»).
Общее описание набора данных
Атрибут | Значение |
---|---|
Общие сведения | |
Полное наименование набора данных | Характеристики нормотворческого процесса в России: текстовый корпус проектов НПА с regulation.gov.ru и sozd.duma.gov.ru |
Сокращенное наименование набора данных | Характеристики нормотворческого процесса в России за 1994-2021 гг. – текстовый корпус |
Краткое описание набора данных | Набор данных состоит из двух частей:
1. тексты проектов нормативно-правовых актов (НПА), размещенных на портале regulation.gov.ru в рамках процедуры оценки регулирующего воздействия (ОРВ) с 2012 по 2021 г. (таблица regulation_texts.csv); 2. тексты законопроектов, внесенных на рассмотрение в Госдуму с 1994 по 2021 г. (таблица duma_texts.csv). Единица наблюдения в датасете – текст НПА в его последней редакции и внутренний идентификатор проекта. Внутренние идентификаторы проектов являются общими с соответствующими идентификаторами в другом датасете ИНИД - «Нормотворческий процесс в России: результаты оценки регулирующего воздействия и метаданные проектов НПА c regulation.gov.ru и sozd.duma.gov.ru». (описание датасета на Wiki) На основе этих идентификаторов возможно связать мета-данные проектов НПА с их текстами в последней редакции.Таблица regulation_texts.csv содержит 11 451 наблюдения; таблица duma_texts.csv – более 22 тыс. наблюдений. |
Краткое описание источника набора данных | С началом разработки нового проекта нормативно-правового акта (НПА) ведомство-разработчик обязано разместить тексты готовящихся проектов на портале Минэкономразвития regulation.gov.ru в открытом доступе. С внесением законопроекта на рассмотрение в Государственную Думу тексты проектов публикуются на сайте sozd.duma.gov.ru. |
Покрываемый временной период | Для проектов НПА на ОРВ: 2012-2021 гг. Для законопроектов, внесенных в Госдуму: 1994-2021 гг. |
Доступные форматы | CSV (кодировка: «UTF-8», разделитель: «;») |
Размер набора данных | 953 Мбайт |
Тематика набора данных | Право, Нормотворческий процесс |
Режим доступа | Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе и скачивать данные) |
Периодичность публикации и обновления | |
Дата размещения в каталоге | 07.10.2021 |
Периодичность обновления | Ежегодно |
Дата последнего обновления набора данных | 07.10.2021 |
Характер последнего обновления | -- |
Дата следующего обновления набора данных | 07.10.2022 |
Дополнительные сведения | |
Цитирование набора данных на русском языке | Характеристики нормотворческого процесса в России: текстовый корпус проектов с regulation.gov.ru и sozd.duma.gov.ru // Минэкономразвития России, Госдума России; обработка: Василевская М.М., Зорин С.Ю., Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: Лицензия CC BY-SA. Размещено: 28.09.2021. URL: https://data.rcsi.science/data-catalog/datasets/178 |
For references (English) | Rule-making process in Russia: text corpora of regulations drafts from regulation.gov.ru & sozd.duma.gov.ru // Ministry of Economic Development of Russian Federation, Federal State Duma; data processing: Vasilevskaia M., Zorin S., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 28.09.2021. URL: https://data.rcsi.science/data-catalog/datasets/178 |
Ссылка на открытый репозиторий | https://github.com/CAG-ru/cag-public/tree/master/projects/ria |
Геоданные (пространственная привязка набора данных) | нет |
Лицензия, под которой публикуется набор данных | СС BY-SA (Creative Commons) https://creativecommons.org/licenses/by-sa/4.0/ Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии — CC BY-SA |
Стандарт публикации | http://opendata.gosmonitor.ru/standard/3.0 |
Параметры запросов API | Интеграция через API не предусмотрена |
Структура набора данных (Codebook)
Датасет представлен в виде двух плоских таблиц в формате CSV (кодировка: «UTF-8», разделитель: «;»):
- Таблица «Тексты проектов НПА на ОРВ» (regulation_texts.csv): 11 тыс. наблюдения за 2012-2021 гг.
- Таблица «Тексты законопроектов, внесенных на рассмотрение в Госдуму» (duma_texts.csv): 22 тыс. наблюдений за 1994 - 2021 гг.
Тексты НПА на ОРВ (regulation_texts.csv)
Атрибут | Описание |
Пояснение |
Количество пропусков (NaN) (шт/%) |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
regulation_project_id | Идентификатор проекта на regulation.gov.ru | Соответствует идентификаторам проектов в таблицах regulation_projects.csv, regulaton_duma_matches.csv датасета «Нормотворческий процесс в России: результаты оценки регулирующего воздействия и метаданные проектов НПА c regulation.gov.ru и sozd.duma.gov.ru» | 0 | string | ||
text | Полный текст проекта НПА | 0 | string |
Тексты законопроектов, внесенных на рассмотрение в Госдуму (duma_texts.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) (шт/%) | Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
duma_project_id | Идентификатор проекта на regulation.gov.ru | Соответствует идентификаторам проектов в таблицах duma_projects.csv, regulaton_duma_matches.csv датасета «Нормотворческий процесс в России: результаты оценки регулирующего воздействия и метаданные проектов НПА c regulation.gov.ru и sozd.duma.gov.ru» | 0 | string | ||
text | Полный текст проекта | 0 | string |
Известные ограничения данных
Полнота данных
Набор содержит все тексты проектов, размещённых на regulation.gov.ru и sozd.duma.gov.ru. В случае regulation.gov.ru это касается всех тех проектов, которые достигли стадии «Размещение проекта акта».
Внесенные в набор данных изменения по сравнению с источниками
- Тексты проектов НПА на ОРВ и тексты законопроектов, внесённых в Госдуму Правительством, размещаются в открытом доступе на сайтах regulation.gov.ru и sozd.duma.gov.ru, соответственно. Как правило, они приводятся в виде отсканированного документа в формате pdf, реже – в форматах doc, rtf, zip.
- Для того, чтобы собрать тексты документов, был разработан скрипт, осуществляющий постраничный обход порталов, а затем документы были приведены в текстовый формат с использованием распознавания образов, реализованного в свободно распространяемой библиотеке textract.В процессе распознавания ввиду ошибок форматов и/или некорректного размещения на порталах были утеряны 212 текстов законопроектов и 67 текстов проектов на ОРВ.
Источники данных
Федеральный портал проектов нормативных правовых актов (regulation.gov.ru)
Атрибут | Значение |
---|---|
Полное наименование источника данных | Федеральный портал проектов нормативных правовых актов regulation.gov.ru |
Сокращенное наименование источника данных | regulation.gov.ru |
Владелец источника данных | Министерство экономического развития РФ |
Краткое описание источника данных | Интернет-портал, содержащий документацию и данные о нормативно-правовых актах |
Ссылка на источник данных | https://regulation.gov.ru/ |
Перечень используемых классификаторов | нет |
Понятия, используемые в источнике | Нормативный правовой акт (НПА) – это правовой акт, который содержит правовые нормы, общие установления, рассчитанные, как правило, на длительное применение и распространяющиеся на неопределенный круг лиц. Нормативный акт, являясь предписанием общего значения, распространяет свое действие не на одно конкретное отношение, а на тот или иной вид общественных отношений. Оценка регулирующего воздействия (ОРВ) – специальная процедура, сопровождающая разработку НПА, регулирующих экономические отношения, в рамках которой дается четкое определение проблемы, которую предполагается устранить регуляторными методами, рассматриваются альтернативные способы ее решения, оценивается экономическая целесообразность и обоснованность вводимых в законодательство изменений, и проводятся общественные обсуждения. В ряде случаев, результатом проведения ОРВ может стать отказ от введения нового регулирования или от изменения действующего, поскольку наиболее оптимальным способом может быть признано решение предоставить рыночных механизмам скомпенсировать проблему самостоятельно. |
Методология и изменения методологии для источника данных | Согласно п. 3 Правил раскрытия ФОИВами информации, утвержденных Постановлением Правительства РФ от 25 августа 2012 г. N 851, при разработке проектов нормативно-правовых актов федерального значения ведомства-разработчики обязаны размещать тексты НПА и ряд дополнительной информации по ним на Федеральном портале проектов нормативно-правовых актов, regulation.gov.ru. На текущий момент ОРВ проводится в отношении следующих видов НПА:
|
Ссылки на методологию | Необходимость публикации проектов НПА закреплена в п. 3 Правил раскрытия ФОИВами информации, утвержденных Постановлением Правительства РФ от 25 августа 2012 г. N 851 Спектр НПА, проекты которых должны проходить ОРВ, описан в п. 60.1 Регламента Правительства РФ и в ст. 1 от 31 июля 2020 г. N 247-ФЗ «Об обязательных требованиях»”. В этих же документах, а также в Постановлении Правительства от 17 декабря 2012 г. № 1318 «О порядке проведения федеральными органами исполнительной власти оценки регулирующего воздействия», предусмотрен список исключений. |
Система обеспечения законодательной деятельности ГАС «Законотворчество» (sozd.duma.gov.ru)
Атрибут | Значение |
---|---|
Полное наименование источника данных | Система обеспечения законодательной деятельности Государственной автоматизированной системы «Законотворчество» |
Сокращенное наименование источника данных | СОЗД ГАС «Законотворчество» |
Владелец источника данных | Государственная Дума Федерального Собрания Российской Федерации |
Краткое описание источника данных | Реестр электронных карт законопроектов, рассматриваемых Государственной Думой |
Ссылка на источник данных | https://sozd.duma.gov.ru/ |
Перечень используемых классификаторов | нет |
Понятия, используемые в источнике | |
Методология и изменения методологии для источника данных | Подготовленный к внесению в Государственную Думу законопроект и материалы к нему, предусмотренные статьей 105 настоящего Регламента, направляются субъектом (субъектами) права законодательной инициативы на имя Председателя Государственной Думы. Поступивший законопроект регистрируется в Управлении документационного обеспечения Аппарата Государственной Думы в Системе автоматизированного делопроизводства и документооборота Государственной Думы. Ему присваивается регистрационный номер, который указывается вместе с наименованием законопроекта в течение всего периода прохождения законопроекта в Государственной Думе. Одновременно в Системе обеспечения законодательной деятельности на законопроект заводится электронная регистрационная карта, в которой фиксируются дата и время поступления законопроекта в Государственную Думу, состав субъектов права законодательной инициативы, внесших законопроект в Государственную Думу, сведения о прохождении законопроекта в Государственной Думе, об одобрении Государственной Думой федерального конституционного закона или о принятии федерального закона и о рассмотрении соответствующего закона Советом Федерации и Президентом Российской Федерации |
Ссылки на методологию | П. 1 ст. 107 Регламента Государственный Думы |
Ответственные за набор данных
№ | ФИО ответственного лица | Электронная почта ответственного лица |
---|---|---|
1. | Зорин Семён Юрьевич | s.zorin@cpur.ru |
2. | Василевская Мария Михайловна | m.vasilevskaia@cpur.ru |