Адресный классификатор: ФИАС + Почта России: различия между версиями

Материал из Data-in
(→‎Известные ограничения данных: заполнен текст (сыр.))
(→‎Известные ограничения данных: добавлены диаграммы (чист.))
Строка 193: Строка 193:
== Известные ограничения данных ==
== Известные ограничения данных ==
==== Полнота данных ====
==== Полнота данных ====
Представлен наиболее полный набор актуальных адресных элементов ФИАС на 28 августа 2021 г. и адресов Почты России. Пропуски в атрибутах связаны с разреженным характером почтового адреса. В качестве базы данных для сравнения были выбраны наборы [https://www.openstreetmap.org/ OpenStreetMap], поддерживаемые открытым сообществом картографов и содержащие до 97% адресных объектов по большинству крупных городов России.
<p>Представлен наиболее полный набор актуальных адресных элементов ФИАС на 28 августа 2021 г. и адресов Почты России. Пропуски в атрибутах связаны с разреженным характером почтового адреса. В качестве базы данных для сравнения были выбраны наборы [https://www.openstreetmap.org/ OpenStreetMap], поддерживаемые открытым сообществом картографов и содержащие до 97% адресных объектов по большинству крупных городов России.</p>
 
<html>
<iframe title="Доля объектов от общего числа в территориальном разрезе" aria-label="Grouped Column Chart" id="datawrapper-chart-YSBiv" src="https://datawrapper.dwcdn.net/YSBiv/1/" scrolling="no" frameborder="0" style="width: 0; min-width: 100% !important; border: none;" height="450"></iframe><script type="text/javascript">!function(){"use strict";window.addEventListener("message",(function(e){if(void 0!==e.data["datawrapper-height"]){var t=document.querySelectorAll("iframe");for(var a in e.data["datawrapper-height"])for(var r=0;r<t.length;r++){if(t[r].contentWindow===e.source)t[r].style.height=e.data["datawrapper-height"][a]+"px"}}}))}();
</script>
</html>


<html>
<iframe title="Количество объектов в территориальном разрезе (логарифмическая шкала)" aria-label="Grouped Column Chart" id="datawrapper-chart-p3OlZ" src="https://datawrapper.dwcdn.net/p3OlZ/1/" scrolling="no" frameborder="0" style="width: 0; min-width: 100% !important; border: none;" height="450"></iframe><script type="text/javascript">!function(){"use strict";window.addEventListener("message",(function(e){if(void 0!==e.data["datawrapper-height"]){var t=document.querySelectorAll("iframe");for(var a in e.data["datawrapper-height"])for(var r=0;r<t.length;r++){if(t[r].contentWindow===e.source)t[r].style.height=e.data["datawrapper-height"][a]+"px"}}}))}();
</script>
</html>
==== Описание проведенных проверок и их результатов ====
==== Описание проведенных проверок и их результатов ====
* Тест корректности размещения адресных элементов по атрибутам для стратифицированного тест-сета, собранного по ФИАС и Почте России (n=963). Общая точность с глубиной до 6 уровней (region, municipality, settlement, location, street, house) — 0.973; до 5 уровней (region, municipality, settlement, location, street) — 0.994.
* Тест корректности размещения адресных элементов по атрибутам для стратифицированного тест-сета, собранного по ФИАС и Почте России (n=963). Общая точность с глубиной до 6 уровней (region, municipality, settlement, location, street, house) — 0.973; до 5 уровней (region, municipality, settlement, location, street) — 0.994.

Версия 10:05, 13 октября 2021

Общая информация о датасете

Набор содержит объединённые из двух источников (ФИАС и Почта России) географические данные РФ с детализацией до дома.

Цель датасета — создание единого максимально полного классификатора (эталона) географических данных, с помощью которого можно было бы осуществлять поиск и привязку географических объектов к официальным стандартизированным геоданным. Для осуществления этой привязки можно использовать библиотеку, доступную в публичном репозитории на Github

Единица наблюдения в датасете — адрес объекта недвижимости. Данные для каждого наблюдения приведены по следующим атрибутам: федеральный округ, субъект РФ, муниципальное образование, населенный пункт, локация, улица, дом.

Набор данных охватывает все регионы Российской Федерации. Всего набор содержит 26 072 081 наблюдений по 11 атрибутам.

Набор доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»)

История изменений

Дата Версия Автор Описание изменений
14.10.2021 1.0 Валько Данила Валерьевич
Глонин Константин Вячеславович
Давыдов Николай Юрьевич
Документ создан

Общее описание набора данных

Атрибут Значение
Общие сведения
Полное наименование набора данных Адресный классификатор: объединённые географические данные ФИАС и Почты России с точностью до дома
Сокращенное наименование набора данных Адресный классификатор: ФИАС + Почта России
Краткое описание набора данных Эталонный датасет, позволяющий осуществить поиск и привязку географических объектов к официальным стандартизированным геоданным. Для осуществления привязки воспользуйтесь библиотекой по ссылке https://github.com/CAG-ru/geonorm
Краткое описание источника набора данных 1) Федеральная информационная адресная система - хранит и обновляет (до 31.08.2021 г.) данные об адресных объектах, расположенных на территории РФ: субъектах РФ, районах, населенных пунктах, улицах, домах и др.
2) Адресный справочник Почты России
Покрываемый временной период Актуален на 14.10.2021
Доступные форматы CSV (кодировка: «UTF-8», разделитель: «;»)
Размер набора данных 3,2 ГБ
Тематика набора данных Геоданные, Эталоны
Режим доступа Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе и скачивать данные)
Периодичность публикации и обновления
Дата размещения в каталоге 14.10.2021
Периодичность обновления в каталоге Ежеквартально
Дата последнего обновления набора данных в каталоге отсутствует
Характер последнего обновления
Дата следующего обновления набора данных 14.01.2022
Дополнительные сведения
Цитирование набора данных на русском языке Адресный классификатор: объединённые географические данные ФИАС и Почты России с детализацией до дома // ФИАС, ФНС России; Почта России; обработка: Валько Д.В., Глонин К.В., Давыдов Н.Ю., Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: Лицензия CC BY-SA. Размещено: 14.10.2021. URL: http://data.rcsi.science/data-catalog/datasets/179
For references (English) Address classifier: geodata of FIAS and Russian Post with detailing to the building // Federal Tax Service of Russia, Russian Post; data-processing: Valko D., Glonin K., Davydov N., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 14.10.2021. URL: http://data.rcsi.science/data-catalog/datasets/179
Ссылка на открытый репозиторий отсутствует
Геоданные (пространственная привязка набора данных) Есть привязка по адресам
Лицензия, под которой публикуется набор данных СС BY-SA (Creative Commons)
https://creativecommons.org/licenses/by-sa/4.0/
Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии —
CC BY-SA
Стандарт публикации http://opendata.gosmonitor.ru/standard/3.0
Параметры запросов API Интеграция через API не предусмотрена

Структура набора данных (Codebook)

Датасет представлен в виде плоской таблицы, содержащей 11 атрибутов, 26 072 081 наблюдений.
Формат данных: CSV (кодировка: «UTF-8», разделитель: «;»)

Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
region Уровень федерального округа 0,0% string
municipality Уровень муниципального округа 41,8% string
municipality_type Тип уровня муниципального округа 41,8% string
settlement Уровень населенного пункта 4,5% string
settlement_type Тип уровня населенного пункта 4,5% string
location Уровень локации 77,2% string
location_type Тип уровня локации 77,2% string
street Уровень улицы 17,1% string
street_type Тип уровня улицы 17,1% string
house Уровень дома 0,0% string
source Код источника данных об адресе
1 - ФИАС
2 - Почта России
0,0% int

Известные ограничения данных

Полнота данных

Представлен наиболее полный набор актуальных адресных элементов ФИАС на 28 августа 2021 г. и адресов Почты России. Пропуски в атрибутах связаны с разреженным характером почтового адреса. В качестве базы данных для сравнения были выбраны наборы OpenStreetMap, поддерживаемые открытым сообществом картографов и содержащие до 97% адресных объектов по большинству крупных городов России.

Описание проведенных проверок и их результатов

  • Тест корректности размещения адресных элементов по атрибутам для стратифицированного тест-сета, собранного по ФИАС и Почте России (n=963). Общая точность с глубиной до 6 уровней (region, municipality, settlement, location, street, house) — 0.973; до 5 уровней (region, municipality, settlement, location, street) — 0.994.
  • Есть незначительное число ошибок унаследованных от первоисточника ФИАС (см. подробнее по ссылке)

Внесенные в набор данных изменения по сравнению с источниками

Источники данных

Ответственные за набор данных