Адресный классификатор: ФИАС + Почта России: различия между версиями

Материал из Data-in
(→‎Известные ограничения данных: добавлены отступы (чист.))
(нет различий)

Версия 10:36, 13 октября 2021

Общая информация о датасете

Набор содержит объединённые из двух источников (ФИАС и Почта России) географические данные РФ с детализацией до дома.

Цель датасета — создание единого максимально полного классификатора (эталона) географических данных, с помощью которого можно было бы осуществлять поиск и привязку географических объектов к официальным стандартизированным геоданным. Для осуществления этой привязки можно использовать библиотеку, доступную в публичном репозитории на Github

Единица наблюдения в датасете — адрес объекта недвижимости. Данные для каждого наблюдения приведены по следующим атрибутам: федеральный округ, субъект РФ, муниципальное образование, населенный пункт, локация, улица, дом.

Набор данных охватывает все регионы Российской Федерации. Всего набор содержит 26 072 081 наблюдений по 11 атрибутам.

Набор доступен для работы в формате CSV (кодировка: «UTF-8», разделитель: «;»)

История изменений

Дата Версия Автор Описание изменений
14.10.2021 1.0 Валько Данила Валерьевич
Глонин Константин Вячеславович
Давыдов Николай Юрьевич
Документ создан

Общее описание набора данных

Атрибут Значение
Общие сведения
Полное наименование набора данных Адресный классификатор: объединённые географические данные ФИАС и Почты России с точностью до дома
Сокращенное наименование набора данных Адресный классификатор: ФИАС + Почта России
Краткое описание набора данных Эталонный датасет, позволяющий осуществить поиск и привязку географических объектов к официальным стандартизированным геоданным. Для осуществления привязки воспользуйтесь библиотекой по ссылке https://github.com/CAG-ru/geonorm
Краткое описание источника набора данных 1) Федеральная информационная адресная система - хранит и обновляет (до 31.08.2021 г.) данные об адресных объектах, расположенных на территории РФ: субъектах РФ, районах, населенных пунктах, улицах, домах и др.
2) Адресный справочник Почты России
Покрываемый временной период Актуален на 14.10.2021
Доступные форматы CSV (кодировка: «UTF-8», разделитель: «;»)
Размер набора данных 3,2 ГБ
Тематика набора данных Геоданные, Эталоны
Режим доступа Открытый (у Вас есть возможность работать с данными на своем личном ПК, в том числе и скачивать данные)
Периодичность публикации и обновления
Дата размещения в каталоге 14.10.2021
Периодичность обновления в каталоге Ежеквартально
Дата последнего обновления набора данных в каталоге отсутствует
Характер последнего обновления
Дата следующего обновления набора данных 14.01.2022
Дополнительные сведения
Цитирование набора данных на русском языке Адресный классификатор: объединённые географические данные ФИАС и Почты России с детализацией до дома // ФИАС, ФНС России; Почта России; обработка: Валько Д.В., Глонин К.В., Давыдов Н.Ю., Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: Лицензия CC BY-SA. Размещено: 14.10.2021. URL: http://data.rcsi.science/data-catalog/datasets/179
For references (English) Address classifier: geodata of FIAS and Russian Post with detailing to the building // Federal Tax Service of Russia, Russian Post; data-processing: Valko D., Glonin K., Davydov N., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 14.10.2021. URL: http://data.rcsi.science/data-catalog/datasets/179
Ссылка на открытый репозиторий отсутствует
Геоданные (пространственная привязка набора данных) Есть привязка по адресам
Лицензия, под которой публикуется набор данных СС BY-SA (Creative Commons)
https://creativecommons.org/licenses/by-sa/4.0/
Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии —
CC BY-SA
Стандарт публикации http://opendata.gosmonitor.ru/standard/3.0
Параметры запросов API Интеграция через API не предусмотрена

Структура набора данных (Codebook)

Датасет представлен в виде плоской таблицы, содержащей 11 атрибутов, 26 072 081 наблюдений.
Формат данных: CSV (кодировка: «UTF-8», разделитель: «;»)

Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
region Уровень федерального округа 0,0% string
municipality Уровень муниципального округа 41,8% string
municipality_type Тип уровня муниципального округа 41,8% string
settlement Уровень населенного пункта 4,5% string
settlement_type Тип уровня населенного пункта 4,5% string
location Уровень локации 77,2% string
location_type Тип уровня локации 77,2% string
street Уровень улицы 17,1% string
street_type Тип уровня улицы 17,1% string
house Уровень дома 0,0% string
source Код источника данных об адресе
1 - ФИАС
2 - Почта России
0,0% int

Известные ограничения данных

Полнота данных

Представлен наиболее полный набор актуальных адресных элементов ФИАС на 28 августа 2021 г. и адресов Почты России. Пропуски в атрибутах связаны с разреженным характером почтового адреса. В качестве базы данных для сравнения были выбраны наборы OpenStreetMap, поддерживаемые открытым сообществом картографов и содержащие до 97% адресных объектов по большинству крупных городов России.


Описание проведенных проверок и их результатов

  • Тест корректности размещения адресных элементов по атрибутам для стратифицированного тест-сета, собранного по ФИАС и Почте России (n=963). Общая точность с глубиной до 6 уровней (region, municipality, settlement, location, street, house) — 0.973; до 5 уровней (region, municipality, settlement, location, street) — 0.994.
  • Есть незначительное число ошибок унаследованных от первоисточника ФИАС (см. подробнее по ссылке)

Внесенные в набор данных изменения по сравнению с источниками

  • ФИАС предусматривает 10 адресных уровней, их свертка в компактную структуру датасета производилась по схеме:
    • 1 – регион → region
    • 3 – район → municipality
    • 35 – уровень городских и сельских поселений (фактически не задействован)
    • 4 – город → settlement
    • 6 – населенный пункт → settlement
    • 65 – планировочная структура и др. территории (ГСК, СНТ, лагери отдыха и т.п.) -> location
    • 7 – улицы → street
    • 75, 8, 9 (не задействованы)

Для каждого уровня создается колонка с типом адресного элемента *_type (например, settlement_type = деревня, поселок, …).

Объекты на уровнях 3 (за исключением районов), 4, 6 раскладываются начиная с размещения поселения нижнего уровня в settlement и затем вверх по иерархии (например, поселения в г. Москва и городские округа указанные, как города размещаются в municipality, если в settlement уже указана деревня или посёлок).

Адреса Почты России извлечены html-парсером и перенесены в том виде, в котором они представлены в первоисточнике.

Источники данных

Федеральная информационная адресная система (ФИАС)

Атрибут Значение
Полное наименование источника данных Федеральная информационная адресная система
Сокращенное наименование источника данных ФИАС
Владелец источника данных Федеральная налоговая служба (ФНС России)
Краткое описание источника данных Федеральная государственная информационная система, обеспечивающая формирование, ведение и использование государственного адресного реестра (https://fias.nalog.ru/) Данные представлены в DBF и XML формате.
Ссылка на источник данных https://fias.nalog.ru/DataArchive
Перечень используемых классификаторов нет
Понятия, используемые в источнике
Методология и изменения методологии для источника данных Формат сведений об адресах, содержащихся в Государственном адресном реестре утвержден Приказом ФНС России от 13.05.2020 № ЕД-7-6/329@ https://fias.nalog.ru/docs/%D0%9F-%D0%983490.doc
Ссылки на методологию Документация и нормативные акты по ФИАС https://fias.nalog.ru/FiasInfo

Почтовые индексы и адреса России

Атрибут Значение
Полное наименование источника данных Почтовые индексы и адреса России
Сокращенное наименование источника данных -
Владелец источника данных Почта России, Кодификант.ру
Краткое описание источника данных Публичный клон адресных данных Почты России в html-структуре
Ссылка на источник данных https://index.kodifikant.ru/ru/
Перечень используемых классификаторов нет
Понятия, используемые в источнике
Методология и изменения методологии для источника данных
Ссылки на методологию

Ответственные за набор данных

ФИО ответственного лица Электронная почта ответственного лица
1. Валько Данила Валерьевич d.valko@data.rcsi.science
2. Глонин Константин Вячеславович k.glonin@data.rcsi.science
3. Давыдов Николай Юрьевич n.davydov@data.rcsi.science