Вакансии, резюме, отклики и приглашения портала «Работа России» за 2018—2021 годы

Материал из Data-in

История изменений

Дата Версия Автор Описание изменений
02.12.2021 1.0 Бабушкина Валерия Олеговна Документ создан
Тимошенко Анна Шоновна

Общая информация о датасете

Архивные и актуальные сведения о резюме, вакансиях, откликах соискателей и приглашениях на собеседование, размещенные на портале Роструда «Работа России». Сведения публикуются в разделе «Открытые данные» в формате многоуровневых структур XML. В ходе подготовки этого датасета данные были объединены в совокупность связанных плоских таблиц и предобработаны.

Единица наблюдения в датасете (строка): резюме соискателя, вакансия от работодателя или действия с вакансией (отклики, приглашения). Для резюме и вакансий приводится несколько версий в случае, если соискатели или работодатели вносили в них значимые изменения.

Для резюме доступны атрибуты: пол, дата рождения, образование, желаемая должность и зарплата, опыт работы и регион заявителя, а также сведения о различных статусах при публикации и обновлении резюме и т.д. Часть атрибутов сгруппированы в отдельных таблицах по принципу one-to-many (эти атрибуты могут соответствовать нескольким резюме).  Для вакансий доступны атрибуты: сведения о работодателе, должность, обязанности, предлагаемая зарплата, требуемое образование, опыт работы, а также сведения о датах и связанных с ними статусах при публикации и обновлении вакансии и т.д.

Датасет состоит из 13 плоских связанных таблиц и охватывает все резюме и вакансии, публикуемые на портале с 01.01.2018 по 30.10.2021.  Всего набор содержит около 20 млн наблюдений по более чем 100 атрибутам.

Набор размещен в открытом режиме доступа в формате CSV (кодировка: «UTF-8», разделитель: «;»).

Общее описание набора данных

Атрибут Значение
Общие сведения
Полное наименование набора данных «Работа в России»: объединенные и обновляемые сведения о вакансиях, резюме, откликах и приглашениях портала trudvsem.ru
Сокращенное наименование набора данных Вакансии, резюме, отклики и приглашения портала «Работа России» за 2018—2021 годы
Краткое описание набора данных Архивные и актуальные сведения о резюме, вакансиях, откликах соискателей и приглашениях на собеседование со стороны работодателей, размещенные на портале Роструда «Работа России». Сведения публикуются на портале в разделе «Открытые данные» в формате многоуровневых таблиц XML. В ходе подготовки этого датасета данные были объединены в совокупность связанных плоских таблиц и дополнительно предобработаны.

Единица наблюдения в датасете (строка): резюме соискателя, вакансия от работодателя или действия с вакансией (отклики, приглашения). Для резюме доступны атрибуты: пол, дата рождения, уровень образования, желаемая должность и заработная плата, опыт работы и регион заявителя, а также сведения о различных статусах при публикации и обновлении резюме и т.д. Часть атрибутов сгруппированы в отдельных таблицах по принципу one-to-many (так как эти атрибуты могут соответствовать нескольким резюме).

Для вакансий доступны атрибуты: сведения об организации-работодателе, должность, описание обязанностей, предлагаемая зарплата, требуемый уровень образования, опыт работы, а также сведения о датах и связанных с ними статусах при публикации и обновлении вакансии и т.д.

Датасет состоит из 13 плоских связанных между собой таблиц и охватывает все резюме и вакансии, публикуемые на портале с 01.01.2018 (или ранее) до 30.10.2021. Всего набор содержит около 20 млн наблюдений по более чем 100 атрибутам
Краткое описание источника набора данных Портал «Работа России» — это федеральная государственная информационная система Роструда. Портал регулярно публикует обновляемые датасеты о вакансиях, резюме, откликах и приглашениях в разделе «Открытые данные». Данные публикуются в формате XML и могут содержать лишние символы, ошибки, описки и другие недостатки, что является следствием как ручного ввода сведений со стороны работодателей и соискателей, так и недостаточных процедур очистки и предобработки публикуемых открытых данных
Покрываемый временной период 01.01.2018 — 30.10.2021
Доступные форматы CSV (кодировка: «UTF-8», разделитель: «;»)
Размер набора данных 43,0 ГБ
Тематика набора данных Рынок труда и занятость
Режим доступа Открытый (у вас есть возможность работать с данными на своем личном ПК, в том числе скачивать данные)
Периодичность публикации и обновления
Дата размещения в каталоге 02.12.2021
Периодичность обновления в каталоге Ежеквартально
Дата последнего обновления набора данных в каталоге Отсутствует
Характер последнего обновления


Дата следующего обновления набора данных Не установлена
Дополнительные сведения
Цитирование набора данных на русском языке «Работа в России»: обработанные и объединенные сведения о вакансиях, резюме, откликах и приглашениях портала trudvsem.ru // Роструд; обработка: Бабушкина В.О., Тимошенко А.Ш., Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: Лицензия CC BY-SA. Размещено: 02.12.2021. URL: https://data.rcsi.science/data-catalog/datasets/186/
For references (English) «Work in Russia»: combined data on vacancies, CVs, responses and invitations from the trudvsem.ru // Rostrud; data-processing: Babushkina V., Timoshenko A., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 02.12.2021. URL: https://data.rcsi.science/data-catalog/datasets/186/
Ссылка на открытый репозиторий Отсутствует
Лицензия, под которой публикуется набор данных СС BY-SA (Creative Commons)
https://creativecommons.org/licenses/by-sa/4.0/
Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии — CC BY-SA
Стандарт публикации http://opendata.gosmonitor.ru/standard/3.0
Параметры запросов API Интеграция через API не предусмотрена

Структура набора данных (Codebook)

Набор данных состоит из 13 плоских таблиц (7 основных и 6 дополнительных), связанных между собой по различным атрибутам. Формат данных во всех таблицах: CSV (кодировка: «UTF-8», разделитель: «;»). Схема связи таблиц приведена ниже.

Scheme.png

В датасет входят следующие таблицы:

  1. Резюме по субъектам РФ (curricula_vitae.csv) — основная таблица; содержит 62 атрибута, 10 580 887 наблюдений;
  2. Опыт работы, указанный в резюме (workexp.csv), — основная таблица; содержит 10 атрибутов, 12 166 888 наблюдений;
  3. Сведения об образовании, указанные в резюме (edu.csv), — основная таблица; содержит 8 атрибутов, 4 540 219 наблюдений;
  4. Дополнительное образование, указанное в резюме (addedu.csv), — основная таблица; содержит 7 атрибутов, 1 304 805 наблюдений;
  5. Вакансии по субъектам РФ (vacancies.csv), — основная таблица; содержит 85 атрибутов, 13 282 732 наблюдения;
  6. Отклики соискателей на вакансии (responses.csv), — основная таблица; содержит 16 атрибутов, 1 820 667 наблюдений;
  7. Приглашения на собеседование, отправленные работодателями (invitations.csv), — основная таблица; содержит 15 атрибутов, 7 889 720 наблюдений;
  8. Организации работодателей, размещающих вакансии на портале (organizations.csv), — дополнительная таблица; содержит 48 атрибутов, 914 287 наблюдения;
  9. Субъекты РФ и основная аналитическая информация о них (regions.csv) — дополнительная таблица; содержит 9 атрибутов, 86 наблюдений;
  10. Справочник сфер деятельности (industries.csv) — дополнительная таблица; содержит 8 атрибутов, 34 наблюдения;
  11. Справочник специальностей (professions.csv) — дополнительная таблица; содержит 10 атрибутов, 8 038 наблюдений;
  12. Аналитические данные по гражданам на портале (stat_citizens.csv) — дополнительная таблица; содержит 5 атрибутов, 90 наблюдений;
  13. Аналитические данные по работодателям на портале (stat_company.csv) — дополнительная таблица; содержит 8 атрибутов, 87 наблюдений.

Резюме по субъектам РФ (curricula_vitae.csv)

Атрибут Описание Пояснение Количество пропусков (NaN)
шт/%
Единица измерения ОКЕИ Формат
id_candidate Идентификатор соискателя Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations 0



string
id_cv Идентификатор резюме Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu 0



string
industry_code Сфера деятельности Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae




string
profession_code Профессия по Общероссийскому классификатору профессий рабочих, должностей служащих и тарифных разрядов (ОКПДТР) Расшифровка кодов содержится во вспомогательной таблице professons. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae.

Заполнение поля соискателем необязательно
0



numeric
region_code Код субъекта РФ Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations 490



numeric
abilympics_participation Участие в движении «Абилимпикс»
Принимает значения:
  • 1 — участник;
  • 0 — не участник.

Заполнение поля соискателем необязательно

0



boolean
abilympics_status Подтверждено участие в движении «Абилимпикс» «Данные подтверждены» 0



string
add_certificates Иные сертификаты, удостоверения, достижения, звание, чин Текст в свободной форме.
Удалены html-теги, дефектные пропуски значений.

Заполнение поля соискателем необязательно
0



string
add_certificates_modified Иные сертификаты, удостоверения, достижения, звание, чин Атрибут добавлен при обработке данных.
Аналогично add_certificates, но с учетом обработки данных: унифицированы некоторые значения: варианты «Нет», «Не имею», «Нет сертификатов», «Отсутствуют»
и др. приведены к «нет».

Заполнение поля соискателем необязательно
0



string
additional_skills Личные навыки Текст в свободной форме.
Удалены html-теги, дефектные пропуски значений.

Заполнение поля соискателем необязательно
0



string
birthday Год рождения соискателя YYYY 0



numeric
birthday_mistake Отметка об ошибке в годе рождения
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — отметка в случае обнаружения неадекватного значения атрибута;
  • 0 — в случае если дата корректная
0



boolean
business_trips Готовность к командировкам
Принимает значения:
  • 0 — не готов к командировкам;
  • 1 — готов к командировкам.


Заполнение поля соискателем необязательно

0



boolean
busy_type Тип занятости Принимает значения:
  • «Полная занятость»;
  • «Сезонная»;
  • «Удаленная»;
  • «Частичная занятость»;
  • «Временная»;
  • «Стажировка».

Заполнение поля обязательно

0



string
country Гражданство Принимает значения:
  • «Российская Федерация»
  • «Республика Узбекистан»;
  • «Республика Казахстан»;
  • «Украина»;
  • «Республика Молдова»;
  • «Республика Беларусь»;
  • «Кыргызская Республика»;
  • «Республика Армения»;
  • «Азербайджанская Республика»;
  • «Республика Таджикистан»;
  • «Туркменистан»;
  • «Иное».

Заполнение поля обязательно

0



string
date_сreation Дата создания резюме Формат: YYYY-MM-DD 0



date
date_inactivation Дата, начиная с которой эта версия резюме отсутствует в наборе открытых данных портала
Атрибут добавлен при обработке данных.
Формат: YYYY-MM-DD
0



date
date_last_updated Дата первой публикации этой версии резюме в открытых данных портала
Атрибут добавлен при обработке данных.
Формат: YYYY-MM-DD
0



date
date_modify _inner_info Дата последнего изменения резюме на портале Формат: YYYY-MM-DD 0



date
date_publish Дата публикации резюме на портале Формат: YYYY-MM-DD 0



date
date_time_publish Дата и время публикации резюме на портале Формат YYYY-MM-DD HH-MM-SS 0



timestamp
drive_licences Уровень лицензии водительских прав, представлен в виде списка перечисленных категорий водительских прав
Далее представлен one-hot переменными:
  • driver_licence_A;
  • driver_licence_B;
  • driver_licence_C;
  • driver_licence_D;
  • driver_licence_E.


Заполнение поля соискателем необязательно

0



string
driver_licence_A Наличие водительских прав категории А
Атрибут добавлен при создании датасета.
Принимает значения:
  • 1 — есть;
  • 0 — нет
0



boolean
driver_licence_B Наличие водительских прав категории B
Атрибут добавлен при создании датасета. Принимает значения:
  • 1 — есть;
  • 0 — нет
0



boolean
driver_licence_C Наличие водительских прав категории C
Атрибут добавлен при создании датасета. Принимает значения:
  • 1 — есть;
  • 0 — нет
0



boolean
driver_licence_D Наличие водительских прав категории D
Атрибут добавлен при создании датасета. Принимает значения:
  • 1 — есть;
  • 0 — нет
0



boolean
driver_licence_E Наличие водительских прав категории E
Атрибут добавлен при создании датасета. Принимает значения:
  • 1 — есть;
  • 0 — нет
0



boolean
education_type Тип полученного образования соискателем
Принимает значения:
  • «Высшее»;
  • «Среднее профессиональное»;
  • «Среднее»;
  • «Незаконченное высшее».

Заполнение поля соискателем необязательно

0



string
experience Опыт работы соискателя
Количество лет. Например: 0, 10, 15.

Заполнение поля соискателем необязательно
0



numeric
experience_mistake Нереалистичное значение атрибута «Опыт работы соискателя» Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — отметка в случае обнаружения неадекватного значения атрибута;
  • 0 — если значение корректное
0



boolean
gender Пол Принимает значения:
  • мужской;
  • женский.




string
inactive Статус инактивации Принимает значения:
  • 0 — запись в последней версии;
  • 1 — запись в архиве или существует более новая версия записи
0



boolean
inner_info_deleted Отметка удаления резюме Принимает значения:
  • 0 — резюме не удалено;
  • 1 — резюме удалено
0



boolean
inner_info_fullness_rate Процент заполненности резюме В процентах (%) от 0 до 100




numeric
id_user_inner_info Внутренний идентификатор пользователя сервиса: модератора (сотрудника СЗН/ЦЗН)


5450
(~0%)



string
inner_info_status Статус резюме на портале Принимает значения:
  • «Одобрено»;
  • «Не одобрено»;
  • «Ожидает подтверждения»
0



string
inner_info_visibility
Видимость резюме
Принимает значение:
  • 1 — видно всем
0



boolean
locality Код КЛАДР Классификатор адресов РФ — 13 (точность до населенного пункта) или 17 цифр (точность до улицы) 961
(~0%)



numeric
nark_certificate Наличие свидетельства о независимой оценке квалификации Принимает значение:
  • 1 — проставлена отметка о получении «Свидетельства о независимой оценке квалификации»

Заполнение поля соискателем необязательно

0



boolean
nark_inspection_status Данные о наличии свидетельства о независимой оценке квалификации подтверждены Принимает значение:
  • 1 — данные подтверждены
0



boolean
other_info Иная информация о соискателе Текст в свободной форме.
Удалены html-теги, дефектные пропуски значений.

Заполнение поля соискателем необязательно
0



string
other_info_modified Иная информация о соискателе
Атрибут добавлен при создании датасета. Аналогично other_info_modified, но с учетом обработки данных унифицированы некоторые значения: «Нет», «Без вредных привычек», «Не курю», удалены html-теги и т.д.

Заполнение поля соискателем необязательно
0



string
position_name Желаемая должность
Текст в свободной форме.
Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля обязательно

13



string
relocation Готовность к переезду
Принимает значения:
  • 1 — да;
  • 0 — нет.

Заполнение поля соискателем необязательно

0



boolean
retraining_capability Готовность к переобучению Принимает значения:
  • 1 — готов к переобучению;
  • 0 — не готов к переобучению.

Заполнение поля соискателем необязательно

0



boolean
salary Желаемая зарплата Указывается в рублях.

Заполнение поля обязательно

0



numeric
schedule_type Желаемый график работы.
Представлен в виде списка перечисленных типов графиков работы: вахтовый метод;
гибкий график; ненормированный рабочий день;
неполный рабочий день; полный рабочий день; сменный график
Далее представлен one-hot переменными:
  • schedule_type_1;
  • schedule_type_2;
  • schedule_type_3;
  • schedule_type_4;
  • schedule_type_5;
  • schedule_type_6.


Заполнение поля обязательно

0



string
schedule_type_1 Желаемый график работы: вахтовый метод Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
schedule_type_2 Желаемый график работы: гибкий график
Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
schedule_type_3 Желаемый график работы: ненормированный рабочий день Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
schedule_type_4 Желаемый график работы: неполный рабочий день Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
schedule_type_5 Желаемый график работы: полный рабочий день Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
schedule_type_6 Желаемый график работы: сменный график
Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
skills Профессиональные качества Текст в свободной форме.
Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля соискателем необязательно




string
time_publish Время публикации резюме на портале Формат HH-MM-SS 0



time
worldskills_international_name Наименование компетенции Worldskills на английском языке Заполнение поля соискателем необязательно 0



string
worldskills_is_international Отметка о статусе международной компетенции WorldSkills International (WSI) Принимает значения:
  • 1 — международная компетенция WorldSkills International (в т.ч. и для WorldSkills Russia (Ворлдскиллс Россия);
  • 0 — компетенция имеет статус только WorldSkills Russia (Ворлдскиллс Россия)
0



boolean
worldskills_russian_name Наименование компетенции Worldskills
на русском языке
Заполнение поля соискателем необязательно 0



string
worldskills_skill_abbreviation Код навыка компетенции Worldskills Перечень компетенций WorldSkills (pdf) 0



string
worldskills_type Статус участия Принимает значение:
  • 1 — Участие
0



boolean
worldskills_inspection_status Статус проверки наличия конкретной квалификации Worldskills
Принимает значения:
  • «Данные подтверждены»;
  • «Данные в процессе проверки»;
    «Неприменимо»
63
(~0%)



string
worldskills_inspection_status_code Код статуса проверки наличия квалификации Worldskills
Принимает значения:
  • «SUCCES»;
  • «WAITING»;
  • «NOT_APPLICABLE»
0



string

Опыт работы, указанный в резюме (workexp.csv)

Атрибут Описание Пояснение Количество
пропусков (NaN)
Единица измерения ОКЕИ Формат
id_cv Идентификатор резюме Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu 0



string
achievements Достижения Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.
Заполнение поля соискателем необязательно
0



string
achievements_modified Достижения
Атрибут добавлен при обработке данных. Аналогично атрибуту achievements. Дополнительно унифицированы некоторые значения: «Нет».

Заполнение поля соискателем необязательно
0



string
company_name Название организации Текст в свободной форме.
Заполнение поля соискателем необязательно
0



string
date_from Дата начала работы
Формат YYYY-MM-DD 0



date
date_last_updated Дата первой публикации этой версии записи об опыте работы в открытых данных портала «Работа России»
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD 0



date
date_to Дата окончания работы
Формат YYYY-MM-DD 0



date
date_mistake Отметка об ошибке в датах Атрибут добавлен при обработке данных.
Принимает значения:
  • 1 — в случае неадекватного значения даты начала, либо даты окончания, либо их сочетания;
  • 0 — ошибки нет
0



boolean
demands Должностные обязанности Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.


Заполнение поля соискателем необязательно
0



string
job_title Название должности Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.


Заполнение поля соискателем необязательно
0



string

Сведения об образовании, указанные в резюме (edu.csv)

Атрибут Описание Пояснение Количество
пропусков (NaN)
Единица измерения ОКЕИ Формат
id_cv
Идентификатор резюме Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu 0



string
date_last_updated Дата первой публикации этой версии записи о полученном образовании в открытых данных портала «Работа России»
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD 0



date
faculty Название факультета Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля соискателем необязательно
0



string
graduate_year Год окончания обучения


0



numeric
grad_year_mistake Ошибки в датах атрибута «graduate_year»: ранее 70 лет назад и позже 4 лет вперед от даты обработки атрибута
Атрибут добавлен при создании датасета. Принимает значения:
  • 1 — год окончания обучения указан ошибочно;
  • 0 — ошибки нет
0



boolean
legal_name
Юридическое название учебного заведения Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля соискателем необязательно
0



string
qualification Квалификация Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля соискателем необязательно
0



string
speciality Специальность Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля соискателем необязательно
0



string

Дополнительное образование, указанное в резюме (add_edu.csv)

Атрибут Описание Пояснение Количествопропусков (NaN) Единица измерения ОКЕИ Формат
id_cv
Идентификатор резюме Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu 0



string
course_name Название курса
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля соискателем необязательно
0



string
date_last_updated Дата первой публикации этой версии записи о дополнительном образовании в открытых данных портала «Работа России»
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD 0



date
legal_name
Юридическое название учебного заведения Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля соискателем необязательно
0



string
graduate_year Год выпуска


0



numeric
grad_year_mistake Ошибки в датах атрибута «graduate_year»: ранее 70 лет назад и позже 4 лет вперед от даты обработки атрибута
Атрибут добавлен при создании датасета. Принимает значения:
  • 1 — год окончания обучения указан ошибочно;
  • 0 — ошибки нет
0



boolean
description Описание обучения Атрибут добавлен при создании датасета. В случаях когда в атрибуты «course_name» и «legal_name» были внесены развернутые описания полученного дополнительного образования (длиной > 200 символов), эти описания были перенесены в атрибут «description» и заменены на пробел в исходном атрибуте 0



string

Вакансии по субъектам РФ (vacancies.csv)

Атрибут Описание Пояснение Количество
пропусков (NaN)
Единица измерения ОКЕИ Формат
id_hiring_organization Идентификатор нанимающей организации. Совпадает с атрибутом organization Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations 0



string
identifier Идентификатор вакансии Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations 0



string
industry Сфера деятельности вакансии в соответствии со справочником сфер деятельности Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae 0



string
organization Код идентификатор организации. Совпадает с id_hiring_organization Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations 0



numeric
profession
Профессия по Общероссийскому классификатору профессий рабочих, должностей служащих и тарифных разрядов (ОКПДТР) Расшифровка кодов содержится во вспомогательной таблице professons. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae 0



numeric
region Код субъекта РФ Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae 0



string
accommodation_capability Жилищные условия Принимает значения:
  • 1 — жилье предоставляется;
  • 0 — жилье не предоставляется.

Заполнение поля необязательно

0



boolean
accommodation_housing
Тип предлагаемого жилья Принимает значения:
  • «DORMITORY»;
  • «ROOM»;
  • «FLAT»;
  • «HOUSE».

Заполнение поля необязательно

0



string
additional_info
Дополнительная информация по требованиям к кандидату Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля необязательно
0



string
base_salary
Предлагаемая заработная плата Заполняется текстом в формате: «от ...», «от ... до ...», «до ...».

Заполнение поля необязательно
0



string
base_salary_min
Минимальная предлагаемая заработная плата


0



numeric
base_salary_max
Максимальная предлагаемая заработная плата


0



numeric
career_perspective
Перспективы карьерного роста
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля необязательно
0



string
caring_workers Социальная категория граждан «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением» Атрибут добавлен при обработке данных.
Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
date_change_inner_info
Дата изменения вакансии
Устаревший к 01.12.2021 атрибут.
Может дублировать date_modify_inner_info
2015—2021 гг. Формат YYYY-MM-DD
584 441 (92%)



date
date_change_inner_info_mistake Ошибки в датах атрибута date_change_inner_info (ошибка unix time) Атрибут добавлен при обработке данных.
Принимает значения:
  • 1 — в случае неадекватного значения;
  • 0 — ошибки нет
0



boolean
date_creation Дата создания вакансии 2015—2021 гг. Формат YYYY-MM-DD 0



date
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time)
Атрибут добавлен при обработке данных.
Принимает значения:
  • 1 — в случае неадекватного значения;
  • 0 — ошибки нет
0



boolean
date_inactivation Дата, начиная с которой эта версия вакансии отсутствует в наборе открытых данных портала
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD 0



date
date_last_updated Дата первой публикации этой версии записи в открытых данных портала
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD 0



date
date_modify_inner_info Дата последнего изменения вакансии Доступно за 2021 г. Формат YYYY-MM-DD 0



date
date_modify_inner_info_mistake Ошибки в датах атрибута date_modify_inner_info (ошибка unix time)
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — в случае неадекватного значения
  • 0 — ошибки нет
0



boolean
date_posted Дата публикации вакансии Доступно за 2021 г. Формат YYYY-MM-DD 0



date
date_posted_mistake Ошибки в датах атрибута date_posted (ошибка unix time)
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — в случае неадекватного значения;
  • 0 — ошибки нет
0



boolean
date_time_change_inner_info Дата и время изменения вакансии Доступно за 2015—2021 гг. Формат YYYY-MM-DD HH-MM-SS 0



timestamp
date_time_posted Дата и время создания вакансии Доступно за 2015—2021 гг. 584 441 (92%)



timestamp
disabled Социальная категория граждан «Инвалиды»
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
dms Преимущества вакансии «ДМС»
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
drive_licences Уровень лицензии водительских прав, представлен в виде списка перечисляемых категорий водительских прав
Далее представлен one-hot переменными:
  • driver_licence_A;
  • driver_licence_B;
  • driver_licence_C;
  • driver_licence_D;
  • driver_licence_E
0



string
driver_licence_A Водительские права категории «А»
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
driver_licence_B Водительские права категории «B»
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
driver_licence_C Водительские права категории «C»
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
driver_licence_D Водительские права категории «D»
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
driver_licence_E Водительские права категории «E»
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
education_academic_degree Требуемая академическая степень Принимает значения:
  • «Кандидат наук»;
  • «Доктор наук»


Заполнение поля необязательно

0



string
education_requirements_education_type Требуемый уровень образования Принимает значения:
  • «Высшее»;
  • «Незаконченное высшее»;
  • «Среднее профессиональное»;
  • «Среднее».


Заполнение поля необязательно

0



string
education_requirements_speciality Требуемая образовательная специальность Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля необязательно
0



string
employment_type Тип занятости Принимает значения:
  • «Полная занятость»;
  • «Сезонная»;
  • «Удаленная»;
  • «Временная»;
  • «Частичная занятость»;
  • «Стажировка»
0



string
experience_requirements Требуемый опыт работы (количество лет)
Количество лет. Например: 0, 1, 5.

Заполнение поля необязательно
0



string
federal_district Номер федерального округа
Принимает значения от 1 до 9 0



string
inactive Статус инактивации
Атрибут добавлен при обработке данных.
Принимает значения:
  • 0 — запись в последней версии;
  • 1 — запись в архиве или существует более новая версия записи
0



boolean
incentive_compensation_
transport_compensation
Транспортная компенсация Принимает значения:
  • «PASSAGE_PAID»;
  • «FUEL_PAID»;
  • «AUTO».


Заполнение поля необязательно

0



string
inner_info_contact_source Источник контакта вакансии Принимает значения:
  • «CZN» — разместил вакансию центр занятости населения;
  • «COMPANY» — разместила вакансию организация.


Заполнение поля необязательно

0



string
inner_info_deleted Отметка удаления вакансии
Принимает значения:
  • 0 — вакансия не удалена;
  • 1 — вакансия удалена
0



boolean
inner_info_metro_ids Идентификатор станции метро, представлен в виде списка перечисляемых идентификаторов станций метрополитена Сгенерирован в исходных данных.
Пример:
[e182b311-81cf-11e4-a6da-9be8de68eaf1, e183766c-81cf-11e4-a6da-9be8de68eaf1].

Заполнение поля необязательно
0



string
inner_info_source_type
Тип источника вакансии Принимает значения:
  • «Служба занятости»;
  • «Работодатель»;
  • «Аккредитованное частное агентство занятости»;
  • «Кадровое агентство»;
  • «Вакансия работодателя».


Заполнение поля необязательно

0



string
inner_info_status
Статус размещения вакансии Принимает значения:
  • «Одобрено»;
  • «Не одобрено»;
  • «Ожидает подтверждения».


Заполнение поля необязательно

0



string
inner_info_visibility Видимость вакансии. Принимает значения: «Видно всем» Принимает значения:
  • 1 — «Видно всем»
0



boolean
is_uzbekistan_recruitment
Отметка вакансии для граждан Узбекистана
Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
job_benefits
Преимущества вакансии. Атрибут принимает значения, передаваемые списком: «Оплата занятий спортом», «Путевки в оздоровительные учреждения», «Оплата питания», «ДМС»
Далее представлен one-hot переменными:
payment_sports_activities: «Оплата занятий спортом», vouchers_health_institutions: «Путевки в оздоровительные учреждения», payment_meals: «Оплата питания», dms: «ДМС».

Заполнение поля необязательно
0



string
job_benefits_other_benefits Дополнительные преимущества Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля необязательно
0



string
job_location_additional_address_info Дополнительные данные адреса работодателя Заполнение поля необязательно 0



string
job_location_address Адрес работодателя (индекс, регион, область, населенный пункт, улица, дом, помещение и т.д.) Может содержать только часть адреса, например «352900, г. Армавир, д. 125» или «Набережная 1-го Мая» 0



string
job_location_geo_longitude Координаты долготы


0



string
job_location_geo_latitude Координаты широты


0



string
large_families Социальная категория граждан «Многодетные семьи»
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
metro_station
Станция метро, атрибут представлен в виде строки перечисляемых названий станций метрополитена Заполнение поля необязательно 0



string
minor_workers Социальная категория граждан «Несовершеннолетние работники»
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
need_medcard
Требование наличия медицинской книжки Принимает значения:
  • 1 — требуется;
  • 0 — не требуется
0



boolean
okso_code
Код по Общероссийскому классификатору специальностей по образованию: https://classifikators.ru/okso Заполнение поля необязательно 0



numeric
payment_meals
Преимущества вакансии «Оплата питания»
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
payment_sports_activities
Преимущества вакансии «Оплата занятий спортом» Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
premium_size Размер премирования


0



numeric
premium_type


Принимает значения:
  • «Ежемесячная премия»;
  • «Ежеквартальная премия»;
  • «Ежегодная премия».


Заполнение поля необязательно

0



string
released_persons Социальная категория граждан «Лица; освобождаемые из мест лишения свободы» Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
requirements_id_priority_category
Указатель на приоритетную категорию Принимает значение:
  • «Опытные кадры»
0



string
requirements_qualifications
Требуемая квалификация
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля необязательно
0



string
requirements_required_certificates
Требуемые сертификаты
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля необязательно
0



string
responsibilities
Должностные обязанности
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля необязательно
0



string
retraining_capability Наличие готовности к переобучению Принимает значения:
  • 1 — готов к переобучению;
  • 0 — не готов к переобучению.


Заполнение поля соискателем необязательно

0



boolean
retraining_condition Предоставляемое обучение
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр.

Заполнение поля необязательно
0



string
retraining_grant
Наличие стипендии Принимает значения:
  • 1 — есть стипендия;
  • 0 — нет стипендии.


Заполнение поля соискателем необязательно

0



boolean
retraining_grant_value Размер гранта на переобучение


0



numeric
single_parent Социальная категория граждан «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет» Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
social_protecteds_social_protected
Категории социальной защиты. Арибут принимает значения, передаваемые списком (см. в колонке справа)
Далее представлен one-hot переменными: disabled — «Инвалиды»;
released_persons — «Лица, освобождаемые из мест лишения свободы»;
single_parent — «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет»;
large_families — «Многодетные семьи»;
minor_workers — «Несовершеннолетние работники»;
workers_with_disabled_children — «Работники, имеющие детей-инвалидов»;
caring_workers — «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением»
0



string
source
Источник вакансии Принимает значения:
  • «EMPLOYMENT_SERVICE»;
  • «COMPANY»;
  • «CHAZ»;
  • «RECRUITMENT_AGENCY»;
  • «HR_SERVICE».


Заполнение поля необязательно

0



string
time_change_inner_info Время изменения сущности в наборе Формат HH-MM-SS 584 441 (92%)



time
time_posted Время публикации вакансии Формат HH-MM-SS 0



time
title Наименование вакансии Текст в свободной форме.

Заполнение поля необязательно
0



string
vac_url
URL-адрес вакансии на сайте trudvsem.ru


0



string
vouchers_health_institutions
Преимущества вакансии «Путевки в оздоровительные учреждения» Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
work_hours
График работы Принимает значения:
  • «Сменный график»;
  • «Полный рабочий день»;
  • «Гибкий график»;
  • «Неполный рабочий день»;
  • «Ненормированный рабочий день»;
  • «Вахтовый метод».


Заполнение поля необязательно

0



string
work_places Количество рабочих мест


0



numeric
workers_with_disabled_children Социальная категория граждан «Работники, имеющие детей-инвалидов» Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean

Отклики соискателей на вакансии (responses.csv)

Атрибут Описание Пояснение Количество пропусков (NaN) Единица измерения ОКЕИ Формат
id_candidate Идентификатор кандидата Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations 0



string
id_cv Идентификатор резюме Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu 0



string
id_hiring_organization Идентификатор нанимающей организации Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations 0



string
id_vacancy Идентификатор вакансии Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations 42 (~0%)



string
region_code
Код субъекта РФ Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations 0



string
activity_flag_candidate Отметка кандидата.
В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве
Принимает значения:
  • 1 — активен;
  • 0 — не активен
0



boolean
activity_flag_manager Отметка менеджера.
В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве
Принимает значения:
  • 1 — активен;
  • 0 — не активен
0



boolean
date_creation Дата создания отклика Доступно за период: 2015—2021 гг. Формат YYYY-MM-DD 0



date
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time)
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — в случае неадекватного значения;
  • 0 — ошибки нет
0



boolean
date_last_updated Дата первой публикации этой версии вакансии в открытых данных портала Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD 0



date
date_modify Дата изменения отклика Доступно за период: 2016—2021 гг. Формат YYYY-MM-DD 0



date
date_modify_mistake Ошибки в датах атрибута date_modify (ошибка unix time) Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — в случае неадекватного значения;
  • 0 — ошибки нет
0



boolean
is_new Признак нового отклика Принимает значения:
  • 1 — новый отклик;
  • 0 — не новый отклик
0



boolean
id_reply Идентификатор ответа Заполнение поля необязательно 0



string
id_response
Идентификатор отклика


0




response_type Приглашение
Принимает значения:
  • «Отказ»;
  • «Принятие»;
  • «Приглашение».

Заполнение поля необязательно

0



string

Приглашения на собеседование, отправленные работодателями (invitations.csv)

Атрибут Описание Пояснение Количество
пропусков (NaN)
Единица измерения ОКЕИ Формат
id_candidate Идентификатор соискателя Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations 0



string
id_cv Идентификатор резюме Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu 102
(~0%)



string
id_hiring_organization Идентификатор нанимающей организации Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations 0



string
id_vacancy Идентификатор вакансии Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations 74
(~0%)



string
region_code Код региона Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations 0



string
activity_flag_candidate Отметка кандидата.
В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве
Принимает значения:
1 — активен;
0 — не активен
0



boolean
activity_flag_manager Отметка менеджера.
В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве
Принимает значения:
  • 1 — активен;
  • 0 — не активен
0



boolean
date_creation Дата создания Формат YYYY-MM-DD 0



date
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time) Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — в случае неадекватного значения;
  • 0 — ошибки нет
0



boolean
date_last_updated Дата первой публикации записи в открытых данных портала «Работа России»
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD 0



date
date_modify Дата изменения Формат YYYY-MM-DD 0



date
date_modify_mistake Ошибки в датах атрибута date_modify (ошибка unix time)
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — в случае неадекватного значения;
  • 0 — ошибки нет
0



boolean
id_reply Идентификатор отклика





string
id_invitation Идентификатор приглашения


0



string
response_type
Тип отклика
Принимает значения:
  • «Отклик соискателя»
0

string
is_new Признак нового отклика Принимает значения:
  • 1 — новый отклик;
  • 0 — не новый отклик
0



boolean

Организации работодателей, размещающих вакансии на портале (organizations.csv)

Атрибут Описание Пояснение Количество
пропусков (NaN)
Единица измерения ОКЕИ Формат
id_organizations
Идентификатор организации Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations 0



string
region_code
Код субъекта РФ Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations 0



string
address Адрес работодателя (индекс, регион, область, населенный пункт, улица, дом, помещение и т.д.) Может содержать только часть адреса, например «352900, г. Армавир, д. 125» или «Набережная 1-го Мая» 0



string
address_code
Код КЛАДР Классификатор адресов РФ — 13 (точность до населенного пункта) или 17 цифр (точность до улицы) 0



string
business_size Размер организации в классификации Принимает значения:
  • «MICRO»;
  • «SMALL»;
  • «MIDDLE»;
  • «BIG»;
  • «LARGE».

Заполнение поля необязательно

0



string
code_parent_company Код родительской организации


0



string
company_structure_hidden Скрывать структуру компании Принимает значения:
  • 1 — скрывать;
  • 0 — не скрывать
0



boolean
date_change_inner_info Дата изменения сущности в наборе Устаревший атрибут.
Может дублировать date_modify_inner_info
1970, 2015—2021. Формат YYYY-MM-DD
0



date
date_change_inner_info_mistake Ошибки в датах атрибута date_change_inner_info (ошибка unix time)
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — в случае неадекватного значения;
  • 0 — ошибки нет
0



boolean
date_time_change_inner_info Дата и время изменения сущности в наборе Формат YYYY-MM-DD HH-MM-SS 0



timestamp
time_change_inner_info Время изменения сущности в наборе. Формат HH-MM-SS 0



time
date_creation Дата создания сущности в наборе Доступно за период: 2015—2021 гг. Формат YYYY-MM-DD 21 942 (2%)



date
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time)
Атрибут добавлен при обработке данных.
Принимает значения:
  • 1 — в случае неадекватного значения;
  • 0 — ошибки нет
0



boolean
date_moderation_inner_info Дата модерации сущности в наборе Доступно за период: 2015—2021 гг. Формат YYYY-MM-DD 0



date
date_moderation_inner_info_mistake Ошибки в датах атрибута date_moderation_inner_info (ошибка unix time)
Атрибут добавлен при обработке данных.
Принимает значения:
  • 1 — в случае неадекватного значения;
  • 0 — ошибки нет
0



boolean
date_modify_inner_info Дата изменения сущности в наборе Доступно за период 2015—2021 гг. Формат YYYY-MM-DD 0



date
date_modify_inner_info_mistake Ошибки в датах атрибута date_modify_inner_info (ошибка unix time)
Атрибут добавлен при обработке данных. Принимает значения:
  • 1 — в случае неадекватного значения;
  • 0 — ошибки нет
0



boolean
date_last_updated Дата первой публикации этой версии записи в открытых данных портала
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD 0



date
description
Описание организации
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. 0



string
hr_agency Кадровое агентство Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
first_rate_company Статус крупнейшей компании Принимает значения:
  • 1 — относится к крупнейшим компаниям;
  • 0 — не относится к крупнейшим компаниям
0



boolean
inn Код ИНН


0



string
inner_info_deleted Отметка удаления организации с портала Принимает значения:
  • 0 — организация не удалена;
  • 1 — организация удалена
0



boolean
inner_info_id_author Идентификатор автора, создавшего аккаунт организации


0



string
inner_info_is_moderated Статус модерации организации Принимает значение:
  • 1 — имеется
0



boolean
inner_info_manager_ids Идентификатор менеджеров организации


0



string
inner_info_registration_status
Статус регистрации Принимает значения:
  • «Получена по интеграции»;
  • «Получена из ЕСИА»;
  • «Проверена администрацией»
0



string
inner_info_status
Статус организации Принимает значения:
  • «Одобрено»;
  • «Ожидает подтверждения»;
  • «Не одобрено»
0



string
inner_info_disable_import_info Запрет обновления описания компании при импорте Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
inner_info_disable_import_vacancy
Запрет импорта вакансий из ОБВ Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
inner_info_disable_join_company
Запрет на присоединение компаний Принимает значения:
  • 1 — да;
  • 0 — нет
0



boolean
inner_info_disable_join_manager
Запрет на добавление менеджеров Принимает значения:
  • 1 — да
  • 0 — нет
0



boolean
inner_info_code_external_system Источник контакта Принимает значения:
  • «CZN»;
  • «COMPANY»
0



string
inner_info_id_user Код пользователя


0



string
inner_info_id_small_icon Идентификатор изображения


0



string
inner_info_moderation_comment
Комментарий модератора
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. 0



string
inner_info_state_program Идентификатор государственной программы


0



string
inner_info_id_logo Идентификатор изображения


0



string
inner_info_external_id Внешний идентификатор


0



string
kpp Код КПП


0



string
legal_form_code Код ОКОПФ


0



string
legal_form_name Наименование кода ОКОПФ


0



string
legal_name Юридическое наименование организации


0



string
name Наименование организации


0



string
ogrn Код ОГРН


0



string
site Сайт организации


0



string
source Источник информации об организации Принимает значения:
  • «EMPLOYMENT_SERVICE»;
  • «FROM_ESIA»;
  • «COMPANY»
0



string
state_program Идентификатор государственной программы


0



string

Субъекты РФ и основная аналитическая информация о них (regions.csv)

Атрибут Описание Пояснение Количество
пропусков (NaN)
Единица измерения ОКЕИ Формат
region_code
Код региона Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations 0



string
region_name Наименование региона


0



string
accomodation_accessibility Доступность жилья Указано в рублях 0 руб.


float
attraction_region Регионы, оказывающие поддержку при переезде Принимает значения:
1 — да;
0 — нет
0



numeric
economic_growth Темп экономического роста Указано в % 0 %


float
kindergarten_accessibility Доступность детских садов


0



string
medium_salary_difference Средняя заработная плата Указано в рублях 0 руб.


float
price_level Уровень цен Указано в рублях 0 руб.


float
unemployment_level Уровень безработицы Указано в % 0 %


float

Справочник сфер деятельности (industries.csv)

Атрибут Описание Пояснение Количество
пропусков (NaN)
Единица измерения ОКЕИ Формат
industry_code Наименование сферы деятельности (на английском языке) Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae 0



string
active Отметка активности
Принимает значения:
1 — да;
0 — нет
0



boolean
date_creation Дата создания сущности в наборе Формат YYYY-MM-DD 0



date
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time)
Атрибут добавлен при обработке данных. Принимает значения:
1 — в случае неадекватного значения;
0 — ошибки нет
0



boolean
date_modify Дата изменения сущности в наборе Формат YYYY-MM-DD 0



date
date_modify_mistake Ошибки в датах атрибута date_modify (ошибка unix time)
Атрибут добавлен при обработке данных. Принимает значения:
1 — в случае неадекватного значения;
0 — ошибки нет
0



boolean
deleted Отметка удаления Принимает значения:
1 — да;
0 — нет
0



boolean
industry_name Наименование сферы деятельности (на русском языке)


0



string

Справочник специальностей (professions.csv)

Атрибут Описание Пояснение Количество
пропусков (NaN)
Единица измерения ОКЕИ Формат
profession_code Профессия по ОКПДТР Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae 0



string
profession_name Наименование специальности (на русском)


0



string
active Отметка активности
Принимает значения:
1 — активная ;
0 — неактивная
0



boolean
category
Категория специальности по ОКПДТР


574 (7%)



string
date_creation Дата создания сущности в наборе 1970, 2015—2019 гг. Формат YYYY-MM-DD 0



date
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time)
Атрибут добавлен при обработке данных. Принимает значения:
1 — в случае неадекватного значения;
0 — ошибки нет
0



boolean
date_modify Дата изменения сущности в наборе 1970, 2015—2019 гг. Формат YYYY-MM-DD 0



date
date_modify_mistake Ошибки в датах атрибута date_modify (ошибка unix time)
Атрибут добавлен при обработке данных. Принимает значения:
1 — в случае неадекватного значения;
0 — ошибки нет
0



boolean
deleted Отметка удаления Принимает значения:
1 — да;
0 — нет
0



boolean
etks Тариф указан в соответствии со справочником ЕТКС Заполнение поля необязательно 2600 (32%)



string

Аналитические данные по гражданам на портале (stat_citizens.csv)

Атрибут Описание Пояснение Количество пропусков (NaN) Единица измерения ОКЕИ Формат
region_code Код региона Расшифровка кодов содержится во вспомогательной таблице regions 0



string
region_name Наименование региона (на русском)


0



string
cvs_count Количество резюме


0 штук


numeric
medium_salary Средняя заработная плата


0 руб.


float
region_code_mistake Ошибки в датах атрибута region_code (длина не 13 цифр)
Атрибут добавлен при обработке данных.
Принимает значения:
1 — в случае неадекватного значения;
0 — ошибки нет
0



boolean

Аналитические данные по работодателям на портале (stat_companies.csv)

Атрибут Описание Пояснение Количество
пропусков (NaN)
Единица измерения ОКЕИ Формат
region_code Код региона Расшифровка кодов содержится во вспомогательной таблице regions 0



string
region_name Наименование региона (на русском)


0



string
company_count Компаний, разместивших вакансии (всего)


0 штук


numeric
micro_company Компаний с численностью сотрудников менее 50 человек


0 штук


numeric
small_company Компаний с численностью сотрудников от 51 до 100 человек


0 штук


numeric
midle_company Компаний с численностью сотрудников от 101 до 250 человек


0 штук


numeric
big_company Компаний с численностью сотрудников от 251 до 500 человек


0 штук


numeric
large_company Компаний с численностью сотрудников более 500 человек


0 штук


numeric

Известные ограничения данных

Полнота данных

  • Размещаемые на портале актуальные данные о вакансиях, резюме, откликах, приглашениях и организациях работодателей, как правило, не содержат записи, ушедшие в архив, например, неактивные резюме и вакансии, а также ликвидированные организации. Тем не менее часть архивных данных доступна из предыдущих версий наборов. Для охвата максимальной полноты данных в датасет были загружены, среди прочего, архивные наборы. Данные об откликах и приглашениях были загружены с самой первой доступной даты, то есть с 16.08.2020. Данные о вакансиях, резюме и организациях загружены с 01.01.2018 в связи с существенным отличием структуры архивных наборов, доступных за более ранние периоды. Шаг архивной загрузки составлял 7—10 дней в зависимости от частоты и регулярности выгрузки наборов на ftp сервер портала.
  • Выявленные пропущенные значения в переменных «date_сreation» и «date_modify_inner_info» связаны с отсутствием/неиспользованием данных полей до октября 2017 г.

Описание проведенных проверок и их результатов

Для атрибутов осуществлялись проверки на реалистичность представленных значений.

  • Атрибут «id_candidate» представляет собой идентификатор соискателя (у одного соискателя может быть несколько резюме для разных желаемых должностей) и в некоторых случаях соответствует нескольким сотням различных резюме.
  • Атрибут «position_name» — желаемая должность — заполняется свободно. Встречаются записи, включающие историю трудовой деятельности, либо краткое резюме. Более частые случаи — список желаемых должностей через запятую или другой знак препинания или пробел. Кроме орфографических ошибок в названиях профессий встречаются русские наименования, набранные в английской раскладке.
  • Атрибуты «salary» (поле для свободного заполнения цифрами со стороны соискателя), «base_salary_min», «base_salary_max», «retraining_grant_value», «premium_size», кроме указания полной суммы в рублях, имеют значения заработной платы в виде 1-, 2-, 3-значных цифр , которые представляют собой указание в тысячах рублей.
  • 5 наиболее частых значений желаемой зарплаты (20 000, 30 000, 25 000, 15 000, 40 000) охватывают более 60% всех значений. Двузначные вводы, по всей видимости, представляют собой указание в тысячах рублей. Среди однозначных доминирует значение «1», все семизначные — «1 000 000».
  • Атрибуты «date_сreation» и «date_publish» соотносятся следующим образом: в большинстве случаев «date_сreation» раньше «date_publish», либо они совпадают, но встречаются ошибочные (<5%) случаи, когда «date_сreation» позднее «date_publish».
  • Атрибуты «date_from» и «date_to» таблицы workexp.csv содержат ошибки ручного ввода — нереалистичные значения, встречаются ситуации, когда дата окончания раньше даты начала трудовой деятельности, либо они полностью совпадают.

Внесенные в набор данных изменения по сравнению с источниками

  • Текстовые поля со свободным вводом исходных данных имели в виде артефактов html-теги, которые при обработке были удалены. Дополнительно были унифицированы очевидно схожие значения текстовых полей, например: обозначение факта отсутствия какого-либо навыка, документа и пр. (варианты написания слова «нет», «отсутствует» и т.д.); обозначения факта наличия военного билета (варианты написания: «военный билет», «ВОЕННЫЙ билет» и т.д.) В некоторых случаях в исходном тексте отсутствуют пробелы между словами, пробелы были восстановлены. Пустые строки, содержащие только один символ либо последовательность знаков препинания, цифр и пробелов, были заменены на NULL.
  • В исходных данных атрибутов, связанных с датами («birthday», «experience», «date_to», «date_from», «graduate_year»), встречаются нереалистичные значения. Были созданы атрибуты («birthday_mistake», «experience_mistake», «date_mistake», «grad_year_mistake»), указывающие на вероятную ошибку в значении соответствующего атрибута.
  • В атрибутах «date_change_inner_info», «date_posted», «date_publish», «date_change_inner_info», где указываются дата и время, было произведено разделение на переменные date_ и time_, оригинальные переменные оставлены без изменения с приставкой date_time_ в названиях.
  • Записи из таблиц об откликах, приглашениях и организациях содержат дополнительную переменную «date_last_updated» — дата первой публикации записи в открытых данных (ftp). Формат YYYY-MM-DD. Таким образом, можно отслеживать, когда сущность впервые появилась в наборе данных.
  • Записи из таблиц о резюме и вакансиях имеют большой список переменных свободного ввода и содержат несколько дополнительных переменных «date_last_updated» — дата первой публикации записи в открытых данных (ftp), «inactive» — статус инактивациии, принимает значение «1», если запись в архиве или существует более новая версия записи, «date_inactivation» — дата изменения переменной inactive. Таким образом, можно не только увидеть дату первого появления вакансии или резюме в наборе данных, но и все архивные версии, начиная с 2018 г.
  • Исходный атрибут «social_protecteds_social_protected», представлявший категории социальной защиты в разных сочетаниях, передаваемые списком: «Инвалиды», «Лица, освобождаемые из мест лишения свободы», «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет», «Многодетные семьи», «Несовершеннолетние работники», «Работники, имеющие детей-инвалидов», «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением», был преобразован в отдельные атрибуты («disabled», «released_persons», «single_parent», «large_families», «minor_workers», «workers_with_disabled_children», «caring_workers») по каждой категории со значением 1 в случае соответствия и 0 — при отсутствии данной категории.
  • Исходный атрибут «job_benefits», представлявший преимущества вакансии в разных сочетаниях, передаваемые списком: «Оплата занятий спортом», «Путевки в оздоровительные учреждения», «Оплата питания», «ДМС», был преобразован в отдельные атрибуты («payment_sports_activities», «vouchers_health_institutions», «payment_meals», «dms») по каждой категории со значением 1 в случае соответствия и 0 — при отсутствии данной категории.
  • Для атрибута «company_name» все случаи заполнения одним символом, знаками препинания, пробелами или цифрами заменены на пустую строку. Три нуля в начале названия «000» были заменены на «ООО».
  • Атрибуты «course_name» и «legal_name». В случаях когда соискатель оставил поля незаполненными, значения были изменены на «Название курса не было указано» и «Название организации не было указано» соответственно.
  • Были очищены излишне детализованные данные, которые пользователь оставил в не подходящих для этого полях. В таких случаях они были заменены на REDACTED.
  • Были произведены и другие изменения.

Источники данных

Атрибут Значение
Полное наименование источника данных Портал по поиску работы и сотрудников ИАС ОБВ «Работа России»
Сокращенное наименование источника данных «Работа России»
Владелец источника данных Федеральная служба по труду и занятости (Роструд)
Краткое описание источника данных Портал «Работа России» — это федеральная государственная информационная система, оператором которой выступает Роструд. На портале размещаются вакансии от российских работодателей и резюме от российских граждан. Основное наполнение базы резюме портала происходит за счет регистрации граждан, которым оказывается государственная услуга по содействию занятости в центрах занятости населения (ЦЗН).

Портал регулярно публикует обновляемые датасеты о вакансиях, резюме, откликах и приглашениях в разделе «Открытые данные». Данные публикуются в формате XML и могут содержать лишние символы, ошибки, описки и другие недостатки, что является следствием как ручного ввода сведений со стороны работодателей и соискателей, так и недостаточных процедур очистки и предобработки публикуемых открытых данных. Данные на портале «Работа России» доступны по API.
Ссылка на источник данных https://trudvsem.ru/opendata/datasets
Перечень используемых классификаторов Общероссийский классификатор профессий рабочих, должностей служащих и тарифных разрядов ОК 016-94
Понятия, используемые в источнике Отсутствуют
Методология и изменения методологии для источника данных Детальный порядок сбора информации описан в Постановлении Правительства РФ от 25.08.2015 № 885 «Об информационно-аналитической системе Общероссийская база вакансий «Работа в России»
Ссылки на методологию http://government.ru/docs/19388/

Ответственные за набор данных

ФИО ответственного лица Электронная почта ответственного лица
1. Бабушкина Валерия Олеговна v.babushkina@data.rcsi.science
2. Тимошенко Анна Шоновна a.timoshenko@data.rcsi.science