Вакансии, резюме, отклики и приглашения портала «Работа России» за 2018—2021 годы
История изменений
Дата | Версия | Автор | Описание изменений |
---|---|---|---|
02.12.2021 | 1.0 | Бабушкина Валерия Олеговна | Документ создан |
Тимошенко Анна Шоновна |
Общая информация о датасете
Архивные и актуальные сведения о резюме, вакансиях, откликах соискателей и приглашениях на собеседование, размещенные на портале Роструда «Работа России». Сведения публикуются в разделе «Открытые данные» в формате многоуровневых структур XML. В ходе подготовки этого датасета данные были объединены в совокупность связанных плоских таблиц и предобработаны.
Единица наблюдения в датасете (строка): резюме соискателя, вакансия от работодателя или действия с вакансией (отклики, приглашения). Для резюме и вакансий приводится несколько версий в случае, если соискатели или работодатели вносили в них значимые изменения.
Для резюме доступны атрибуты: пол, дата рождения, образование, желаемая должность и зарплата, опыт работы и регион заявителя, а также сведения о различных статусах при публикации и обновлении резюме и т.д. Часть атрибутов сгруппированы в отдельных таблицах по принципу one-to-many (эти атрибуты могут соответствовать нескольким резюме). Для вакансий доступны атрибуты: сведения о работодателе, должность, обязанности, предлагаемая зарплата, требуемое образование, опыт работы, а также сведения о датах и связанных с ними статусах при публикации и обновлении вакансии и т.д.
Датасет состоит из 13 плоских связанных таблиц и охватывает все резюме и вакансии, публикуемые на портале с 01.01.2018 по 30.10.2021. Всего набор содержит около 20 млн наблюдений по более чем 100 атрибутам.
Набор размещен в открытом режиме доступа в формате CSV (кодировка: «UTF-8», разделитель: «;»).
Общее описание набора данных
Атрибут | Значение |
---|---|
Общие сведения | |
Полное наименование набора данных | «Работа в России»: объединенные и обновляемые сведения о вакансиях, резюме, откликах и приглашениях портала trudvsem.ru |
Сокращенное наименование набора данных | Вакансии, резюме, отклики и приглашения портала «Работа России» за 2018—2021 годы |
Краткое описание набора данных | Архивные и актуальные сведения о резюме, вакансиях, откликах соискателей и приглашениях на собеседование со стороны работодателей, размещенные на портале Роструда «Работа России». Сведения публикуются на портале в разделе «Открытые данные» в формате многоуровневых таблиц XML. В ходе подготовки этого датасета данные были объединены в совокупность связанных плоских таблиц и дополнительно предобработаны. Единица наблюдения в датасете (строка): резюме соискателя, вакансия от работодателя или действия с вакансией (отклики, приглашения). Для резюме доступны атрибуты: пол, дата рождения, уровень образования, желаемая должность и заработная плата, опыт работы и регион заявителя, а также сведения о различных статусах при публикации и обновлении резюме и т.д. Часть атрибутов сгруппированы в отдельных таблицах по принципу one-to-many (так как эти атрибуты могут соответствовать нескольким резюме). Для вакансий доступны атрибуты: сведения об организации-работодателе, должность, описание обязанностей, предлагаемая зарплата, требуемый уровень образования, опыт работы, а также сведения о датах и связанных с ними статусах при публикации и обновлении вакансии и т.д. Датасет состоит из 13 плоских связанных между собой таблиц и охватывает все резюме и вакансии, публикуемые на портале с 01.01.2018 (или ранее) до 30.10.2021. Всего набор содержит около 20 млн наблюдений по более чем 100 атрибутам |
Краткое описание источника набора данных | Портал «Работа России» — это федеральная государственная информационная система Роструда. Портал регулярно публикует обновляемые датасеты о вакансиях, резюме, откликах и приглашениях в разделе «Открытые данные». Данные публикуются в формате XML и могут содержать лишние символы, ошибки, описки и другие недостатки, что является следствием как ручного ввода сведений со стороны работодателей и соискателей, так и недостаточных процедур очистки и предобработки публикуемых открытых данных |
Покрываемый временной период | 01.01.2018 — 30.10.2021 |
Доступные форматы | CSV (кодировка: «UTF-8», разделитель: «;») |
Размер набора данных | 43,0 ГБ |
Тематика набора данных | Рынок труда и занятость |
Режим доступа | Открытый (у вас есть возможность работать с данными на своем личном ПК, в том числе скачивать данные) |
Периодичность публикации и обновления | |
Дата размещения в каталоге | 02.12.2021 |
Периодичность обновления в каталоге | Ежеквартально |
Дата последнего обновления набора данных в каталоге | Отсутствует |
Характер последнего обновления |
|
Дата следующего обновления набора данных | Не установлена |
Дополнительные сведения | |
Цитирование набора данных на русском языке | «Работа в России»: обработанные и объединенные сведения о вакансиях, резюме, откликах и приглашениях портала trudvsem.ru // Роструд; обработка: Бабушкина В.О., Тимошенко А.Ш., Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: Лицензия CC BY-SA. Размещено: 02.12.2021. URL: https://data.rcsi.science/data-catalog/datasets/186/ |
For references (English) | «Work in Russia»: combined data on vacancies, CVs, responses and invitations from the trudvsem.ru // Rostrud; data-processing: Babushkina V., Timoshenko A., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 02.12.2021. URL: https://data.rcsi.science/data-catalog/datasets/186/ |
Ссылка на открытый репозиторий | Отсутствует |
Лицензия, под которой публикуется набор данных | СС BY-SA (Creative Commons) https://creativecommons.org/licenses/by-sa/4.0/ Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии — CC BY-SA |
Стандарт публикации | http://opendata.gosmonitor.ru/standard/3.0 |
Параметры запросов API | Интеграция через API не предусмотрена |
Структура набора данных (Codebook)
Набор данных состоит из 13 плоских таблиц (7 основных и 6 дополнительных), связанных между собой по различным атрибутам. Формат данных во всех таблицах: CSV (кодировка: «UTF-8», разделитель: «;»). Схема связи таблиц приведена ниже.
В датасет входят следующие таблицы:
- Резюме по субъектам РФ (curricula_vitae.csv) — основная таблица; содержит 62 атрибута, 10 580 887 наблюдений;
- Опыт работы, указанный в резюме (workexp.csv), — основная таблица; содержит 10 атрибутов, 12 166 888 наблюдений;
- Сведения об образовании, указанные в резюме (edu.csv), — основная таблица; содержит 8 атрибутов, 4 540 219 наблюдений;
- Дополнительное образование, указанное в резюме (addedu.csv), — основная таблица; содержит 7 атрибутов, 1 304 805 наблюдений;
- Вакансии по субъектам РФ (vacancies.csv), — основная таблица; содержит 85 атрибутов, 13 282 732 наблюдения;
- Отклики соискателей на вакансии (responses.csv), — основная таблица; содержит 16 атрибутов, 1 820 667 наблюдений;
- Приглашения на собеседование, отправленные работодателями (invitations.csv), — основная таблица; содержит 15 атрибутов, 7 889 720 наблюдений;
- Организации работодателей, размещающих вакансии на портале (organizations.csv), — дополнительная таблица; содержит 48 атрибутов, 914 287 наблюдения;
- Субъекты РФ и основная аналитическая информация о них (regions.csv) — дополнительная таблица; содержит 9 атрибутов, 86 наблюдений;
- Справочник сфер деятельности (industries.csv) — дополнительная таблица; содержит 8 атрибутов, 34 наблюдения;
- Справочник специальностей (professions.csv) — дополнительная таблица; содержит 10 атрибутов, 8 038 наблюдений;
- Аналитические данные по гражданам на портале (stat_citizens.csv) — дополнительная таблица; содержит 5 атрибутов, 90 наблюдений;
- Аналитические данные по работодателям на портале (stat_company.csv) — дополнительная таблица; содержит 8 атрибутов, 87 наблюдений.
Резюме по субъектам РФ (curricula_vitae.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) шт/% |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
id_candidate | Идентификатор соискателя | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations | 0 |
|
|
string |
id_cv | Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 0 |
|
|
string |
industry_code | Сфера деятельности | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae |
|
|
|
string |
profession_code | Профессия по Общероссийскому классификатору профессий рабочих, должностей служащих и тарифных разрядов (ОКПДТР) | Расшифровка кодов содержится во вспомогательной таблице professons. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae. Заполнение поля соискателем необязательно |
0 |
|
|
numeric |
region_code | Код субъекта РФ | Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 490 |
|
|
numeric |
abilympics_participation | Участие в движении «Абилимпикс» |
Принимает значения:
Заполнение поля соискателем необязательно |
0 |
|
|
boolean |
abilympics_status | Подтверждено участие в движении «Абилимпикс» | «Данные подтверждены» | 0 |
|
|
string |
add_certificates | Иные сертификаты, удостоверения, достижения, звание, чин | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений. Заполнение поля соискателем необязательно |
0 |
|
|
string |
add_certificates_modified | Иные сертификаты, удостоверения, достижения, звание, чин | Атрибут добавлен при обработке данных. Аналогично add_certificates, но с учетом обработки данных: унифицированы некоторые значения: варианты «Нет», «Не имею», «Нет сертификатов», «Отсутствуют» и др. приведены к «нет». Заполнение поля соискателем необязательно |
0 |
|
|
string |
additional_skills | Личные навыки | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений. Заполнение поля соискателем необязательно |
0 |
|
|
string |
birthday | Год рождения соискателя | YYYY | 0 |
|
|
numeric |
birthday_mistake | Отметка об ошибке в годе рождения |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
business_trips | Готовность к командировкам |
Принимает значения:
|
0 |
|
|
boolean |
busy_type | Тип занятости | Принимает значения:
Заполнение поля обязательно |
0 |
|
|
string |
country | Гражданство | Принимает значения:
Заполнение поля обязательно |
0 |
|
|
string |
date_сreation | Дата создания резюме | Формат: YYYY-MM-DD | 0 |
|
|
date |
date_inactivation | Дата, начиная с которой эта версия резюме отсутствует в наборе открытых данных портала |
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD |
0 |
|
|
date |
date_last_updated | Дата первой публикации этой версии резюме в открытых данных портала |
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD |
0 |
|
|
date |
date_modify _inner_info | Дата последнего изменения резюме на портале | Формат: YYYY-MM-DD | 0 |
|
|
date |
date_publish | Дата публикации резюме на портале | Формат: YYYY-MM-DD | 0 |
|
|
date |
date_time_publish | Дата и время публикации резюме на портале | Формат YYYY-MM-DD HH-MM-SS | 0 |
|
|
timestamp |
drive_licences | Уровень лицензии водительских прав, представлен в виде списка перечисленных категорий водительских прав |
Далее представлен one-hot переменными:
|
0 |
|
|
string |
driver_licence_A | Наличие водительских прав категории А |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
driver_licence_B | Наличие водительских прав категории B |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
driver_licence_C | Наличие водительских прав категории C |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
driver_licence_D | Наличие водительских прав категории D |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
driver_licence_E | Наличие водительских прав категории E |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
education_type | Тип полученного образования соискателем |
Принимает значения:
Заполнение поля соискателем необязательно |
0 |
|
|
string |
experience | Опыт работы соискателя |
Количество лет. Например: 0, 10, 15. Заполнение поля соискателем необязательно |
0 |
|
|
numeric |
experience_mistake | Нереалистичное значение атрибута «Опыт работы соискателя» | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
gender | Пол | Принимает значения:
|
|
|
|
string |
inactive | Статус инактивации | Принимает значения:
|
0 |
|
|
boolean |
inner_info_deleted | Отметка удаления резюме | Принимает значения:
|
0 |
|
|
boolean |
inner_info_fullness_rate | Процент заполненности резюме | В процентах (%) от 0 до 100 |
|
|
|
numeric |
id_user_inner_info | Внутренний идентификатор пользователя сервиса: модератора (сотрудника СЗН/ЦЗН) |
|
5450 (~0%) |
|
|
string |
inner_info_status | Статус резюме на портале | Принимает значения:
|
0 |
|
|
string |
inner_info_visibility |
Видимость резюме |
Принимает значение:
|
0 |
|
|
boolean |
locality | Код КЛАДР | Классификатор адресов РФ — 13 (точность до населенного пункта) или 17 цифр (точность до улицы) | 961 (~0%) |
|
|
numeric |
nark_certificate | Наличие свидетельства о независимой оценке квалификации | Принимает значение:
Заполнение поля соискателем необязательно |
0 |
|
|
boolean |
nark_inspection_status | Данные о наличии свидетельства о независимой оценке квалификации подтверждены | Принимает значение:
|
0 |
|
|
boolean |
other_info | Иная информация о соискателе | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений. Заполнение поля соискателем необязательно |
0 |
|
|
string |
other_info_modified | Иная информация о соискателе |
Атрибут добавлен при создании датасета. Аналогично other_info_modified, но с учетом обработки данных унифицированы некоторые значения: «Нет», «Без вредных привычек», «Не курю», удалены html-теги и т.д. Заполнение поля соискателем необязательно |
0 |
|
|
string |
position_name | Желаемая должность |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля обязательно |
13 |
|
|
string |
relocation | Готовность к переезду |
Принимает значения:
Заполнение поля соискателем необязательно |
0 |
|
|
boolean |
retraining_capability | Готовность к переобучению | Принимает значения:
Заполнение поля соискателем необязательно |
0 |
|
|
boolean |
salary | Желаемая зарплата | Указывается в рублях. Заполнение поля обязательно |
0 |
|
|
numeric |
schedule_type | Желаемый график работы. Представлен в виде списка перечисленных типов графиков работы: вахтовый метод; гибкий график; ненормированный рабочий день; неполный рабочий день; полный рабочий день; сменный график |
Далее представлен one-hot переменными:
|
0 |
|
|
string |
schedule_type_1 | Желаемый график работы: вахтовый метод | Принимает значения:
|
0 |
|
|
boolean |
schedule_type_2 | Желаемый график работы: гибкий график |
Принимает значения:
|
0 |
|
|
boolean |
schedule_type_3 | Желаемый график работы: ненормированный рабочий день | Принимает значения:
|
0 |
|
|
boolean |
schedule_type_4 | Желаемый график работы: неполный рабочий день | Принимает значения:
|
0 |
|
|
boolean |
schedule_type_5 | Желаемый график работы: полный рабочий день | Принимает значения:
|
0 |
|
|
boolean |
schedule_type_6 | Желаемый график работы: сменный график |
Принимает значения:
|
0 |
|
|
boolean |
skills | Профессиональные качества | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
|
|
|
string |
time_publish | Время публикации резюме на портале | Формат HH-MM-SS | 0 |
|
|
time |
worldskills_international_name | Наименование компетенции Worldskills на английском языке | Заполнение поля соискателем необязательно | 0 |
|
|
string |
worldskills_is_international | Отметка о статусе международной компетенции WorldSkills International (WSI) | Принимает значения:
|
0 |
|
|
boolean |
worldskills_russian_name | Наименование компетенции Worldskills на русском языке |
Заполнение поля соискателем необязательно | 0 |
|
|
string |
worldskills_skill_abbreviation | Код навыка компетенции Worldskills | Перечень компетенций WorldSkills (pdf) | 0 |
|
|
string |
worldskills_type | Статус участия | Принимает значение:
|
0 |
|
|
boolean |
worldskills_inspection_status | Статус проверки наличия конкретной квалификации Worldskills |
Принимает значения:
|
63 (~0%) |
|
|
string |
worldskills_inspection_status_code | Код статуса проверки наличия квалификации Worldskills |
Принимает значения:
|
0 |
|
|
string |
Опыт работы, указанный в резюме (workexp.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
id_cv | Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 0 |
|
|
string |
achievements | Достижения | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
achievements_modified | Достижения |
Атрибут добавлен при обработке данных. Аналогично атрибуту achievements. Дополнительно унифицированы некоторые значения: «Нет». Заполнение поля соискателем необязательно |
0 |
|
|
string |
company_name | Название организации | Текст в свободной форме. Заполнение поля соискателем необязательно |
0 |
|
|
string |
date_from | Дата начала работы |
Формат YYYY-MM-DD | 0 |
|
|
date |
date_last_updated | Дата первой публикации этой версии записи об опыте работы в открытых данных портала «Работа России» |
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD | 0 |
|
|
date |
date_to | Дата окончания работы |
Формат YYYY-MM-DD | 0 |
|
|
date |
date_mistake | Отметка об ошибке в датах | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
demands | Должностные обязанности | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
job_title | Название должности | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
Сведения об образовании, указанные в резюме (edu.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
id_cv |
Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 0 |
|
|
string |
date_last_updated | Дата первой публикации этой версии записи о полученном образовании в открытых данных портала «Работа России» |
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD | 0 |
|
|
date |
faculty | Название факультета | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
graduate_year | Год окончания обучения |
|
0 |
|
|
numeric |
grad_year_mistake | Ошибки в датах атрибута «graduate_year»: ранее 70 лет назад и позже 4 лет вперед от даты обработки атрибута |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
legal_name |
Юридическое название учебного заведения | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
qualification | Квалификация | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
speciality | Специальность | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
Дополнительное образование, указанное в резюме (add_edu.csv)
Атрибут | Описание | Пояснение | Количествопропусков (NaN) | Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
id_cv |
Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 0 |
|
|
string |
course_name | Название курса |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
date_last_updated | Дата первой публикации этой версии записи о дополнительном образовании в открытых данных портала «Работа России» |
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD | 0 |
|
|
date |
legal_name |
Юридическое название учебного заведения | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
graduate_year | Год выпуска |
|
0 |
|
|
numeric |
grad_year_mistake | Ошибки в датах атрибута «graduate_year»: ранее 70 лет назад и позже 4 лет вперед от даты обработки атрибута |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
description | Описание обучения | Атрибут добавлен при создании датасета. В случаях когда в атрибуты «course_name» и «legal_name» были внесены развернутые описания полученного дополнительного образования (длиной > 200 символов), эти описания были перенесены в атрибут «description» и заменены на пробел в исходном атрибуте | 0 |
|
|
string |
Вакансии по субъектам РФ (vacancies.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
id_hiring_organization | Идентификатор нанимающей организации. Совпадает с атрибутом organization | Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations | 0 |
|
|
string |
identifier | Идентификатор вакансии | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 0 |
|
|
string |
industry | Сфера деятельности вакансии в соответствии со справочником сфер деятельности | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae | 0 |
|
|
string |
organization | Код идентификатор организации. Совпадает с id_hiring_organization | Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations | 0 |
|
|
numeric |
profession |
Профессия по Общероссийскому классификатору профессий рабочих, должностей служащих и тарифных разрядов (ОКПДТР) | Расшифровка кодов содержится во вспомогательной таблице professons. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae | 0 |
|
|
numeric |
region | Код субъекта РФ | Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae | 0 |
|
|
string |
accommodation_capability | Жилищные условия | Принимает значения:
Заполнение поля необязательно |
0 |
|
|
boolean |
accommodation_housing |
Тип предлагаемого жилья | Принимает значения:
Заполнение поля необязательно |
0 |
|
|
string |
additional_info |
Дополнительная информация по требованиям к кандидату | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
base_salary |
Предлагаемая заработная плата | Заполняется текстом в формате: «от ...», «от ... до ...», «до ...». Заполнение поля необязательно |
0 |
|
|
string |
base_salary_min |
Минимальная предлагаемая заработная плата |
|
0 |
|
|
numeric |
base_salary_max |
Максимальная предлагаемая заработная плата |
|
0 |
|
|
numeric |
career_perspective |
Перспективы карьерного роста |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
caring_workers | Социальная категория граждан «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением» | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
date_change_inner_info |
Дата изменения вакансии |
Устаревший к 01.12.2021 атрибут. Может дублировать date_modify_inner_info 2015—2021 гг. Формат YYYY-MM-DD |
584 441 (92%) |
|
|
date |
date_change_inner_info_mistake | Ошибки в датах атрибута date_change_inner_info (ошибка unix time) | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
date_creation | Дата создания вакансии | 2015—2021 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
date_inactivation | Дата, начиная с которой эта версия вакансии отсутствует в наборе открытых данных портала |
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD | 0 |
|
|
date |
date_last_updated | Дата первой публикации этой версии записи в открытых данных портала |
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD | 0 |
|
|
date |
date_modify_inner_info | Дата последнего изменения вакансии | Доступно за 2021 г. Формат YYYY-MM-DD | 0 |
|
|
date |
date_modify_inner_info_mistake | Ошибки в датах атрибута date_modify_inner_info (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
date_posted | Дата публикации вакансии | Доступно за 2021 г. Формат YYYY-MM-DD | 0 |
|
|
date |
date_posted_mistake | Ошибки в датах атрибута date_posted (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
date_time_change_inner_info | Дата и время изменения вакансии | Доступно за 2015—2021 гг. Формат YYYY-MM-DD HH-MM-SS | 0 |
|
|
timestamp |
date_time_posted | Дата и время создания вакансии | Доступно за 2015—2021 гг. | 584 441 (92%) |
|
|
timestamp |
disabled | Социальная категория граждан «Инвалиды» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
dms | Преимущества вакансии «ДМС» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
drive_licences | Уровень лицензии водительских прав, представлен в виде списка перечисляемых категорий водительских прав |
Далее представлен one-hot переменными:
|
0 |
|
|
string |
driver_licence_A | Водительские права категории «А» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
driver_licence_B | Водительские права категории «B» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
driver_licence_C | Водительские права категории «C» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
driver_licence_D | Водительские права категории «D» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
driver_licence_E | Водительские права категории «E» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
education_academic_degree | Требуемая академическая степень | Принимает значения:
|
0 |
|
|
string |
education_requirements_education_type | Требуемый уровень образования | Принимает значения:
|
0 |
|
|
string |
education_requirements_speciality | Требуемая образовательная специальность | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
employment_type | Тип занятости | Принимает значения:
|
0 |
|
|
string |
experience_requirements | Требуемый опыт работы (количество лет) |
Количество лет. Например: 0, 1, 5. Заполнение поля необязательно |
0 |
|
|
string |
federal_district | Номер федерального округа |
Принимает значения от 1 до 9 | 0 |
|
|
string |
inactive | Статус инактивации |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
incentive_compensation_ transport_compensation |
Транспортная компенсация | Принимает значения:
|
0 |
|
|
string |
inner_info_contact_source | Источник контакта вакансии | Принимает значения:
|
0 |
|
|
string |
inner_info_deleted | Отметка удаления вакансии |
Принимает значения:
|
0 |
|
|
boolean |
inner_info_metro_ids | Идентификатор станции метро, представлен в виде списка перечисляемых идентификаторов станций метрополитена | Сгенерирован в исходных данных. Пример: [e182b311-81cf-11e4-a6da-9be8de68eaf1, e183766c-81cf-11e4-a6da-9be8de68eaf1]. Заполнение поля необязательно |
0 |
|
|
string |
inner_info_source_type |
Тип источника вакансии | Принимает значения:
|
0 |
|
|
string |
inner_info_status |
Статус размещения вакансии | Принимает значения:
|
0 |
|
|
string |
inner_info_visibility | Видимость вакансии. Принимает значения: «Видно всем» | Принимает значения:
|
0 |
|
|
boolean |
is_uzbekistan_recruitment |
Отметка вакансии для граждан Узбекистана |
Принимает значения:
|
0 |
|
|
boolean |
job_benefits |
Преимущества вакансии. Атрибут принимает значения, передаваемые списком: «Оплата занятий спортом», «Путевки в оздоровительные учреждения», «Оплата питания», «ДМС» |
Далее представлен one-hot переменными: payment_sports_activities: «Оплата занятий спортом», vouchers_health_institutions: «Путевки в оздоровительные учреждения», payment_meals: «Оплата питания», dms: «ДМС». Заполнение поля необязательно |
0 |
|
|
string |
job_benefits_other_benefits | Дополнительные преимущества | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
job_location_additional_address_info | Дополнительные данные адреса работодателя | Заполнение поля необязательно | 0 |
|
|
string |
job_location_address | Адрес работодателя (индекс, регион, область, населенный пункт, улица, дом, помещение и т.д.) | Может содержать только часть адреса, например «352900, г. Армавир, д. 125» или «Набережная 1-го Мая» | 0 |
|
|
string |
job_location_geo_longitude | Координаты долготы |
|
0 |
|
|
string |
job_location_geo_latitude | Координаты широты |
|
0 |
|
|
string |
large_families | Социальная категория граждан «Многодетные семьи» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
metro_station |
Станция метро, атрибут представлен в виде строки перечисляемых названий станций метрополитена | Заполнение поля необязательно | 0 |
|
|
string |
minor_workers | Социальная категория граждан «Несовершеннолетние работники» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
need_medcard |
Требование наличия медицинской книжки | Принимает значения:
|
0 |
|
|
boolean |
okso_code |
Код по Общероссийскому классификатору специальностей по образованию: https://classifikators.ru/okso | Заполнение поля необязательно | 0 |
|
|
numeric |
payment_meals |
Преимущества вакансии «Оплата питания» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
payment_sports_activities |
Преимущества вакансии «Оплата занятий спортом» | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
premium_size | Размер премирования |
|
0 |
|
|
numeric |
premium_type |
|
Принимает значения:
|
0 |
|
|
string |
released_persons | Социальная категория граждан «Лица; освобождаемые из мест лишения свободы» | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
requirements_id_priority_category |
Указатель на приоритетную категорию | Принимает значение:
|
0 |
|
|
string |
requirements_qualifications |
Требуемая квалификация |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
requirements_required_certificates |
Требуемые сертификаты |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
responsibilities |
Должностные обязанности |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
retraining_capability | Наличие готовности к переобучению | Принимает значения:
|
0 |
|
|
boolean |
retraining_condition | Предоставляемое обучение |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
retraining_grant |
Наличие стипендии | Принимает значения:
|
0 |
|
|
boolean |
retraining_grant_value | Размер гранта на переобучение |
|
0 |
|
|
numeric |
single_parent | Социальная категория граждан «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет» | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
social_protecteds_social_protected |
Категории социальной защиты. Арибут принимает значения, передаваемые списком (см. в колонке справа) |
Далее представлен one-hot переменными: disabled — «Инвалиды»; released_persons — «Лица, освобождаемые из мест лишения свободы»; single_parent — «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет»; large_families — «Многодетные семьи»; minor_workers — «Несовершеннолетние работники»; workers_with_disabled_children — «Работники, имеющие детей-инвалидов»; caring_workers — «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением» |
0 |
|
|
string |
source |
Источник вакансии | Принимает значения:
|
0 |
|
|
string |
time_change_inner_info | Время изменения сущности в наборе | Формат HH-MM-SS | 584 441 (92%) |
|
|
time |
time_posted | Время публикации вакансии | Формат HH-MM-SS | 0 |
|
|
time |
title | Наименование вакансии | Текст в свободной форме. Заполнение поля необязательно |
0 |
|
|
string |
vac_url |
URL-адрес вакансии на сайте trudvsem.ru |
|
0 |
|
|
string |
vouchers_health_institutions |
Преимущества вакансии «Путевки в оздоровительные учреждения» | Принимает значения:
|
0 |
|
|
boolean |
work_hours |
График работы | Принимает значения:
|
0 |
|
|
string |
work_places | Количество рабочих мест |
|
0 |
|
|
numeric |
workers_with_disabled_children | Социальная категория граждан «Работники, имеющие детей-инвалидов» | Принимает значения:
|
0 |
|
|
boolean |
Отклики соискателей на вакансии (responses.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) | Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
id_candidate | Идентификатор кандидата | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations | 0 |
|
|
string |
id_cv | Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 0 |
|
|
string |
id_hiring_organization | Идентификатор нанимающей организации | Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations | 0 |
|
|
string |
id_vacancy | Идентификатор вакансии | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 42 (~0%) |
|
|
string |
region_code |
Код субъекта РФ | Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 0 |
|
|
string |
activity_flag_candidate | Отметка кандидата. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве |
Принимает значения:
|
0 |
|
|
boolean |
activity_flag_manager | Отметка менеджера. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве |
Принимает значения:
|
0 |
|
|
boolean |
date_creation | Дата создания отклика | Доступно за период: 2015—2021 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
date_last_updated | Дата первой публикации этой версии вакансии в открытых данных портала | Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD | 0 |
|
|
date |
date_modify | Дата изменения отклика | Доступно за период: 2016—2021 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
date_modify_mistake | Ошибки в датах атрибута date_modify (ошибка unix time) | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
is_new | Признак нового отклика | Принимает значения:
|
0 |
|
|
boolean |
id_reply | Идентификатор ответа | Заполнение поля необязательно | 0 |
|
|
string |
id_response |
Идентификатор отклика |
|
0 |
|
|
|
response_type | Приглашение |
Принимает значения:
Заполнение поля необязательно |
0 |
|
|
string |
Приглашения на собеседование, отправленные работодателями (invitations.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
id_candidate | Идентификатор соискателя | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations | 0 |
|
|
string |
id_cv | Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 102 (~0%) |
|
|
string |
id_hiring_organization | Идентификатор нанимающей организации | Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations | 0 |
|
|
string |
id_vacancy | Идентификатор вакансии | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 74 (~0%) |
|
|
string |
region_code | Код региона | Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 0 |
|
|
string |
activity_flag_candidate | Отметка кандидата. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве |
Принимает значения: 1 — активен; 0 — не активен |
0 |
|
|
boolean |
activity_flag_manager | Отметка менеджера. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве |
Принимает значения:
|
0 |
|
|
boolean |
date_creation | Дата создания | Формат YYYY-MM-DD | 0 |
|
|
date |
date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
date_last_updated | Дата первой публикации записи в открытых данных портала «Работа России» |
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD | 0 |
|
|
date |
date_modify | Дата изменения | Формат YYYY-MM-DD | 0 |
|
|
date |
date_modify_mistake | Ошибки в датах атрибута date_modify (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
id_reply | Идентификатор отклика |
|
|
|
|
string |
id_invitation | Идентификатор приглашения |
|
0 |
|
|
string |
response_type | Тип отклика
|
Принимает значения:
|
0 | string | ||
is_new | Признак нового отклика | Принимает значения:
|
0 |
|
|
boolean |
Организации работодателей, размещающих вакансии на портале (organizations.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
id_organizations |
Идентификатор организации | Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations | 0 |
|
|
string |
region_code |
Код субъекта РФ | Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 0 |
|
|
string |
address | Адрес работодателя (индекс, регион, область, населенный пункт, улица, дом, помещение и т.д.) | Может содержать только часть адреса, например «352900, г. Армавир, д. 125» или «Набережная 1-го Мая» | 0 |
|
|
string |
address_code |
Код КЛАДР | Классификатор адресов РФ — 13 (точность до населенного пункта) или 17 цифр (точность до улицы) | 0 |
|
|
string |
business_size | Размер организации в классификации | Принимает значения:
Заполнение поля необязательно |
0 |
|
|
string |
code_parent_company | Код родительской организации |
|
0 |
|
|
string |
company_structure_hidden | Скрывать структуру компании | Принимает значения:
|
0 |
|
|
boolean |
date_change_inner_info | Дата изменения сущности в наборе | Устаревший атрибут. Может дублировать date_modify_inner_info 1970, 2015—2021. Формат YYYY-MM-DD |
0 |
|
|
date |
date_change_inner_info_mistake | Ошибки в датах атрибута date_change_inner_info (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
date_time_change_inner_info | Дата и время изменения сущности в наборе | Формат YYYY-MM-DD HH-MM-SS | 0 |
|
|
timestamp |
time_change_inner_info | Время изменения сущности в наборе. | Формат HH-MM-SS | 0 |
|
|
time |
date_creation | Дата создания сущности в наборе | Доступно за период: 2015—2021 гг. Формат YYYY-MM-DD | 21 942 (2%) |
|
|
date |
date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
date_moderation_inner_info | Дата модерации сущности в наборе | Доступно за период: 2015—2021 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
date_moderation_inner_info_mistake | Ошибки в датах атрибута date_moderation_inner_info (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
date_modify_inner_info | Дата изменения сущности в наборе | Доступно за период 2015—2021 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
date_modify_inner_info_mistake | Ошибки в датах атрибута date_modify_inner_info (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
date_last_updated | Дата первой публикации этой версии записи в открытых данных портала |
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD | 0 |
|
|
date |
description |
Описание организации |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. | 0 |
|
|
string |
hr_agency | Кадровое агентство | Принимает значения:
|
0 |
|
|
boolean |
first_rate_company | Статус крупнейшей компании | Принимает значения:
|
0 |
|
|
boolean |
inn | Код ИНН |
|
0 |
|
|
string |
inner_info_deleted | Отметка удаления организации с портала | Принимает значения:
|
0 |
|
|
boolean |
inner_info_id_author | Идентификатор автора, создавшего аккаунт организации |
|
0 |
|
|
string |
inner_info_is_moderated | Статус модерации организации | Принимает значение:
|
0 |
|
|
boolean |
inner_info_manager_ids | Идентификатор менеджеров организации |
|
0 |
|
|
string |
inner_info_registration_status |
Статус регистрации | Принимает значения:
|
0 |
|
|
string |
inner_info_status |
Статус организации | Принимает значения:
|
0 |
|
|
string |
inner_info_disable_import_info | Запрет обновления описания компании при импорте | Принимает значения:
|
0 |
|
|
boolean |
inner_info_disable_import_vacancy |
Запрет импорта вакансий из ОБВ | Принимает значения:
|
0 |
|
|
boolean |
inner_info_disable_join_company |
Запрет на присоединение компаний | Принимает значения:
|
0 |
|
|
boolean |
inner_info_disable_join_manager |
Запрет на добавление менеджеров | Принимает значения:
|
0 |
|
|
boolean |
inner_info_code_external_system | Источник контакта | Принимает значения:
|
0 |
|
|
string |
inner_info_id_user | Код пользователя |
|
0 |
|
|
string |
inner_info_id_small_icon | Идентификатор изображения |
|
0 |
|
|
string |
inner_info_moderation_comment |
Комментарий модератора |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. | 0 |
|
|
string |
inner_info_state_program | Идентификатор государственной программы |
|
0 |
|
|
string |
inner_info_id_logo | Идентификатор изображения |
|
0 |
|
|
string |
inner_info_external_id | Внешний идентификатор |
|
0 |
|
|
string |
kpp | Код КПП |
|
0 |
|
|
string |
legal_form_code | Код ОКОПФ |
|
0 |
|
|
string |
legal_form_name | Наименование кода ОКОПФ |
|
0 |
|
|
string |
legal_name | Юридическое наименование организации |
|
0 |
|
|
string |
name | Наименование организации |
|
0 |
|
|
string |
ogrn | Код ОГРН |
|
0 |
|
|
string |
site | Сайт организации |
|
0 |
|
|
string |
source | Источник информации об организации | Принимает значения:
|
0 |
|
|
string |
state_program | Идентификатор государственной программы |
|
0 |
|
|
string |
Субъекты РФ и основная аналитическая информация о них (regions.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
region_code |
Код региона | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 0 |
|
|
string |
region_name | Наименование региона |
|
0 |
|
|
string |
accomodation_accessibility | Доступность жилья | Указано в рублях | 0 | руб. |
|
float |
attraction_region | Регионы, оказывающие поддержку при переезде | Принимает значения: 1 — да; 0 — нет |
0 |
|
|
numeric |
economic_growth | Темп экономического роста | Указано в % | 0 | % |
|
float |
kindergarten_accessibility | Доступность детских садов |
|
0 |
|
|
string |
medium_salary_difference | Средняя заработная плата | Указано в рублях | 0 | руб. |
|
float |
price_level | Уровень цен | Указано в рублях | 0 | руб. |
|
float |
unemployment_level | Уровень безработицы | Указано в % | 0 | % |
|
float |
Справочник сфер деятельности (industries.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
industry_code | Наименование сферы деятельности (на английском языке) | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae | 0 |
|
|
string |
active | Отметка активности |
Принимает значения: 1 — да; 0 — нет |
0 |
|
|
boolean |
date_creation | Дата создания сущности в наборе | Формат YYYY-MM-DD | 0 |
|
|
date |
date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет |
0 |
|
|
boolean |
date_modify | Дата изменения сущности в наборе | Формат YYYY-MM-DD | 0 |
|
|
date |
date_modify_mistake | Ошибки в датах атрибута date_modify (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет |
0 |
|
|
boolean |
deleted | Отметка удаления | Принимает значения: 1 — да; 0 — нет |
0 |
|
|
boolean |
industry_name | Наименование сферы деятельности (на русском языке) |
|
0 |
|
|
string |
Справочник специальностей (professions.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
profession_code | Профессия по ОКПДТР | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae | 0 |
|
|
string |
profession_name | Наименование специальности (на русском) |
|
0 |
|
|
string |
active | Отметка активности |
Принимает значения: 1 — активная ; 0 — неактивная |
0 |
|
|
boolean |
category |
Категория специальности по ОКПДТР |
|
574 (7%) |
|
|
string |
date_creation | Дата создания сущности в наборе | 1970, 2015—2019 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет |
0 |
|
|
boolean |
date_modify | Дата изменения сущности в наборе | 1970, 2015—2019 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
date_modify_mistake | Ошибки в датах атрибута date_modify (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет |
0 |
|
|
boolean |
deleted | Отметка удаления | Принимает значения: 1 — да; 0 — нет |
0 |
|
|
boolean |
etks | Тариф указан в соответствии со справочником ЕТКС | Заполнение поля необязательно | 2600 (32%) |
|
|
string |
Аналитические данные по гражданам на портале (stat_citizens.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) | Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
region_code | Код региона | Расшифровка кодов содержится во вспомогательной таблице regions | 0 |
|
|
string |
region_name | Наименование региона (на русском) |
|
0 |
|
|
string |
cvs_count | Количество резюме |
|
0 | штук |
|
numeric |
medium_salary | Средняя заработная плата |
|
0 | руб. |
|
float |
region_code_mistake | Ошибки в датах атрибута region_code (длина не 13 цифр) |
Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет |
0 |
|
|
boolean |
Аналитические данные по работодателям на портале (stat_companies.csv)
Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
---|---|---|---|---|---|---|
region_code | Код региона | Расшифровка кодов содержится во вспомогательной таблице regions | 0 |
|
|
string |
region_name | Наименование региона (на русском) |
|
0 |
|
|
string |
company_count | Компаний, разместивших вакансии (всего) |
|
0 | штук |
|
numeric |
micro_company | Компаний с численностью сотрудников менее 50 человек |
|
0 | штук |
|
numeric |
small_company | Компаний с численностью сотрудников от 51 до 100 человек |
|
0 | штук |
|
numeric |
midle_company | Компаний с численностью сотрудников от 101 до 250 человек |
|
0 | штук |
|
numeric |
big_company | Компаний с численностью сотрудников от 251 до 500 человек |
|
0 | штук |
|
numeric |
large_company | Компаний с численностью сотрудников более 500 человек |
|
0 | штук |
|
numeric |
Известные ограничения данных
Полнота данных
- Размещаемые на портале актуальные данные о вакансиях, резюме, откликах, приглашениях и организациях работодателей, как правило, не содержат записи, ушедшие в архив, например, неактивные резюме и вакансии, а также ликвидированные организации. Тем не менее часть архивных данных доступна из предыдущих версий наборов. Для охвата максимальной полноты данных в датасет были загружены, среди прочего, архивные наборы. Данные об откликах и приглашениях были загружены с самой первой доступной даты, то есть с 16.08.2020. Данные о вакансиях, резюме и организациях загружены с 01.01.2018 в связи с существенным отличием структуры архивных наборов, доступных за более ранние периоды. Шаг архивной загрузки составлял 7—10 дней в зависимости от частоты и регулярности выгрузки наборов на ftp сервер портала.
- Выявленные пропущенные значения в переменных «date_сreation» и «date_modify_inner_info» связаны с отсутствием/неиспользованием данных полей до октября 2017 г.
Описание проведенных проверок и их результатов
Для атрибутов осуществлялись проверки на реалистичность представленных значений.
- Атрибут «id_candidate» представляет собой идентификатор соискателя (у одного соискателя может быть несколько резюме для разных желаемых должностей) и в некоторых случаях соответствует нескольким сотням различных резюме.
- Атрибут «position_name» — желаемая должность — заполняется свободно. Встречаются записи, включающие историю трудовой деятельности, либо краткое резюме. Более частые случаи — список желаемых должностей через запятую или другой знак препинания или пробел. Кроме орфографических ошибок в названиях профессий встречаются русские наименования, набранные в английской раскладке.
- Атрибуты «salary» (поле для свободного заполнения цифрами со стороны соискателя), «base_salary_min», «base_salary_max», «retraining_grant_value», «premium_size», кроме указания полной суммы в рублях, имеют значения заработной платы в виде 1-, 2-, 3-значных цифр , которые представляют собой указание в тысячах рублей.
- 5 наиболее частых значений желаемой зарплаты (20 000, 30 000, 25 000, 15 000, 40 000) охватывают более 60% всех значений. Двузначные вводы, по всей видимости, представляют собой указание в тысячах рублей. Среди однозначных доминирует значение «1», все семизначные — «1 000 000».
- Атрибуты «date_сreation» и «date_publish» соотносятся следующим образом: в большинстве случаев «date_сreation» раньше «date_publish», либо они совпадают, но встречаются ошибочные (<5%) случаи, когда «date_сreation» позднее «date_publish».
- Атрибуты «date_from» и «date_to» таблицы workexp.csv содержат ошибки ручного ввода — нереалистичные значения, встречаются ситуации, когда дата окончания раньше даты начала трудовой деятельности, либо они полностью совпадают.
Внесенные в набор данных изменения по сравнению с источниками
- Текстовые поля со свободным вводом исходных данных имели в виде артефактов html-теги, которые при обработке были удалены. Дополнительно были унифицированы очевидно схожие значения текстовых полей, например: обозначение факта отсутствия какого-либо навыка, документа и пр. (варианты написания слова «нет», «отсутствует» и т.д.); обозначения факта наличия военного билета (варианты написания: «военный билет», «ВОЕННЫЙ билет» и т.д.) В некоторых случаях в исходном тексте отсутствуют пробелы между словами, пробелы были восстановлены. Пустые строки, содержащие только один символ либо последовательность знаков препинания, цифр и пробелов, были заменены на NULL.
- В исходных данных атрибутов, связанных с датами («birthday», «experience», «date_to», «date_from», «graduate_year»), встречаются нереалистичные значения. Были созданы атрибуты («birthday_mistake», «experience_mistake», «date_mistake», «grad_year_mistake»), указывающие на вероятную ошибку в значении соответствующего атрибута.
- В атрибутах «date_change_inner_info», «date_posted», «date_publish», «date_change_inner_info», где указываются дата и время, было произведено разделение на переменные date_ и time_, оригинальные переменные оставлены без изменения с приставкой date_time_ в названиях.
- Записи из таблиц об откликах, приглашениях и организациях содержат дополнительную переменную «date_last_updated» — дата первой публикации записи в открытых данных (ftp). Формат YYYY-MM-DD. Таким образом, можно отслеживать, когда сущность впервые появилась в наборе данных.
- Записи из таблиц о резюме и вакансиях имеют большой список переменных свободного ввода и содержат несколько дополнительных переменных «date_last_updated» — дата первой публикации записи в открытых данных (ftp), «inactive» — статус инактивациии, принимает значение «1», если запись в архиве или существует более новая версия записи, «date_inactivation» — дата изменения переменной inactive. Таким образом, можно не только увидеть дату первого появления вакансии или резюме в наборе данных, но и все архивные версии, начиная с 2018 г.
- Исходный атрибут «social_protecteds_social_protected», представлявший категории социальной защиты в разных сочетаниях, передаваемые списком: «Инвалиды», «Лица, освобождаемые из мест лишения свободы», «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет», «Многодетные семьи», «Несовершеннолетние работники», «Работники, имеющие детей-инвалидов», «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением», был преобразован в отдельные атрибуты («disabled», «released_persons», «single_parent», «large_families», «minor_workers», «workers_with_disabled_children», «caring_workers») по каждой категории со значением 1 в случае соответствия и 0 — при отсутствии данной категории.
- Исходный атрибут «job_benefits», представлявший преимущества вакансии в разных сочетаниях, передаваемые списком: «Оплата занятий спортом», «Путевки в оздоровительные учреждения», «Оплата питания», «ДМС», был преобразован в отдельные атрибуты («payment_sports_activities», «vouchers_health_institutions», «payment_meals», «dms») по каждой категории со значением 1 в случае соответствия и 0 — при отсутствии данной категории.
- Для атрибута «company_name» все случаи заполнения одним символом, знаками препинания, пробелами или цифрами заменены на пустую строку. Три нуля в начале названия «000» были заменены на «ООО».
- Атрибуты «course_name» и «legal_name». В случаях когда соискатель оставил поля незаполненными, значения были изменены на «Название курса не было указано» и «Название организации не было указано» соответственно.
- Были очищены излишне детализованные данные, которые пользователь оставил в не подходящих для этого полях. В таких случаях они были заменены на REDACTED.
- Были произведены и другие изменения.
Источники данных
Атрибут | Значение |
---|---|
Полное наименование источника данных | Портал по поиску работы и сотрудников ИАС ОБВ «Работа России» |
Сокращенное наименование источника данных | «Работа России» |
Владелец источника данных | Федеральная служба по труду и занятости (Роструд) |
Краткое описание источника данных | Портал «Работа России» — это федеральная государственная информационная система, оператором которой выступает Роструд. На портале размещаются вакансии от российских работодателей и резюме от российских граждан. Основное наполнение базы резюме портала происходит за счет регистрации граждан, которым оказывается государственная услуга по содействию занятости в центрах занятости населения (ЦЗН). Портал регулярно публикует обновляемые датасеты о вакансиях, резюме, откликах и приглашениях в разделе «Открытые данные». Данные публикуются в формате XML и могут содержать лишние символы, ошибки, описки и другие недостатки, что является следствием как ручного ввода сведений со стороны работодателей и соискателей, так и недостаточных процедур очистки и предобработки публикуемых открытых данных. Данные на портале «Работа России» доступны по API. |
Ссылка на источник данных | https://trudvsem.ru/opendata/datasets |
Перечень используемых классификаторов | Общероссийский классификатор профессий рабочих, должностей служащих и тарифных разрядов ОК 016-94 |
Понятия, используемые в источнике | Отсутствуют |
Методология и изменения методологии для источника данных | Детальный порядок сбора информации описан в Постановлении Правительства РФ от 25.08.2015 № 885 «Об информационно-аналитической системе Общероссийская база вакансий «Работа в России» |
Ссылки на методологию | http://government.ru/docs/19388/ |
Ответственные за набор данных
№ | ФИО ответственного лица | Электронная почта ответственного лица |
---|---|---|
1. | Бабушкина Валерия Олеговна | v.babushkina@data.rcsi.science |
2. | Тимошенко Анна Шоновна | a.timoshenko@data.rcsi.science |