Вакансии, резюме, отклики и приглашения портала «Работа России» за 2018—2021 годы
История изменений
| Дата | Версия | Автор | Описание изменений |
|---|---|---|---|
| 02.12.2021 | 1.0 | Бабушкина Валерия Олеговна | Документ создан |
| Тимошенко Анна Шоновна |
Общая информация о датасете
Архивные и актуальные сведения о резюме, вакансиях, откликах соискателей и приглашениях на собеседование, размещенные на портале Роструда «Работа России». Сведения публикуются в разделе «Открытые данные» в формате многоуровневых структур XML. В ходе подготовки этого датасета данные были объединены в совокупность связанных плоских таблиц и предобработаны.
Единица наблюдения в датасете (строка): резюме соискателя, вакансия от работодателя или действия с вакансией (отклики, приглашения). Для резюме и вакансий приводится несколько версий в случае, если соискатели или работодатели вносили в них значимые изменения.
Для резюме доступны атрибуты: пол, дата рождения, образование, желаемая должность и зарплата, опыт работы и регион заявителя, а также сведения о различных статусах при публикации и обновлении резюме и т.д. Часть атрибутов сгруппированы в отдельных таблицах по принципу one-to-many (эти атрибуты могут соответствовать нескольким резюме). Для вакансий доступны атрибуты: сведения о работодателе, должность, обязанности, предлагаемая зарплата, требуемое образование, опыт работы, а также сведения о датах и связанных с ними статусах при публикации и обновлении вакансии и т.д.
Датасет состоит из 13 плоских связанных таблиц и охватывает все резюме и вакансии, публикуемые на портале с 01.01.2018 по 30.10.2021. Всего набор содержит около 20 млн наблюдений по более чем 100 атрибутам.
Набор размещен в открытом режиме доступа в формате CSV (кодировка: «UTF-8», разделитель: «;»).
Общее описание набора данных
| Атрибут | Значение |
|---|---|
| Общие сведения | |
| Полное наименование набора данных | «Работа в России»: объединенные и обновляемые сведения о вакансиях, резюме, откликах и приглашениях портала trudvsem.ru |
| Сокращенное наименование набора данных | Вакансии, резюме, отклики и приглашения портала «Работа России» за 2018—2021 годы |
| Краткое описание набора данных | Архивные и актуальные сведения о резюме, вакансиях, откликах соискателей и приглашениях на собеседование со стороны работодателей, размещенные на портале Роструда «Работа России». Сведения публикуются на портале в разделе «Открытые данные» в формате многоуровневых таблиц XML. В ходе подготовки этого датасета данные были объединены в совокупность связанных плоских таблиц и дополнительно предобработаны. Единица наблюдения в датасете (строка): резюме соискателя, вакансия от работодателя или действия с вакансией (отклики, приглашения). Для резюме доступны атрибуты: пол, дата рождения, уровень образования, желаемая должность и заработная плата, опыт работы и регион заявителя, а также сведения о различных статусах при публикации и обновлении резюме и т.д. Часть атрибутов сгруппированы в отдельных таблицах по принципу one-to-many (так как эти атрибуты могут соответствовать нескольким резюме). Для вакансий доступны атрибуты: сведения об организации-работодателе, должность, описание обязанностей, предлагаемая зарплата, требуемый уровень образования, опыт работы, а также сведения о датах и связанных с ними статусах при публикации и обновлении вакансии и т.д. Датасет состоит из 13 плоских связанных между собой таблиц и охватывает все резюме и вакансии, публикуемые на портале с 01.01.2018 (или ранее) до 30.10.2021. Всего набор содержит около 20 млн наблюдений по более чем 100 атрибутам |
| Краткое описание источника набора данных | Портал «Работа России» — это федеральная государственная информационная система Роструда. Портал регулярно публикует обновляемые датасеты о вакансиях, резюме, откликах и приглашениях в разделе «Открытые данные». Данные публикуются в формате XML и могут содержать лишние символы, ошибки, описки и другие недостатки, что является следствием как ручного ввода сведений со стороны работодателей и соискателей, так и недостаточных процедур очистки и предобработки публикуемых открытых данных |
| Покрываемый временной период | 01.01.2018 — 30.10.2021 |
| Доступные форматы | CSV (кодировка: «UTF-8», разделитель: «;») |
| Размер набора данных | 43,0 ГБ |
| Тематика набора данных | Рынок труда и занятость |
| Режим доступа | Открытый (у вас есть возможность работать с данными на своем личном ПК, в том числе скачивать данные) |
| Периодичность публикации и обновления | |
| Дата размещения в каталоге | 02.12.2021 |
| Периодичность обновления в каталоге | Ежеквартально |
| Дата последнего обновления набора данных в каталоге | Отсутствует |
| Характер последнего обновления |
|
| Дата следующего обновления набора данных | Не установлена |
| Дополнительные сведения | |
| Цитирование набора данных на русском языке | «Работа в России»: обработанные и объединенные сведения о вакансиях, резюме, откликах и приглашениях портала trudvsem.ru // Роструд; обработка: Бабушкина В.О., Тимошенко А.Ш., Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: Лицензия CC BY-SA. Размещено: 02.12.2021. URL: https://data.rcsi.science/data-catalog/datasets/186/ |
| For references (English) | «Work in Russia»: combined data on vacancies, CVs, responses and invitations from the trudvsem.ru // Rostrud; data-processing: Babushkina V., Timoshenko A., The Research Development Infrastructure (RDI), CAG, 2021. Access: License CC BY-SA. Posted: 02.12.2021. URL: https://data.rcsi.science/data-catalog/datasets/186/ |
| Ссылка на открытый репозиторий | Отсутствует |
| Лицензия, под которой публикуется набор данных | СС BY-SA (Creative Commons) https://creativecommons.org/licenses/by-sa/4.0/ Допускается использование, копирование и распространение данных в научно-исследовательских, коммерческих и любых иных целях. При преобразовании материала разрешается распространять переделанные части материала на условиях этой же лицензии — CC BY-SA |
| Стандарт публикации | http://opendata.gosmonitor.ru/standard/3.0 |
| Параметры запросов API | Интеграция через API не предусмотрена |
Структура набора данных (Codebook)
Набор данных состоит из 13 плоских таблиц (7 основных и 6 дополнительных), связанных между собой по различным атрибутам. Формат данных во всех таблицах: CSV (кодировка: «UTF-8», разделитель: «;»). Схема связи таблиц приведена ниже.
В датасет входят следующие таблицы:
- Резюме по субъектам РФ (curricula_vitae.csv) — основная таблица; содержит 62 атрибута, 10 580 887 наблюдений;
- Опыт работы, указанный в резюме (workexp.csv), — основная таблица; содержит 10 атрибутов, 12 166 888 наблюдений;
- Сведения об образовании, указанные в резюме (edu.csv), — основная таблица; содержит 8 атрибутов, 4 540 219 наблюдений;
- Дополнительное образование, указанное в резюме (addedu.csv), — основная таблица; содержит 7 атрибутов, 1 304 805 наблюдений;
- Вакансии по субъектам РФ (vacancies.csv), — основная таблица; содержит 85 атрибутов, 13 282 732 наблюдения;
- Отклики соискателей на вакансии (responses.csv), — основная таблица; содержит 16 атрибутов, 1 820 667 наблюдений;
- Приглашения на собеседование, отправленные работодателями (invitations.csv), — основная таблица; содержит 15 атрибутов, 7 889 720 наблюдений;
- Организации работодателей, размещающих вакансии на портале (organizations.csv), — дополнительная таблица; содержит 48 атрибутов, 914 287 наблюдения;
- Субъекты РФ и основная аналитическая информация о них (regions.csv) — дополнительная таблица; содержит 9 атрибутов, 86 наблюдений;
- Справочник сфер деятельности (industries.csv) — дополнительная таблица; содержит 8 атрибутов, 34 наблюдения;
- Справочник специальностей (professions.csv) — дополнительная таблица; содержит 10 атрибутов, 8 038 наблюдений;
- Аналитические данные по гражданам на портале (stat_citizens.csv) — дополнительная таблица; содержит 5 атрибутов, 90 наблюдений;
- Аналитические данные по работодателям на портале (stat_company.csv) — дополнительная таблица; содержит 8 атрибутов, 87 наблюдений.
Резюме по субъектам РФ (curricula_vitae.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) шт/% |
Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| id_candidate | Идентификатор соискателя | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations | 0 |
|
|
string |
| id_cv | Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 0 |
|
|
string |
| industry_code | Сфера деятельности | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae |
|
|
|
string |
| profession_code | Профессия по Общероссийскому классификатору профессий рабочих, должностей служащих и тарифных разрядов (ОКПДТР) | Расшифровка кодов содержится во вспомогательной таблице professons. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae. Заполнение поля соискателем необязательно |
0 |
|
|
numeric |
| region_code | Код субъекта РФ | Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 490 |
|
|
numeric |
| abilympics_participation | Участие в движении «Абилимпикс» |
Принимает значения:
Заполнение поля соискателем необязательно |
0 |
|
|
boolean |
| abilympics_status | Подтверждено участие в движении «Абилимпикс» | «Данные подтверждены» | 0 |
|
|
string |
| add_certificates | Иные сертификаты, удостоверения, достижения, звание, чин | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| add_certificates_modified | Иные сертификаты, удостоверения, достижения, звание, чин | Атрибут добавлен при обработке данных. Аналогично add_certificates, но с учетом обработки данных: унифицированы некоторые значения: варианты «Нет», «Не имею», «Нет сертификатов», «Отсутствуют» и др. приведены к «нет». Заполнение поля соискателем необязательно |
0 |
|
|
string |
| additional_skills | Личные навыки | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| birthday | Год рождения соискателя | YYYY | 0 |
|
|
numeric |
| birthday_mistake | Отметка об ошибке в годе рождения |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| business_trips | Готовность к командировкам |
Принимает значения:
|
0 |
|
|
boolean |
| busy_type | Тип занятости | Принимает значения:
Заполнение поля обязательно |
0 |
|
|
string |
| country | Гражданство | Принимает значения:
Заполнение поля обязательно |
0 |
|
|
string |
| date_сreation | Дата создания резюме | Формат: YYYY-MM-DD | 0 |
|
|
date |
| date_inactivation | Дата, начиная с которой эта версия резюме отсутствует в наборе открытых данных портала |
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD |
0 |
|
|
date |
| date_last_updated | Дата первой публикации этой версии резюме в открытых данных портала |
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD |
0 |
|
|
date |
| date_modify _inner_info | Дата последнего изменения резюме на портале | Формат: YYYY-MM-DD | 0 |
|
|
date |
| date_publish | Дата публикации резюме на портале | Формат: YYYY-MM-DD | 0 |
|
|
date |
| date_time_publish | Дата и время публикации резюме на портале | Формат YYYY-MM-DD HH-MM-SS | 0 |
|
|
timestamp |
| drive_licences | Уровень лицензии водительских прав, представлен в виде списка перечисленных категорий водительских прав |
Далее представлен one-hot переменными:
|
0 |
|
|
string |
| driver_licence_A | Наличие водительских прав категории А |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
| driver_licence_B | Наличие водительских прав категории B |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
| driver_licence_C | Наличие водительских прав категории C |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
| driver_licence_D | Наличие водительских прав категории D |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
| driver_licence_E | Наличие водительских прав категории E |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
| education_type | Тип полученного образования соискателем |
Принимает значения:
Заполнение поля соискателем необязательно |
0 |
|
|
string |
| experience | Опыт работы соискателя |
Количество лет. Например: 0, 10, 15. Заполнение поля соискателем необязательно |
0 |
|
|
numeric |
| experience_mistake | Нереалистичное значение атрибута «Опыт работы соискателя» | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| gender | Пол | Принимает значения:
|
|
|
|
string |
| inactive | Статус инактивации | Принимает значения:
|
0 |
|
|
boolean |
| inner_info_deleted | Отметка удаления резюме | Принимает значения:
|
0 |
|
|
boolean |
| inner_info_fullness_rate | Процент заполненности резюме | В процентах (%) от 0 до 100 |
|
|
|
numeric |
| id_user_inner_info | Внутренний идентификатор пользователя сервиса: модератора (сотрудника СЗН/ЦЗН) |
|
5450 (~0%) |
|
|
string |
| inner_info_status | Статус резюме на портале | Принимает значения:
|
0 |
|
|
string |
| inner_info_visibility |
Видимость резюме |
Принимает значение:
|
0 |
|
|
boolean |
| locality | Код КЛАДР | Классификатор адресов РФ — 13 (точность до населенного пункта) или 17 цифр (точность до улицы) | 961 (~0%) |
|
|
numeric |
| nark_certificate | Наличие свидетельства о независимой оценке квалификации | Принимает значение:
Заполнение поля соискателем необязательно |
0 |
|
|
boolean |
| nark_inspection_status | Данные о наличии свидетельства о независимой оценке квалификации подтверждены | Принимает значение:
|
0 |
|
|
boolean |
| other_info | Иная информация о соискателе | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| other_info_modified | Иная информация о соискателе |
Атрибут добавлен при создании датасета. Аналогично other_info_modified, но с учетом обработки данных унифицированы некоторые значения: «Нет», «Без вредных привычек», «Не курю», удалены html-теги и т.д. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| position_name | Желаемая должность |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля обязательно |
13 |
|
|
string |
| relocation | Готовность к переезду |
Принимает значения:
Заполнение поля соискателем необязательно |
0 |
|
|
boolean |
| retraining_capability | Готовность к переобучению | Принимает значения:
Заполнение поля соискателем необязательно |
0 |
|
|
boolean |
| salary | Желаемая зарплата | Указывается в рублях. Заполнение поля обязательно |
0 |
|
|
numeric |
| schedule_type | Желаемый график работы. Представлен в виде списка перечисленных типов графиков работы: вахтовый метод; гибкий график; ненормированный рабочий день; неполный рабочий день; полный рабочий день; сменный график |
Далее представлен one-hot переменными:
|
0 |
|
|
string |
| schedule_type_1 | Желаемый график работы: вахтовый метод | Принимает значения:
|
0 |
|
|
boolean |
| schedule_type_2 | Желаемый график работы: гибкий график |
Принимает значения:
|
0 |
|
|
boolean |
| schedule_type_3 | Желаемый график работы: ненормированный рабочий день | Принимает значения:
|
0 |
|
|
boolean |
| schedule_type_4 | Желаемый график работы: неполный рабочий день | Принимает значения:
|
0 |
|
|
boolean |
| schedule_type_5 | Желаемый график работы: полный рабочий день | Принимает значения:
|
0 |
|
|
boolean |
| schedule_type_6 | Желаемый график работы: сменный график |
Принимает значения:
|
0 |
|
|
boolean |
| skills | Профессиональные качества | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
|
|
|
string |
| time_publish | Время публикации резюме на портале | Формат HH-MM-SS | 0 |
|
|
time |
| worldskills_international_name | Наименование компетенции Worldskills на английском языке | Заполнение поля соискателем необязательно | 0 |
|
|
string |
| worldskills_is_international | Отметка о статусе международной компетенции WorldSkills International (WSI) | Принимает значения:
|
0 |
|
|
boolean |
| worldskills_russian_name | Наименование компетенции Worldskills на русском языке |
Заполнение поля соискателем необязательно | 0 |
|
|
string |
| worldskills_skill_abbreviation | Код навыка компетенции Worldskills | Перечень компетенций WorldSkills (pdf) | 0 |
|
|
string |
| worldskills_type | Статус участия | Принимает значение:
|
0 |
|
|
boolean |
| worldskills_inspection_status | Статус проверки наличия конкретной квалификации Worldskills |
Принимает значения:
|
63 (~0%) |
|
|
string |
| worldskills_inspection_status_code | Код статуса проверки наличия квалификации Worldskills |
Принимает значения:
|
0 |
|
|
string |
Опыт работы, указанный в резюме (workexp.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| id_cv | Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 0 |
|
|
string |
| achievements | Достижения | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| achievements_modified | Достижения |
Атрибут добавлен при обработке данных. Аналогично атрибуту achievements. Дополнительно унифицированы некоторые значения: «Нет». Заполнение поля соискателем необязательно |
0 |
|
|
string |
| company_name | Название организации | Текст в свободной форме. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| date_from | Дата начала работы |
Формат YYYY-MM-DD | 0 |
|
|
date |
| date_last_updated | Дата первой публикации этой версии записи об опыте работы в открытых данных портала «Работа России» |
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD | 0 |
|
|
date |
| date_to | Дата окончания работы |
Формат YYYY-MM-DD | 0 |
|
|
date |
| date_mistake | Отметка об ошибке в датах | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| demands | Должностные обязанности | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| job_title | Название должности | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
Сведения об образовании, указанные в резюме (edu.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| id_cv |
Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 0 |
|
|
string |
| date_last_updated | Дата первой публикации этой версии записи о полученном образовании в открытых данных портала «Работа России» |
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD | 0 |
|
|
date |
| faculty | Название факультета | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| graduate_year | Год окончания обучения |
|
0 |
|
|
numeric |
| grad_year_mistake | Ошибки в датах атрибута «graduate_year»: ранее 70 лет назад и позже 4 лет вперед от даты обработки атрибута |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
| legal_name |
Юридическое название учебного заведения | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| qualification | Квалификация | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| speciality | Специальность | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
Дополнительное образование, указанное в резюме (add_edu.csv)
| Атрибут | Описание | Пояснение | Количествопропусков (NaN) | Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| id_cv |
Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 0 |
|
|
string |
| course_name | Название курса |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| date_last_updated | Дата первой публикации этой версии записи о дополнительном образовании в открытых данных портала «Работа России» |
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD | 0 |
|
|
date |
| legal_name |
Юридическое название учебного заведения | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно |
0 |
|
|
string |
| graduate_year | Год выпуска |
|
0 |
|
|
numeric |
| grad_year_mistake | Ошибки в датах атрибута «graduate_year»: ранее 70 лет назад и позже 4 лет вперед от даты обработки атрибута |
Атрибут добавлен при создании датасета. Принимает значения:
|
0 |
|
|
boolean |
| description | Описание обучения | Атрибут добавлен при создании датасета. В случаях когда в атрибуты «course_name» и «legal_name» были внесены развернутые описания полученного дополнительного образования (длиной > 200 символов), эти описания были перенесены в атрибут «description» и заменены на пробел в исходном атрибуте | 0 |
|
|
string |
Вакансии по субъектам РФ (vacancies.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| id_hiring_organization | Идентификатор нанимающей организации. Совпадает с атрибутом organization | Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations | 0 |
|
|
string |
| identifier | Идентификатор вакансии | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 0 |
|
|
string |
| industry | Сфера деятельности вакансии в соответствии со справочником сфер деятельности | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae | 0 |
|
|
string |
| organization | Код идентификатор организации. Совпадает с id_hiring_organization | Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations | 0 |
|
|
numeric |
| profession |
Профессия по Общероссийскому классификатору профессий рабочих, должностей служащих и тарифных разрядов (ОКПДТР) | Расшифровка кодов содержится во вспомогательной таблице professons. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae | 0 |
|
|
numeric |
| region | Код субъекта РФ | Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae | 0 |
|
|
string |
| accommodation_capability | Жилищные условия | Принимает значения:
Заполнение поля необязательно |
0 |
|
|
boolean |
| accommodation_housing |
Тип предлагаемого жилья | Принимает значения:
Заполнение поля необязательно |
0 |
|
|
string |
| additional_info |
Дополнительная информация по требованиям к кандидату | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
| base_salary |
Предлагаемая заработная плата | Заполняется текстом в формате: «от ...», «от ... до ...», «до ...». Заполнение поля необязательно |
0 |
|
|
string |
| base_salary_min |
Минимальная предлагаемая заработная плата |
|
0 |
|
|
numeric |
| base_salary_max |
Максимальная предлагаемая заработная плата |
|
0 |
|
|
numeric |
| career_perspective |
Перспективы карьерного роста |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
| caring_workers | Социальная категория граждан «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением» | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| date_change_inner_info |
Дата изменения вакансии |
Устаревший к 01.12.2021 атрибут. Может дублировать date_modify_inner_info 2015—2021 гг. Формат YYYY-MM-DD |
584 441 (92%) |
|
|
date |
| date_change_inner_info_mistake | Ошибки в датах атрибута date_change_inner_info (ошибка unix time) | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| date_creation | Дата создания вакансии | 2015—2021 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
| date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| date_inactivation | Дата, начиная с которой эта версия вакансии отсутствует в наборе открытых данных портала |
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD | 0 |
|
|
date |
| date_last_updated | Дата первой публикации этой версии записи в открытых данных портала |
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD | 0 |
|
|
date |
| date_modify_inner_info | Дата последнего изменения вакансии | Доступно за 2021 г. Формат YYYY-MM-DD | 0 |
|
|
date |
| date_modify_inner_info_mistake | Ошибки в датах атрибута date_modify_inner_info (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| date_posted | Дата публикации вакансии | Доступно за 2021 г. Формат YYYY-MM-DD | 0 |
|
|
date |
| date_posted_mistake | Ошибки в датах атрибута date_posted (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| date_time_change_inner_info | Дата и время изменения вакансии | Доступно за 2015—2021 гг. Формат YYYY-MM-DD HH-MM-SS | 0 |
|
|
timestamp |
| date_time_posted | Дата и время создания вакансии | Доступно за 2015—2021 гг. | 584 441 (92%) |
|
|
timestamp |
| disabled | Социальная категория граждан «Инвалиды» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| dms | Преимущества вакансии «ДМС» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| drive_licences | Уровень лицензии водительских прав, представлен в виде списка перечисляемых категорий водительских прав |
Далее представлен one-hot переменными:
|
0 |
|
|
string |
| driver_licence_A | Водительские права категории «А» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| driver_licence_B | Водительские права категории «B» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| driver_licence_C | Водительские права категории «C» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| driver_licence_D | Водительские права категории «D» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| driver_licence_E | Водительские права категории «E» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| education_academic_degree | Требуемая академическая степень | Принимает значения:
|
0 |
|
|
string |
| education_requirements_education_type | Требуемый уровень образования | Принимает значения:
|
0 |
|
|
string |
| education_requirements_speciality | Требуемая образовательная специальность | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
| employment_type | Тип занятости | Принимает значения:
|
0 |
|
|
string |
| experience_requirements | Требуемый опыт работы (количество лет) |
Количество лет. Например: 0, 1, 5. Заполнение поля необязательно |
0 |
|
|
string |
| federal_district | Номер федерального округа |
Принимает значения от 1 до 9 | 0 |
|
|
string |
| inactive | Статус инактивации |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| incentive_compensation_ transport_compensation |
Транспортная компенсация | Принимает значения:
|
0 |
|
|
string |
| inner_info_contact_source | Источник контакта вакансии | Принимает значения:
|
0 |
|
|
string |
| inner_info_deleted | Отметка удаления вакансии |
Принимает значения:
|
0 |
|
|
boolean |
| inner_info_metro_ids | Идентификатор станции метро, представлен в виде списка перечисляемых идентификаторов станций метрополитена | Сгенерирован в исходных данных. Пример: [e182b311-81cf-11e4-a6da-9be8de68eaf1, e183766c-81cf-11e4-a6da-9be8de68eaf1]. Заполнение поля необязательно |
0 |
|
|
string |
| inner_info_source_type |
Тип источника вакансии | Принимает значения:
|
0 |
|
|
string |
| inner_info_status |
Статус размещения вакансии | Принимает значения:
|
0 |
|
|
string |
| inner_info_visibility | Видимость вакансии. Принимает значения: «Видно всем» | Принимает значения:
|
0 |
|
|
boolean |
| is_uzbekistan_recruitment |
Отметка вакансии для граждан Узбекистана |
Принимает значения:
|
0 |
|
|
boolean |
| job_benefits |
Преимущества вакансии. Атрибут принимает значения, передаваемые списком: «Оплата занятий спортом», «Путевки в оздоровительные учреждения», «Оплата питания», «ДМС» |
Далее представлен one-hot переменными: payment_sports_activities: «Оплата занятий спортом», vouchers_health_institutions: «Путевки в оздоровительные учреждения», payment_meals: «Оплата питания», dms: «ДМС». Заполнение поля необязательно |
0 |
|
|
string |
| job_benefits_other_benefits | Дополнительные преимущества | Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
| job_location_additional_address_info | Дополнительные данные адреса работодателя | Заполнение поля необязательно | 0 |
|
|
string |
| job_location_address | Адрес работодателя (индекс, регион, область, населенный пункт, улица, дом, помещение и т.д.) | Может содержать только часть адреса, например «352900, г. Армавир, д. 125» или «Набережная 1-го Мая» | 0 |
|
|
string |
| job_location_geo_longitude | Координаты долготы |
|
0 |
|
|
string |
| job_location_geo_latitude | Координаты широты |
|
0 |
|
|
string |
| large_families | Социальная категория граждан «Многодетные семьи» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| metro_station |
Станция метро, атрибут представлен в виде строки перечисляемых названий станций метрополитена | Заполнение поля необязательно | 0 |
|
|
string |
| minor_workers | Социальная категория граждан «Несовершеннолетние работники» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| need_medcard |
Требование наличия медицинской книжки | Принимает значения:
|
0 |
|
|
boolean |
| okso_code |
Код по Общероссийскому классификатору специальностей по образованию: https://classifikators.ru/okso | Заполнение поля необязательно | 0 |
|
|
numeric |
| payment_meals |
Преимущества вакансии «Оплата питания» |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| payment_sports_activities |
Преимущества вакансии «Оплата занятий спортом» | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| premium_size | Размер премирования |
|
0 |
|
|
numeric |
| premium_type |
|
Принимает значения:
|
0 |
|
|
string |
| released_persons | Социальная категория граждан «Лица; освобождаемые из мест лишения свободы» | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| requirements_id_priority_category |
Указатель на приоритетную категорию | Принимает значение:
|
0 |
|
|
string |
| requirements_qualifications |
Требуемая квалификация |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
| requirements_required_certificates |
Требуемые сертификаты |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
| responsibilities |
Должностные обязанности |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
| retraining_capability | Наличие готовности к переобучению | Принимает значения:
|
0 |
|
|
boolean |
| retraining_condition | Предоставляемое обучение |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно |
0 |
|
|
string |
| retraining_grant |
Наличие стипендии | Принимает значения:
|
0 |
|
|
boolean |
| retraining_grant_value | Размер гранта на переобучение |
|
0 |
|
|
numeric |
| single_parent | Социальная категория граждан «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет» | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| social_protecteds_social_protected |
Категории социальной защиты. Арибут принимает значения, передаваемые списком (см. в колонке справа) |
Далее представлен one-hot переменными: disabled — «Инвалиды»; released_persons — «Лица, освобождаемые из мест лишения свободы»; single_parent — «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет»; large_families — «Многодетные семьи»; minor_workers — «Несовершеннолетние работники»; workers_with_disabled_children — «Работники, имеющие детей-инвалидов»; caring_workers — «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением» |
0 |
|
|
string |
| source |
Источник вакансии | Принимает значения:
|
0 |
|
|
string |
| time_change_inner_info | Время изменения сущности в наборе | Формат HH-MM-SS | 584 441 (92%) |
|
|
time |
| time_posted | Время публикации вакансии | Формат HH-MM-SS | 0 |
|
|
time |
| title | Наименование вакансии | Текст в свободной форме. Заполнение поля необязательно |
0 |
|
|
string |
| vac_url |
URL-адрес вакансии на сайте trudvsem.ru |
|
0 |
|
|
string |
| vouchers_health_institutions |
Преимущества вакансии «Путевки в оздоровительные учреждения» | Принимает значения:
|
0 |
|
|
boolean |
| work_hours |
График работы | Принимает значения:
|
0 |
|
|
string |
| work_places | Количество рабочих мест |
|
0 |
|
|
numeric |
| workers_with_disabled_children | Социальная категория граждан «Работники, имеющие детей-инвалидов» | Принимает значения:
|
0 |
|
|
boolean |
Отклики соискателей на вакансии (responses.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) | Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| id_candidate | Идентификатор кандидата | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations | 0 |
|
|
string |
| id_cv | Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 0 |
|
|
string |
| id_hiring_organization | Идентификатор нанимающей организации | Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations | 0 |
|
|
string |
| id_vacancy | Идентификатор вакансии | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 42 (~0%) |
|
|
string |
| region_code |
Код субъекта РФ | Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 0 |
|
|
string |
| activity_flag_candidate | Отметка кандидата. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве |
Принимает значения:
|
0 |
|
|
boolean |
| activity_flag_manager | Отметка менеджера. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве |
Принимает значения:
|
0 |
|
|
boolean |
| date_creation | Дата создания отклика | Доступно за период: 2015—2021 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
| date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| date_last_updated | Дата первой публикации этой версии вакансии в открытых данных портала | Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD | 0 |
|
|
date |
| date_modify | Дата изменения отклика | Доступно за период: 2016—2021 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
| date_modify_mistake | Ошибки в датах атрибута date_modify (ошибка unix time) | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| is_new | Признак нового отклика | Принимает значения:
|
0 |
|
|
boolean |
| id_reply | Идентификатор ответа | Заполнение поля необязательно | 0 |
|
|
string |
| id_response |
Идентификатор отклика |
|
0 |
|
|
|
| response_type | Приглашение |
Принимает значения:
Заполнение поля необязательно |
0 |
|
|
string |
Приглашения на собеседование, отправленные работодателями (invitations.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| id_candidate | Идентификатор соискателя | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations | 0 |
|
|
string |
| id_cv | Идентификатор резюме | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, workexp, edu, addedu | 102 (~0%) |
|
|
string |
| id_hiring_organization | Идентификатор нанимающей организации | Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations | 0 |
|
|
string |
| id_vacancy | Идентификатор вакансии | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 74 (~0%) |
|
|
string |
| region_code | Код региона | Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 0 |
|
|
string |
| activity_flag_candidate | Отметка кандидата. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве |
Принимает значения: 1 — активен; 0 — не активен |
0 |
|
|
boolean |
| activity_flag_manager | Отметка менеджера. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве |
Принимает значения:
|
0 |
|
|
boolean |
| date_creation | Дата создания | Формат YYYY-MM-DD | 0 |
|
|
date |
| date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) | Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| date_last_updated | Дата первой публикации записи в открытых данных портала «Работа России» |
Атрибут добавлен при создании датасета. Формат YYYY-MM-DD | 0 |
|
|
date |
| date_modify | Дата изменения | Формат YYYY-MM-DD | 0 |
|
|
date |
| date_modify_mistake | Ошибки в датах атрибута date_modify (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| id_reply | Идентификатор отклика |
|
|
|
|
string |
| id_invitation | Идентификатор приглашения |
|
0 |
|
|
string |
| response_type | Тип отклика
|
Принимает значения:
|
0 | string | ||
| is_new | Признак нового отклика | Принимает значения:
|
0 |
|
|
boolean |
Организации работодателей, размещающих вакансии на портале (organizations.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| id_organizations |
Идентификатор организации | Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations | 0 |
|
|
string |
| region_code |
Код субъекта РФ | Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 0 |
|
|
string |
| address | Адрес работодателя (индекс, регион, область, населенный пункт, улица, дом, помещение и т.д.) | Может содержать только часть адреса, например «352900, г. Армавир, д. 125» или «Набережная 1-го Мая» | 0 |
|
|
string |
| address_code |
Код КЛАДР | Классификатор адресов РФ — 13 (точность до населенного пункта) или 17 цифр (точность до улицы) | 0 |
|
|
string |
| business_size | Размер организации в классификации | Принимает значения:
Заполнение поля необязательно |
0 |
|
|
string |
| code_parent_company | Код родительской организации |
|
0 |
|
|
string |
| company_structure_hidden | Скрывать структуру компании | Принимает значения:
|
0 |
|
|
boolean |
| date_change_inner_info | Дата изменения сущности в наборе | Устаревший атрибут. Может дублировать date_modify_inner_info 1970, 2015—2021. Формат YYYY-MM-DD |
0 |
|
|
date |
| date_change_inner_info_mistake | Ошибки в датах атрибута date_change_inner_info (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| date_time_change_inner_info | Дата и время изменения сущности в наборе | Формат YYYY-MM-DD HH-MM-SS | 0 |
|
|
timestamp |
| time_change_inner_info | Время изменения сущности в наборе. | Формат HH-MM-SS | 0 |
|
|
time |
| date_creation | Дата создания сущности в наборе | Доступно за период: 2015—2021 гг. Формат YYYY-MM-DD | 21 942 (2%) |
|
|
date |
| date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| date_moderation_inner_info | Дата модерации сущности в наборе | Доступно за период: 2015—2021 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
| date_moderation_inner_info_mistake | Ошибки в датах атрибута date_moderation_inner_info (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| date_modify_inner_info | Дата изменения сущности в наборе | Доступно за период 2015—2021 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
| date_modify_inner_info_mistake | Ошибки в датах атрибута date_modify_inner_info (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения:
|
0 |
|
|
boolean |
| date_last_updated | Дата первой публикации этой версии записи в открытых данных портала |
Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD | 0 |
|
|
date |
| description |
Описание организации |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. | 0 |
|
|
string |
| hr_agency | Кадровое агентство | Принимает значения:
|
0 |
|
|
boolean |
| first_rate_company | Статус крупнейшей компании | Принимает значения:
|
0 |
|
|
boolean |
| inn | Код ИНН |
|
0 |
|
|
string |
| inner_info_deleted | Отметка удаления организации с портала | Принимает значения:
|
0 |
|
|
boolean |
| inner_info_id_author | Идентификатор автора, создавшего аккаунт организации |
|
0 |
|
|
string |
| inner_info_is_moderated | Статус модерации организации | Принимает значение:
|
0 |
|
|
boolean |
| inner_info_manager_ids | Идентификатор менеджеров организации |
|
0 |
|
|
string |
| inner_info_registration_status |
Статус регистрации | Принимает значения:
|
0 |
|
|
string |
| inner_info_status |
Статус организации | Принимает значения:
|
0 |
|
|
string |
| inner_info_disable_import_info | Запрет обновления описания компании при импорте | Принимает значения:
|
0 |
|
|
boolean |
| inner_info_disable_import_vacancy |
Запрет импорта вакансий из ОБВ | Принимает значения:
|
0 |
|
|
boolean |
| inner_info_disable_join_company |
Запрет на присоединение компаний | Принимает значения:
|
0 |
|
|
boolean |
| inner_info_disable_join_manager |
Запрет на добавление менеджеров | Принимает значения:
|
0 |
|
|
boolean |
| inner_info_code_external_system | Источник контакта | Принимает значения:
|
0 |
|
|
string |
| inner_info_id_user | Код пользователя |
|
0 |
|
|
string |
| inner_info_id_small_icon | Идентификатор изображения |
|
0 |
|
|
string |
| inner_info_moderation_comment |
Комментарий модератора |
Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. | 0 |
|
|
string |
| inner_info_state_program | Идентификатор государственной программы |
|
0 |
|
|
string |
| inner_info_id_logo | Идентификатор изображения |
|
0 |
|
|
string |
| inner_info_external_id | Внешний идентификатор |
|
0 |
|
|
string |
| kpp | Код КПП |
|
0 |
|
|
string |
| legal_form_code | Код ОКОПФ |
|
0 |
|
|
string |
| legal_form_name | Наименование кода ОКОПФ |
|
0 |
|
|
string |
| legal_name | Юридическое наименование организации |
|
0 |
|
|
string |
| name | Наименование организации |
|
0 |
|
|
string |
| ogrn | Код ОГРН |
|
0 |
|
|
string |
| site | Сайт организации |
|
0 |
|
|
string |
| source | Источник информации об организации | Принимает значения:
|
0 |
|
|
string |
| state_program | Идентификатор государственной программы |
|
0 |
|
|
string |
Субъекты РФ и основная аналитическая информация о них (regions.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| region_code |
Код региона | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations | 0 |
|
|
string |
| region_name | Наименование региона |
|
0 |
|
|
string |
| accomodation_accessibility | Доступность жилья | Указано в рублях | 0 | руб. |
|
float |
| attraction_region | Регионы, оказывающие поддержку при переезде | Принимает значения: 1 — да; 0 — нет |
0 |
|
|
numeric |
| economic_growth | Темп экономического роста | Указано в % | 0 | % |
|
float |
| kindergarten_accessibility | Доступность детских садов |
|
0 |
|
|
string |
| medium_salary_difference | Средняя заработная плата | Указано в рублях | 0 | руб. |
|
float |
| price_level | Уровень цен | Указано в рублях | 0 | руб. |
|
float |
| unemployment_level | Уровень безработицы | Указано в % | 0 | % |
|
float |
Справочник сфер деятельности (industries.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| industry_code | Наименование сферы деятельности (на английском языке) | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae | 0 |
|
|
string |
| active | Отметка активности |
Принимает значения: 1 — да; 0 — нет |
0 |
|
|
boolean |
| date_creation | Дата создания сущности в наборе | Формат YYYY-MM-DD | 0 |
|
|
date |
| date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет |
0 |
|
|
boolean |
| date_modify | Дата изменения сущности в наборе | Формат YYYY-MM-DD | 0 |
|
|
date |
| date_modify_mistake | Ошибки в датах атрибута date_modify (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет |
0 |
|
|
boolean |
| deleted | Отметка удаления | Принимает значения: 1 — да; 0 — нет |
0 |
|
|
boolean |
| industry_name | Наименование сферы деятельности (на русском языке) |
|
0 |
|
|
string |
Справочник специальностей (professions.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| profession_code | Профессия по ОКПДТР | Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae | 0 |
|
|
string |
| profession_name | Наименование специальности (на русском) |
|
0 |
|
|
string |
| active | Отметка активности |
Принимает значения: 1 — активная ; 0 — неактивная |
0 |
|
|
boolean |
| category |
Категория специальности по ОКПДТР |
|
574 (7%) |
|
|
string |
| date_creation | Дата создания сущности в наборе | 1970, 2015—2019 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
| date_creation_mistake | Ошибки в датах атрибута date_creation (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет |
0 |
|
|
boolean |
| date_modify | Дата изменения сущности в наборе | 1970, 2015—2019 гг. Формат YYYY-MM-DD | 0 |
|
|
date |
| date_modify_mistake | Ошибки в датах атрибута date_modify (ошибка unix time) |
Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет |
0 |
|
|
boolean |
| deleted | Отметка удаления | Принимает значения: 1 — да; 0 — нет |
0 |
|
|
boolean |
| etks | Тариф указан в соответствии со справочником ЕТКС | Заполнение поля необязательно | 2600 (32%) |
|
|
string |
Аналитические данные по гражданам на портале (stat_citizens.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) | Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| region_code | Код региона | Расшифровка кодов содержится во вспомогательной таблице regions | 0 |
|
|
string |
| region_name | Наименование региона (на русском) |
|
0 |
|
|
string |
| cvs_count | Количество резюме |
|
0 | штук |
|
numeric |
| medium_salary | Средняя заработная плата |
|
0 | руб. |
|
float |
| region_code_mistake | Ошибки в датах атрибута region_code (длина не 13 цифр) |
Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет |
0 |
|
|
boolean |
Аналитические данные по работодателям на портале (stat_companies.csv)
| Атрибут | Описание | Пояснение | Количество пропусков (NaN) |
Единица измерения | ОКЕИ | Формат |
|---|---|---|---|---|---|---|
| region_code | Код региона | Расшифровка кодов содержится во вспомогательной таблице regions | 0 |
|
|
string |
| region_name | Наименование региона (на русском) |
|
0 |
|
|
string |
| company_count | Компаний, разместивших вакансии (всего) |
|
0 | штук |
|
numeric |
| micro_company | Компаний с численностью сотрудников менее 50 человек |
|
0 | штук |
|
numeric |
| small_company | Компаний с численностью сотрудников от 51 до 100 человек |
|
0 | штук |
|
numeric |
| midle_company | Компаний с численностью сотрудников от 101 до 250 человек |
|
0 | штук |
|
numeric |
| big_company | Компаний с численностью сотрудников от 251 до 500 человек |
|
0 | штук |
|
numeric |
| large_company | Компаний с численностью сотрудников более 500 человек |
|
0 | штук |
|
numeric |
Известные ограничения данных
Полнота данных
- Размещаемые на портале актуальные данные о вакансиях, резюме, откликах, приглашениях и организациях работодателей, как правило, не содержат записи, ушедшие в архив, например, неактивные резюме и вакансии, а также ликвидированные организации. Тем не менее часть архивных данных доступна из предыдущих версий наборов. Для охвата максимальной полноты данных в датасет были загружены, среди прочего, архивные наборы. Данные об откликах и приглашениях были загружены с самой первой доступной даты, то есть с 16.08.2020. Данные о вакансиях, резюме и организациях загружены с 01.01.2018 в связи с существенным отличием структуры архивных наборов, доступных за более ранние периоды. Шаг архивной загрузки составлял 7—10 дней в зависимости от частоты и регулярности выгрузки наборов на ftp сервер портала.
- Выявленные пропущенные значения в переменных «date_сreation» и «date_modify_inner_info» связаны с отсутствием/неиспользованием данных полей до октября 2017 г.
Описание проведенных проверок и их результатов
Для атрибутов осуществлялись проверки на реалистичность представленных значений.
- Атрибут «id_candidate» представляет собой идентификатор соискателя (у одного соискателя может быть несколько резюме для разных желаемых должностей) и в некоторых случаях соответствует нескольким сотням различных резюме.
- Атрибут «position_name» — желаемая должность — заполняется свободно. Встречаются записи, включающие историю трудовой деятельности, либо краткое резюме. Более частые случаи — список желаемых должностей через запятую или другой знак препинания или пробел. Кроме орфографических ошибок в названиях профессий встречаются русские наименования, набранные в английской раскладке.
- Атрибуты «salary» (поле для свободного заполнения цифрами со стороны соискателя), «base_salary_min», «base_salary_max», «retraining_grant_value», «premium_size», кроме указания полной суммы в рублях, имеют значения заработной платы в виде 1-, 2-, 3-значных цифр , которые представляют собой указание в тысячах рублей.
- 5 наиболее частых значений желаемой зарплаты (20 000, 30 000, 25 000, 15 000, 40 000) охватывают более 60% всех значений. Двузначные вводы, по всей видимости, представляют собой указание в тысячах рублей. Среди однозначных доминирует значение «1», все семизначные — «1 000 000».
- Атрибуты «date_сreation» и «date_publish» соотносятся следующим образом: в большинстве случаев «date_сreation» раньше «date_publish», либо они совпадают, но встречаются ошибочные (<5%) случаи, когда «date_сreation» позднее «date_publish».
- Атрибуты «date_from» и «date_to» таблицы workexp.csv содержат ошибки ручного ввода — нереалистичные значения, встречаются ситуации, когда дата окончания раньше даты начала трудовой деятельности, либо они полностью совпадают.
Внесенные в набор данных изменения по сравнению с источниками
- Текстовые поля со свободным вводом исходных данных имели в виде артефактов html-теги, которые при обработке были удалены. Дополнительно были унифицированы очевидно схожие значения текстовых полей, например: обозначение факта отсутствия какого-либо навыка, документа и пр. (варианты написания слова «нет», «отсутствует» и т.д.); обозначения факта наличия военного билета (варианты написания: «военный билет», «ВОЕННЫЙ билет» и т.д.) В некоторых случаях в исходном тексте отсутствуют пробелы между словами, пробелы были восстановлены. Пустые строки, содержащие только один символ либо последовательность знаков препинания, цифр и пробелов, были заменены на NULL.
- В исходных данных атрибутов, связанных с датами («birthday», «experience», «date_to», «date_from», «graduate_year»), встречаются нереалистичные значения. Были созданы атрибуты («birthday_mistake», «experience_mistake», «date_mistake», «grad_year_mistake»), указывающие на вероятную ошибку в значении соответствующего атрибута.
- В атрибутах «date_change_inner_info», «date_posted», «date_publish», «date_change_inner_info», где указываются дата и время, было произведено разделение на переменные date_ и time_, оригинальные переменные оставлены без изменения с приставкой date_time_ в названиях.
- Записи из таблиц об откликах, приглашениях и организациях содержат дополнительную переменную «date_last_updated» — дата первой публикации записи в открытых данных (ftp). Формат YYYY-MM-DD. Таким образом, можно отслеживать, когда сущность впервые появилась в наборе данных.
- Записи из таблиц о резюме и вакансиях имеют большой список переменных свободного ввода и содержат несколько дополнительных переменных «date_last_updated» — дата первой публикации записи в открытых данных (ftp), «inactive» — статус инактивациии, принимает значение «1», если запись в архиве или существует более новая версия записи, «date_inactivation» — дата изменения переменной inactive. Таким образом, можно не только увидеть дату первого появления вакансии или резюме в наборе данных, но и все архивные версии, начиная с 2018 г.
- Исходный атрибут «social_protecteds_social_protected», представлявший категории социальной защиты в разных сочетаниях, передаваемые списком: «Инвалиды», «Лица, освобождаемые из мест лишения свободы», «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет», «Многодетные семьи», «Несовершеннолетние работники», «Работники, имеющие детей-инвалидов», «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением», был преобразован в отдельные атрибуты («disabled», «released_persons», «single_parent», «large_families», «minor_workers», «workers_with_disabled_children», «caring_workers») по каждой категории со значением 1 в случае соответствия и 0 — при отсутствии данной категории.
- Исходный атрибут «job_benefits», представлявший преимущества вакансии в разных сочетаниях, передаваемые списком: «Оплата занятий спортом», «Путевки в оздоровительные учреждения», «Оплата питания», «ДМС», был преобразован в отдельные атрибуты («payment_sports_activities», «vouchers_health_institutions», «payment_meals», «dms») по каждой категории со значением 1 в случае соответствия и 0 — при отсутствии данной категории.
- Для атрибута «company_name» все случаи заполнения одним символом, знаками препинания, пробелами или цифрами заменены на пустую строку. Три нуля в начале названия «000» были заменены на «ООО».
- Атрибуты «course_name» и «legal_name». В случаях когда соискатель оставил поля незаполненными, значения были изменены на «Название курса не было указано» и «Название организации не было указано» соответственно.
- Были очищены излишне детализованные данные, которые пользователь оставил в не подходящих для этого полях. В таких случаях они были заменены на REDACTED.
- Были произведены и другие изменения.
Источники данных
| Атрибут | Значение |
|---|---|
| Полное наименование источника данных | Портал по поиску работы и сотрудников ИАС ОБВ «Работа России» |
| Сокращенное наименование источника данных | «Работа России» |
| Владелец источника данных | Федеральная служба по труду и занятости (Роструд) |
| Краткое описание источника данных | Портал «Работа России» — это федеральная государственная информационная система, оператором которой выступает Роструд. На портале размещаются вакансии от российских работодателей и резюме от российских граждан. Основное наполнение базы резюме портала происходит за счет регистрации граждан, которым оказывается государственная услуга по содействию занятости в центрах занятости населения (ЦЗН). Портал регулярно публикует обновляемые датасеты о вакансиях, резюме, откликах и приглашениях в разделе «Открытые данные». Данные публикуются в формате XML и могут содержать лишние символы, ошибки, описки и другие недостатки, что является следствием как ручного ввода сведений со стороны работодателей и соискателей, так и недостаточных процедур очистки и предобработки публикуемых открытых данных. Данные на портале «Работа России» доступны по API. |
| Ссылка на источник данных | https://trudvsem.ru/opendata/datasets |
| Перечень используемых классификаторов | Общероссийский классификатор профессий рабочих, должностей служащих и тарифных разрядов ОК 016-94 |
| Понятия, используемые в источнике | Отсутствуют |
| Методология и изменения методологии для источника данных | Детальный порядок сбора информации описан в Постановлении Правительства РФ от 25.08.2015 № 885 «Об информационно-аналитической системе Общероссийская база вакансий «Работа в России» |
| Ссылки на методологию | http://government.ru/docs/19388/ |
Ответственные за набор данных
| № | ФИО ответственного лица | Электронная почта ответственного лица |
|---|---|---|
| 1. | Бабушкина Валерия Олеговна | v.babushkina@data.rcsi.science |
| 2. | Тимошенко Анна Шоновна | a.timoshenko@data.rcsi.science |
