Skip to content
This repository has been archived by the owner on Sep 30, 2022. It is now read-only.

astromid/pandemicdatahack-track3

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

pandemicdatahack-track3

Команда: Работа не волк. Работа - это work

Kaggle: https://www.kaggle.com/c/pandemicdatahack/overview

Дополнительные данные: ссылка

Котировки на нефть, газ, валюты взяты отсюда; данные по COVID-19 взяты с Yandex DataLens; данные по ВВП, безработице и инфляции собраны с разных сайтов. Эмбеддинги fasttext

Описание решения:

  1. Настроили 5-Fold валидацию со стратификацией по году публикации резюме, потому что в train и test у них схожие распределения. Локальная валидация коррелировала с public leaderboard’ом.
  2. Для теста усредняли предсказания моделей, обученных на разных фолдах.
  3. 1 в таргете является выбросом, который портит модель. Поэтому сначала делали классификацию (CatBoost Classifier): выброс (salary < 300) или нет. На не выбросах обучали CatBoost Regressor на логарифмированном таргете, оптимизируя MSE. Выбрали именно CatBoost из-за встроенной обработка категориальных признаков и поддержки GPU.
  4. На тестовых данных запускали обе модели, итоговое предсказание = (значение регрессии) * (вероятность от классификации).
  5. По исходным данным был большой препроцессинг, его вы можете найти в файле preprocess.py
  6. Использовали дополнительные данные (с 2015 по 2020 года): ВВП России по годам в рублях и долларах; ежедневные котировки евро, доллара, нефти, газа, золота; количество больных COVID-19 по дням и дням-регионам.
  7. Для текстовых полей из данных по образовании брался усредненный вектор fasttext (100-dim) по словам в предложении. Текст предобрабатывался с помощью удаления html-тэгов и лемматизация с pymorphy

Обзор данных:

  1. eda 1

  2. eda 2

Предобработка данных:

  1. Основной скрипт предобработки

  2. Добавление внешних данных

  3. Очистка текстовых данных в employements.csv

  4. Fasttext embeddings для текстовых полей

Обучение и предсказание моделей:

  1. Обучение catboost моделей

  2. Обучение моделей Random Forest и Linear Reagression

  3. Обучение моделей LightGBM и код для обучения в папке src/

  4. Усреднение различных предсказаний

Сабмиты

  1. Папка с сабмитами