Tabular: Deep learning models vs boostings

По мотивам статьи Why do tree-based models still outperform deep learning on typical tabular data?

В этом репозитории я реализую и запускаю четыре вида моделей (Catboost, MLP, TabNet и ResNet) на нескольких задачах регрессии, предложенных авторами статьи. В качестве скоринга во всех датасетах используется r2_score. В качестве сравнения я использую неинформативные признаки (для наборов данных с [1, 5, 20]_trash_features в названии) и случайный поворот матрицы признаков (_rotated)

В отличие от авторов, использующих случайный поиск, я использую отбор гиперпараметров с помощью Optuna, что должно уменьшить число запусков до сходимости -- с 200 у авторов до 100 у меня. Логирование осуществляется в wandb, а также в папку images_final.

Для запуска

Установите зависимости: pip3 install -r requirements.txt
Выберите нужный конфиг (датасет, модель, число итераций отбора параметров) в теле файла src/test.py
Запустите обучение: python3 src/test.py
При необходимости, сгенерируйте новые данные с помощью файлов src/make_rotation.py, src/make_trash_features.py, добвьте новые модели (реализуйте новые функции objective_XXX(trial) в src/test.py)

Результаты

Сравннение моделей

Обычный датасет, без поворотов, без случайных признаков

wine	fifa

Датасет со случайным поворотом

wine	fifa

Датасет с одним случайным признаком

wine	fifa

Датасет с пятью случайными признаками

wine	fifa

Датасет с двадцатью случайными признаками

wine	fifa

Датасет с двадцатью случайными признаками и поворотом

wine	fifa

Примеры запусков

---	---
Boosting	MLP

ResNet	TabNet

Отчёт в wandb: https://wandb.ai/shishckova/tabular_final

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
data		data
images_final		images_final
plots		plots
src		src
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data

data

images_final

images_final

plots

plots

src

src

.gitignore

.gitignore

README.md

README.md

requirements.txt

requirements.txt

Repository files navigation

Tabular: Deep learning models vs boostings

По мотивам статьи Why do tree-based models still outperform deep learning on typical tabular data?

Для запуска

Результаты

Сравннение моделей

Обычный датасет, без поворотов, без случайных признаков

Датасет со случайным поворотом

Датасет с одним случайным признаком

Датасет с пятью случайными признаками

Датасет с двадцатью случайными признаками

Датасет с двадцатью случайными признаками и поворотом

Примеры запусков

About

Releases

Packages

Languages

ShishckovA/TabularDLVersusBoosting

Folders and files

Latest commit

History

Repository files navigation

Tabular: Deep learning models vs boostings

По мотивам статьи Why do tree-based models still outperform deep learning on typical tabular data?

Для запуска

Результаты

Сравннение моделей

Обычный датасет, без поворотов, без случайных признаков

Датасет со случайным поворотом

Датасет с одним случайным признаком

Датасет с пятью случайными признаками

Датасет с двадцатью случайными признаками

Датасет с двадцатью случайными признаками и поворотом

Примеры запусков

About

Topics

Resources

Stars

Watchers

Forks

Languages