SF-studing-projects

Учебные проекты, выполненные во время обучения на курсе Data Scientist

Проект 1. Анализ вакансий HeadHunter

Предобработка, анализ и очистка данных по датасету анкет соискателей на сайте HeadHunter.

Проект 2. SQL - анализ вакансий HeadHunter

ссылка на проект:
https://docs.google.com/document/d/1k8dsZiDulK1yhJPxE-HVzFuwhM2BzCvWaJ0uzsV08P4/edit?usp=sharing

Проект 3. Прогнозирование рейтинга отеля на Booking

Предсказание оценки отеля клиентом на основе полученного отзыва, данных об отеле и клиенте.
Использованы дополнительные библиотеки: NLTK, geocoder.opencage.

Проект 4. Задача бинарной классификации по табличным данным

Техническая задача специалиста Data Science: построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать, воспользуется он предложением об открытии депозита или нет.
Построены простые базовые модели - логистическая регрессия и решающее дерево.
Построены ансамблевые модели - случайный лес, градиентный бустинг на решающих деревьх, стекинг из деревьев, регрессии и бустинга.
Реализованы примеры подбора гиперпараметров - поиск по сетке, Tree-structured Parzen estimator (в Optuna).

Проект 5. Задача регрессии

Техническая задача специалиста Data Science: построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать числовой признак — время поездки такси, то есть решить задачу регрессии.
Построены несколько моделей (линейная регрессия, линейная регрессия на полиномиальных признаках, дерево решений, случайный лес, градиентный бустинг), выбрана модель с наилучшим результатом по заданной метрике. Дополнительно спользована библиотека xgboost.

Проект 6. Сегментирование клиентов онлайн-магазина подарков

Бизнес-задача: произвести сегментацию существующих клиентов, проинтерпретировать эти сегменты и определить стратегию взаимодействия с ними.
Техническая задача специалиста Data Science: построить модель кластеризации клиентов на основе их покупательской способности, частоты заказов и срока давности последней покупки, определить профиль каждого из кластеров (RFM-кластеризация).
Проведена предобработка и очистка данных:

удалены пропуски и дубликаты; идентифицированы и удалены транзакции-возвраты,
количество возвращенного товара по заказам выделено в отдельный признак;
идентифицированы и удалены транзакции специального характера, не представляющие интереса для кластерного анализа клиентов.

Рассмотрены распределения клиентов, количества заказов и выручки по странам.
Проанализировано количество продаж по месяцам, дням недели, времени суток.
Сформирован датасет для анализа клиентов по модели RFM: Recency-Frequency-Monetary Value. Проведено PCA-снижение размерности до двух компонент, проведена кластеризация несколькими методами, выбран оптимальный алгоритм.
Проведен анализ отличий в разных кластерах.
Аналогичные шаги кластеризации повторены для нелинейного снижения размерности методом t-SNE.
Построены модели классификации клиентов.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
project_1		project_1
project_3		project_3
project_4		project_4
project_5		project_5
project_6		project_6
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

project_1

project_1

project_3

project_3

project_4

project_4

project_5

project_5

project_6

project_6

.gitignore

.gitignore

README.md

README.md

Repository files navigation

SF-studing-projects

Проект 1. Анализ вакансий HeadHunter

Проект 2. SQL - анализ вакансий HeadHunter

Проект 3. Прогнозирование рейтинга отеля на Booking

Проект 4. Задача бинарной классификации по табличным данным

Проект 5. Задача регрессии

Проект 6. Сегментирование клиентов онлайн-магазина подарков

About

Releases

Packages

Languages

Yyalexx/SF-studing-projects

Folders and files

Latest commit

History

Repository files navigation

SF-studing-projects

Проект 1. Анализ вакансий HeadHunter

Проект 2. SQL - анализ вакансий HeadHunter

Проект 3. Прогнозирование рейтинга отеля на Booking

Проект 4. Задача бинарной классификации по табличным данным

Проект 5. Задача регрессии

Проект 6. Сегментирование клиентов онлайн-магазина подарков

About

Topics

Resources

Stars

Watchers

Forks

Languages