Skip to content

Yyalexx/SF-studing-projects

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

SF-studing-projects

Учебные проекты, выполненные во время обучения на курсе Data Scientist

Проект 1. Анализ вакансий HeadHunter

Предобработка, анализ и очистка данных по датасету анкет соискателей на сайте HeadHunter.

Проект 2. SQL - анализ вакансий HeadHunter

ссылка на проект:
https://docs.google.com/document/d/1k8dsZiDulK1yhJPxE-HVzFuwhM2BzCvWaJ0uzsV08P4/edit?usp=sharing

Проект 3. Прогнозирование рейтинга отеля на Booking

Предсказание оценки отеля клиентом на основе полученного отзыва, данных об отеле и клиенте.
Использованы дополнительные библиотеки: NLTK, geocoder.opencage.

Проект 4. Задача бинарной классификации по табличным данным

Техническая задача специалиста Data Science: построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать, воспользуется он предложением об открытии депозита или нет.
Построены простые базовые модели - логистическая регрессия и решающее дерево.
Построены ансамблевые модели - случайный лес, градиентный бустинг на решающих деревьх, стекинг из деревьев, регрессии и бустинга.
Реализованы примеры подбора гиперпараметров - поиск по сетке, Tree-structured Parzen estimator (в Optuna).

Проект 5. Задача регрессии

Техническая задача специалиста Data Science: построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать числовой признак — время поездки такси, то есть решить задачу регрессии.
Построены несколько моделей (линейная регрессия, линейная регрессия на полиномиальных признаках, дерево решений, случайный лес, градиентный бустинг), выбрана модель с наилучшим результатом по заданной метрике. Дополнительно спользована библиотека xgboost.

Проект 6. Сегментирование клиентов онлайн-магазина подарков

Бизнес-задача: произвести сегментацию существующих клиентов, проинтерпретировать эти сегменты и определить стратегию взаимодействия с ними.
Техническая задача специалиста Data Science: построить модель кластеризации клиентов на основе их покупательской способности, частоты заказов и срока давности последней покупки, определить профиль каждого из кластеров (RFM-кластеризация).
Проведена предобработка и очистка данных:

  • удалены пропуски и дубликаты; идентифицированы и удалены транзакции-возвраты,
  • количество возвращенного товара по заказам выделено в отдельный признак;
  • идентифицированы и удалены транзакции специального характера, не представляющие интереса для кластерного анализа клиентов.

Рассмотрены распределения клиентов, количества заказов и выручки по странам.
Проанализировано количество продаж по месяцам, дням недели, времени суток.
Сформирован датасет для анализа клиентов по модели RFM: Recency-Frequency-Monetary Value. Проведено PCA-снижение размерности до двух компонент, проведена кластеризация несколькими методами, выбран оптимальный алгоритм.
Проведен анализ отличий в разных кластерах.
Аналогичные шаги кластеризации повторены для нелинейного снижения размерности методом t-SNE.
Построены модели классификации клиентов.

Releases

No releases published

Packages

No packages published