/Pharmacy recommendation system - Проект рекомендательной системы для аптечной сети
- Стек: HDFS, Cassandra, Spark_ML (Word2Vec, ALS, Kmeans);
- Данные: данные продаж аптечной сети за 11 месяцев
- Задача: Построение рекомендательной системы, делающей предскзание товара на основе похожих покупателей и похожих товаров (2 метода). А также кластеризация товаров на классы по контексту покупок.
/job change of data scientists - Потоковая обработка данных. Прогнозирование трудоустройства.
- Стек: HDFS, Kafka, Cassandra, Spark_ML (LogisticRegression);
- Данные: соревнование - https://www.kaggle.com/arashnic/hr-analytics-job-change-of-data-scientists
- Задача: Прогнозирование на потоке (из Kafka), будет ли кандидат будет работать в компании-нанимателе.
/pharmacy turnover forecast - моделирование месячного товарооборота аптеки
- Стек: pandas, numpy, fbprophet/ (https://facebook.github.io/prophet/docs/installation.html#python)
- Задача: С помощью машинного обучения предсказать выручку аптеки на основе данных о ежедневных продажах за 2 предыдущих года с учетом сезонности и праздничных дней.
- Модель: fbp.Prophet, метрика: mean_absolute_error
/seasonality of drug sales - проверка гипотезы о наличии сезонности продаж транквилизаторов
- Стек: numpy, pandas, seaborn, scipy
- Данные: с kaggle - https://www.kaggle.com/milanzdravkovic/pharma-sales-data
- Задача: Проверка гипотезы. Есть мнение, что транквилизаторы продаются лучше в декабре. Проверить, что ЛП из группы N05B - Psycholeptics drugs, Anxiolytic drugs имеют повышенные продажи в декабре и это статистически значимы.
- Описание: Набор данных построен на основе исходного набора данных, состоящего из 600000 транзакционных данных, собранных за 6 лет (период 2014-2019 гг.). С указанием даты и времени продажи, торговой марки фармацевтического препарата и проданного количества, экспортированных из системы точек продаж на индивидуальном уровне. аптека. Выбранная группа препаратов из набора данных (57 препаратов) классифицируется по категориям системы анатомо-терапевтической химической классификации (АТХ).
/prediction_of_cardiovascular_disease - Прогнозирование наличия сердечно-сосудистого заболевания по введенным данным. Бинарная классификация
- Стек:ML: sklearn, pandas, numpy, API: flask
- Данные: соревнование - https://mlbootcamp.ru/ru/round/12/sandbox/
- Задача: предсказать наличиe сердечно-сосудистого заболевания по введенным данным. Бинарная классификация
/crawl hh and sj - Парсинг сайтов о работе hh.ru и superjob.ru
- Стек: scrapy, MongoDB
- Задача: Сбор вакансий с сайтов о работе и помещение их в базу данных MongoDB или файл .csv
/predictions of apartment prices - предсказание цен на квартиры в Москве
- Стек: sklearn, pandas, numpy
- Данные: с kaggle - https://www.kaggle.com/c/realestatepriceprediction
- Задача: С помощью модели, предсказать цены для квартир из тестового датасета.
- Модель: ExtraTreesRegressor, метрика: r2_score
/mysql_b_apteka - последовательный набор sql-запросов для создания MySQL-базы данных
- Стек: MySQL
Данная база данных представляет собой пример организации интернет-аптеки (учебный проект). В базе хранится информация о наличии товаров (stocks) в разных аптеках, а также о заказах товаров (orders), и из статусах. Также в базе хранятся классификация товаров по категориям и по другим параметрам.