Вам будет предоставлен доступ к базе данных с одной таблицей: id обращения, datetime обращения, бренд и тип источника (органика или другое). Также будет предоставлен файл csv с количеством показов списка запросов по брендам: дата, бренд, id поисковой фразы и количество ее показов. Нужно написать скрипт на языках python/R и SQL, который определит зависимость ежедневного количества обращений с каналов органики от спроса (частотности запросов в вордстате).
- Файл самого скрипта
.py
/.ipynb
/.r
. - Файл
requirements.txt
со списком пакетов и их версий, использованных при работе (для воспроизводимости результата) или его аналог для языка R. - Пояснительная записка к результату (опционально, может быть написана в самом блокноте рядом с кодом).
- Вам на почту или другим способом высылается пара логин-пароль.
- Сервер PostgreSQL расположен по адресу analytics.maximum-auto.ru:15432. Подключиться нужно к базе данных
data
. - В БД лежит таблица
wordstat_data.communications
, в которой хранится информация обо всех обращениях пользователей, произошедших за определенный период, в разбивке по дням и брендам. - На почту отправим файл в формате csv с выгрузкой по частотности запросов в разбивке по брендам и дням за тот же период. Значение в столбце
shows
показывает скользящую сумму количества показов по окну за предшествующий месяц. Это означает, что данные за 01.08.2021 содержат сумму количества показов за период 01.07.2021 - 31.07.2021 и т.д. Подробности см. в описании поляSearchedWith
в справке Yandex.Direct API. - Напишите скрипт, который решает задачу:
- Формирует общий датасет, соединяя данные из таблицы обращений на сервере PostgreSQL с данными из файла csv.
- Анализирует собранные данные на предмет их однородности и наличия аномалий.
- Проверяет, существует ли взаимосвязь между количеством обращений с органики по бренду и количеством показов соответствующих поисковых фраз.
- Напишите пояснительную записку, в которой:
- Кратко опишите подход к решению задачи.
- Опишите результаты анализа: существует связь или нет, какие-то дополнительные ее характеристики (сила, статистическая значимость и подобное)
- (Опционально) Опишите дальнейшие шаги по улучшению модели или предобработке данных, которые можно было бы предпринять в реальной, а не тестовой задаче.