Skip to content
This repository has been archived by the owner on Mar 17, 2022. It is now read-only.
/ AuthorshipAttribution Public archive

Курсовая работа по обработке данных

Notifications You must be signed in to change notification settings

d0rj/AuthorshipAttribution

Repository files navigation

Атрибуция текста авторством

English version of README

Описание

Курсовая работа по обработке данных.

Строются свёрточные НС с 3мя и 4мя параллельными входными слоями, обрабатывающие триграммную форму предложений.

Ход выполнения скриптов

1 2 3
create_dataset.ipynb dataset_preprocessing.ipynb analysys.ipynb
Create dataset Preprocessing Analysys

Скрипты выплняются полностью последовательно. Первые два не нуждаются в вычислителях мощнее средней рабочей санции (ноутбука, к примеру).

Однако для блока analysys.ipynb необходимы довольно мощные машины, рекомендуется ускоритель GPU (просчёт выполнялся на Kaggle, где с включённым GPU время обучения уже было приемлимым).

Возможные улучшения

  • 4-граммы. Всё же результаты, как показывают применения до этого, будут получше;
  • Увеличение объёма обучающей выборки. Влечёт увеличение затрат на вычислительные мощности.