Estratificação de dados multi-label com o Scikit-multilearn

A capacidade de classificar e reconhecer certos tipos de dados vem sendo exigida em diversas aplicações modernas e, principalmente, onde o Big Data é usado para tomar todos os tipos de decisões, como no governo, na economia e na medicina. As tarefas de classificação também permitem que pesquisadores consigam lidar com a grande quantidade de dados as quais têm acesso.

Sobre a estratificação do Scikit-multilearn

Existe uma biblioteca, chamada Scikit-multilearn, que permite realizar diversas operações, mediante as implementações nativas do Python encontradas na biblioteca de métodos populares da classificação multi-label. A implementação da estratificação iterativa do Scikit-multilearn visa fornecer uma distribuição equilibrada das evidências das classes de um conjunto de dados até uma determinada ordem.

Definição do problema

Neste projeto, analisamos o que isso significa utilizando o conjunto de treino desbalanceado disponível na competição Toxic Comment Classification, disponível na comunidade de Ciência de Dados Kaggle: Your Home for Data Science. Esta competição trata de um problema de classificação de texto, mais precisamente de classificação de comentários tóxicos.

Os dados possuem um grande número de comentários do Wikipédia, classificados de acordo com os seguintes rótulos:

toxic
sever_toxic
obscene
threat
insult
identity_hate

Para mais informações sobre esse projeto, acesse o artigo disponível no blog do Insight Data Science Lab ou no Medium.

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
GEAM_multilabel_estratification.ipynb		GEAM_multilabel_estratification.ipynb
README.md		README.md
multilabel_stratification_skmultilearn.ipynb		multilabel_stratification_skmultilearn.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

GEAM_multilabel_estratification.ipynb

GEAM_multilabel_estratification.ipynb

README.md

README.md

multilabel_stratification_skmultilearn.ipynb

multilabel_stratification_skmultilearn.ipynb

Repository files navigation

Estratificação de dados multi-label com o Scikit-multilearn

Sobre a estratificação do Scikit-multilearn

Definição do problema

About

Releases

Packages

Languages

barbaraneves/multi-label-stratification-skmultilearn

Folders and files

Latest commit

History

Repository files navigation

Estratificação de dados multi-label com o Scikit-multilearn

Sobre a estratificação do Scikit-multilearn

Definição do problema

About

Topics

Resources

Stars

Watchers

Forks

Languages