DOSA

Dataset for Paper "DOSA: Dravidian Code-Mixed Offensive Span Identification Dataset" to Appear at First Workshop on Speech and Language Technologies for Dravidian Languages.

This paper presents the Dravidian Offensive Span Identification Dataset (DOSA) for under-resourced Tamil-English and Kannada-English code-mixed text. The dataset addresses the lack of code-mixed datasets with annotated offensive spans by extending annotations of existing code-mixed offensive language identification datasets. It provides span annotations for Tamil-English and Kannada-English code-mixed comments posted by users on YouTube social media. Overall the dataset consists of 4786 Tamil-English comments with 6202 annotated spans and 1097 Kannada-English comments with 1641 annotated spans, each annotated by two different annotators. We further present some of our baseline experimental results on the developed dataset, thereby eliciting research in under-resourced languages, leading to an essential step towards semi-automated content moderation in Dravidian languages.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
EACL_Final_Paper.pdf		EACL_Final_Paper.pdf
README.md		README.md
kannada_final.tsv		kannada_final.tsv
tamil_final.tsv		tamil_final.tsv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

EACL_Final_Paper.pdf

EACL_Final_Paper.pdf

README.md

README.md

kannada_final.tsv

kannada_final.tsv

tamil_final.tsv

tamil_final.tsv

Repository files navigation

DOSA

About

Releases

Packages

manikandan-ravikiran/DOSA

Folders and files

Latest commit

History

Repository files navigation

DOSA

About

Resources

Stars

Watchers

Forks