Skip to content

turkish-nlp-suite/BeyazPerde-Movie-Reviews

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

BeyazPerde-Movie-Reviews

Beyazperde Movie Reviews offers Turkish sentiment analysis datasets that is scraped from popular movie reviews website Beyazperde.com. Currently there are 2 datasets, Top 300 Movies Dataset and All Movies Dataset. Both datasets are presented in JSON format, each instance of the dataset is a JSON consisting of

  • movie URL
  • movie name
  • genre info
  • description
  • director info
  • actors
  • creators/producers
  • music creators
  • rating info
  • a list of reviews, each element of the list is a review and a rating value in 0-5 scala.

Here's an example JSON for you:

  {
    "url": "https://www.beyazperde.com/filmler/film-178014",
    "name": "Avatar: Suyun Yolu",
    "genre": [
      "Bilimkurgu",
      "Macera",
      "Fantastik",
      "Aksiyon"
    ],
    "desc": "Avatar serisinin 2009 yılında küresel bir fenomen haline gelen devam halkası; bu defa James Cameron'un yaratmış olduğu öykü evreninin hem kökenlerine iniyor hem de sınırlarını genişletmeyi hedefliyor. Avatar'da yaşanan olaylardan birkaç yıl sonra Jake ve Neytiri Pandora'da kendi ailelerini kurmuştur. Ancak onlar evlerini terk etmek zorunda kalır. Bu yüzden Jake ve Neytiri, suyun yüzeri ve altı dahil olmak üzere Pandora'nın dışındaki yerleri keşfetmeye başlar.",
    "directors": "James Cameron",
    "actors": "Sam Worthington, Zoe Saldana, Sigourney Weaver, Stephen Lang",
    "creators": "James Cameron, Rick Jaffa, Amanda Silver, Amanda Silver, James Cameron, Rick Jaffa, Josh Friedman, Shane Salerno",
    "musicBy": "Simon Franglen, The Weeknd",
    "rating": {
      "totalRating": "4,3",
      "ratingCount": "187",
      "reviewCount": "45",
      "bestRating": "5",
      "worstRating": "0,5"
    },
    "reviews": [
      {
        "rating": "4,0",
        "review": "Filmi bugün Nişanlımla birlikte izleme şansım oldu. Avatarı ilk izlediğimde nedense çokta etkisinde kalmamıştım. bu filme de gittiğimde ilk filmi unutmuştum bile. Avatar 2 yi izleyince Avatar evreni ilgimi çekmeyi başardı. üçüncü filmi beklemiyorum desem yalan olur. Üçüncü Filmde fantastik ögelerden çok bilim kurgu yönünün ağır basması filmi daha anlamlı kılacağını düşünüyorum. Umarım üçüncü filmde yönetmen bu konuya önem verir. Onun dışında Film son zamanlarda izlediğim en naif en ahlaklı yapım diyebilirim. Ailecek gönül rahatlığıyla gidip izleyebilirsiniz. Günümüz yapımları gibi saçma sapan cinsel içerikli konuşmalardan, hareketlerden ibaret değildi. Filmde iki önemli mesaj vardı bunlardan biri aile diğeri küresel iklim değişikliği yani Doğa. Hep doğaya hemde aile yaşantısına karşı çokça mesaj çokça replik barındıran anlamlı bir filmdi. (Aile olmak hem en büyük zaafımız hemde en büyük gücümüz.) Üç saat olmasına rağmen hiçbir sıkılmadım. Aksiyon ve Trajediyi harmanlayıp izleyiciye çok iyi aktarıldığını düşünüyorum. Görsel efekt çekim teknikleri karakterler ve mekanlar harikulade diyebilirim. Tek kusur gördüğüm şey keşke iyi ve kötünün savaşını sadece bir aile sorununa indirgemeyip bu sorunu gezegenin tüm sorunu olarak göstermesi daha ihtişamlı olabilirdi. Sonuçta düşmanlar gezegene sadece Jake için gelmiyordu gezegeni tümüyle işgal edip, sömürmek için geliyordu. Ayrıca çocuk karakterler filmin yarısından sonra biraz fazla filme dahil olmaya başladı, bu bazı seyircileri sıkmış olabilir. Neyse sonuçta James Cameron müthiş bir evren oluşturmuş, izlemeye değer."
      },
      {
      ....
      }
    ]
  }

Top 300 Movies

Top 300 Movies include audience reviews about best 300 movies of all the time. Here's the star rating distribution:

star rating count
0.5 1.657
1.0 535
1.5 273
2.0 608
2.5 2.439
3.0 2.277
3.5 5.550
4.0 13.248
4.5 10.077
5.0 17.351
total 54.015

As one sees, this dataset is highly unbalanced, number of 4 and 5 star ratings are much higher than 0, 1, 2 and 3 star reviews. This dataset offers the challenge of understanding the sentiment in a refined way, dissecting the positive sentiment into "very positive" or "okayish positive".

All Movies Dataset

This dataset contains audience reviews about 4500 popular movies of all times. Here's the star rating distribution for this dataset:

star rating count
0.5 3.635
1.0 2.325
1.5 1.077
2.0 1.902
2.5 4.767
3.0 4.347
3.5 6.495
4.0 9.486
4.5 3.652
5.0 7.594
total 45280

This work is supported by Google Developer Experts Program. Part of Duygu 2022 Fall-Winter collection, "Turkish NLP with Duygu"/ "Duygu'yla Türkçe NLP". All rights reserved. If you'd like to use the models in your own work, please kindly cite the paper A Diverse Set of Freely Available Linguistic Resources for Turkish:

@inproceedings{altinok-2023-diverse,
    title = "A Diverse Set of Freely Available Linguistic Resources for {T}urkish",
    author = "Altinok, Duygu",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.acl-long.768",
    pages = "13739--13750",
    abstract = "This study presents a diverse set of freely available linguistic resources for Turkish natural language processing, including corpora, pretrained models and education material. Although Turkish is spoken by a sizeable population of over 80 million people, Turkish linguistic resources for natural language processing remain scarce. In this study, we provide corpora to allow practitioners to build their own applications and pretrained models that would assist industry researchers in creating quick prototypes. The provided corpora include named entity recognition datasets of diverse genres, including Wikipedia articles and supplement products customer reviews. In addition, crawling e-commerce and movie reviews websites, we compiled several sentiment analysis datasets of different genres. Our linguistic resources for Turkish also include pretrained spaCy language models. To the best of our knowledge, our models are the first spaCy models trained for the Turkish language. Finally, we provide various types of education material, such as video tutorials and code examples, that can support the interested audience on practicing Turkish NLP. The advantages of our linguistic resources are three-fold: they are freely available, they are first of their kind, and they are easy to use in a broad range of implementations. Along with a thorough description of the resource creation process, we also explain the position of our resources in the Turkish NLP world.",
}

Shield: CC BY-SA 4.0

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

CC BY-SA 4.0