forked from jaanos/APPR-2019-20
/
projekt.Rmd
160 lines (111 loc) · 7.19 KB
/
projekt.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
---
title: "Poročilo pri predmetu Analiza podatkov s programom R"
author: "Zala Stopar Špringer"
output:
html_document: default
pdf_document:
includes:
in_header: lib/styles.sty
latex_engine: xelatex
runtime: shiny
---
```{r setup, echo=FALSE, results='hide', message=FALSE, warning=FALSE}
# Če želimo nastaviti pisave v PDF-ju, odkomentiramo
# in sledimo navodilom v programu.
#source("fontconfig.r", encoding="UTF-8")
# Uvoz vseh potrebnih knjižnic
source("lib/libraries.r", encoding="UTF-8")
```
```{r rstudio, echo=FALSE, results='asis'}
# Izris povezave do RStudia na Binderju
source("lib/rstudio.r", encoding="UTF-8")
```
# Izbira teme
Za projektno nalogo pri APPR bom analizirala najboljših 250 filmov po IMDb lestvici. Pri projektu bom gledala leto izdaje, zvrst, proračun, donosnost, oceno, dolžino, jezik, državo snemanja, ...
Cilj mojega projekta je ugotoviti katere komponente najbolj vplivajo na priljubljenost filma.
![](slike/imdb-filmi-slika.jpg)
vir: `https://exstreamist.com/imdb-top-250-movies-streaming-on-netflix-updated-monthly/`
***
# Obdelava, uvoz in čiščenje podatkov
```{r uvoz, echo=FALSE, message=FALSE, warning=FALSE}
source("uvoz/uvoz.r", encoding="UTF-8")
```
Uvozili smo podatke o filmih v obliki CSV s spletnih strani Kaggle in data.world ter v obliki HTML s IMDB spletne strani. Podatki so shranjenu v štirih razpredelnicah v obliki *tidy data*.
1. tabela:
- `Title` - naslov fima
- `Year` - spremenljivka: leto izdaje filma,
- `Runtime` - meritev: dolžina filma,
- `imdbRating` - meritev: ocena filma,
- `imdbID` - spemenljivka: številka filma,
- `Production` - spremenljivka: filmski studio, ki je film izdal,
- `Budget` - meritev: proračun za film,
- `Gross` - meritev: donosnost filma v milijonih.
2. tabela:
- `Title` - naslov fima
- `Country` - spremenljivka: država snemanja filma.
3. tabela:
- `Title` - naslov fima
- `Genre` - spremenljivka: zvrst filma.
4. tabela:
- `Title` - naslov fima
- `Language` - spremenljivka: govoreči jeziki v filmu.
***
# Analiza in vizualizacija podatkov
```{r vizualizacija, echo=FALSE, message=FALSE, warning=FALSE, results='hide'}
source("vizualizacija/vizualizacija.r", encoding="UTF-8")
```
Spodnji zemljevid prikazuje države v katerih so bili filmi snemani in koliko jih je bilo posnetih v posamezni državi.
V sivo obrarvanih državah ni bilo posnetega nobenega filma.
Kot po pričakovanjih, je bilo največ filmiv posnetih v ZDA, drugo največ pa v Veliki Britaniji. Zanimivo je, da je v večih evropskih državah bil posnet vsaj en film, medtem ko jih v Južni Ameriki ni bilo posnetih nič in le nekaj v Afriki in Aziji.
```{r zemljevid, echo=FALSE, fig.align='center', fig.cap='Zmeljevid držav snemanja filmov', warning=FALSE}
c
```
Graf, ki prikazuje povezave med oceno filma, prihodkom in dolžino.
Večina filmov je dolgih okoli 100 min. Film z največjih dobičkom ter film z najboljšo oceno pa sta oba dolga okoli 150 min.
Razberemo lahko, da donosnost filma ni nujno odvisna od dolžine ali ocene. Med filmi z najnižim dobičkom imamo filme vseh dolžin, od najkrajših do najdaljših. Prav tako je med nijimi nekaj najbolje ocenjenih filmov in veliko filmov z oceno nižjo od 8,5.
```{r graf1, echo=FALSE, fig.align='center', message=FALSE, warning=FALSE, fig.cap='Graf prihodka, dolžine in ocene filma'}
graf1
```
Spodnji graf prikazuje število filmov, posnetih v posameznem letu.
Vidimo lahko, da je med top250 zelo veliko filmov, ki so bili posneti v zadnjih 20 letih. Največ pa jih je bilo posnetih v letu 1995.
```{r graf2, echo=FALSE, fig.align='center', message=FALSE, warning=FALSE, fig.cap='Graf posnetih filmov po letih'}
graf2
```
Vsaka točka v naslednjem grafu prikazuje zvrst filma, leto, v katerem je bil posnet, ter oceno. Prikazanih je samo šest najbolje zastopanih zvrsti.
Jasno razvidno je, da je drama najbolj popularna zvrst, veliko pa je tudi trilerjev. Med rezultati pa je zlo malo akcijskih filmov ter kriminalk.
```{r graf3, echo=FALSE, fig.align='center', message=FALSE, warning=FALSE, fig.cap='Graf zvrsti, ocene in leta izdaje'}
graf3
```
Spodnji graf prikazuje filme, ki pripadajo filskim studijem, ki so posneli vsaj 15 filmov od najboljših 250.
Zanimivo je, da je film z največjim proračunom izdal 20th Century Fox, med tem ko so imeli vsi ostali filmi posneti v tem studiju dokaj majhen proračun. Najbolje ocenjen film je bil posnet v studijih Paramount Pictures, prav tako pa ima tudi enega manjših proračunov.
Vidimo lahko, da imajo vsi filmi United Artists nižji proračun ter približno enako oceno.
```{r graf4, echo=FALSE, fig.align='center', message=FALSE, warning=FALSE, fig.cap='Graf ocene, proračuna in filskih studijev'}
graf4
```
Iz naslednjega grafa lahko razberemo zastopanost govorečih jezikov v najboljših 250 filmih.
Ni presenetljivo, da je angleščina najpogosteje govorjen jezik v najboljših 250 filmih.
Med ostalimi jeziki se največkrat pojavijo še francoščina, nemščina, španščina in italijanščina.
```{r graf5, echo=FALSE, fig.align='center', message=FALSE, warning=FALSE, fig.cap='Graf govorečih jezikov v filmih'}
graf5
```
***
# Napredna analiza podatkov
```{r analiza, echo=FALSE, message=FALSE, warning=FALSE, results='hide'}
source("analiza/analiza.r", encoding="UTF-8")
```
Graf prikazuje povezavo med prihodkom in proračunom ter povezavo med dolžino filma ter proračunom.
Na zgornjem grafu lahko vidimo, da prihodek ni zelo odvisen od proračuna. Ne gledena višino proračuna je dobiček večinoma pod 200 mio dolarjev. Seveda je tudi nekaj izjem, ki imajo visok tako prihodek, kot tudi proračun.
Tudi na spodnjem grafu lahko opazimo, da dolžina filma ni ravno odvisna od proračuna. Veliko je krajših filmov, ki imajo večji proračun od daljših.
```{r analiza1, echo=FALSE, fig.align='center', message=FALSE, warning=FALSE, fig.cap='Grafa prihodkov in proračuna ter dolžine filma in proračuna'}
grid.arrange(analiza1, analiza3, nrow=2)
```
***
```{r shiny, echo=FALSE}
shinyAppDir("shiny", options=list(width="100%", height=600))
```
***
# Zaključek
Raziskovala sem kako na priljubljenost film vplivajo leto izdaje, dolžina filma, filmski studio, proračun, prihodek, država snemanja, govoreči jeziki ter žanr filma.
Ugotovila sem, da je največ filmov posnetih v ZDA, zato ni presenetljivo, da je najpogosteje uporabljen jezik angleščina. Med najbolj priljubljene zvrsti spadajo drama, komedija in triler. Veliko več je filmov, ki so bili posneti v zadnjih 30 letih. Filmski studii, ki so posneli največ priljubljenih filmov so United Artists, 20th Century Fox, Warner Bros. in Paramount pictures.
Iz grafov je razvidno, da ocena filma ni odvisna od dobička, pa tudi ne od proračuna ali dolžine filma. Če so filmski sudii v snemaje filma vložili veliko denarja se to ne kaže v dolžini filma, prav tako pa tudi dobiček ni nujno velik, če je začetni proračun visok.
Z mojo raziskavo sem ugotovila, da samo s statističnimi podatki ni možno dobiti recepta za najboljši film. Veliko je faktorjev, ki vplivajo na kakovost filma in jih je težko analizirati, kot so zanimiva zgodba, dobri igralci, edinstvena glasba, lepi kostumi ... Težko je najti popolno kombinacijo, ki bi skupaj sestavile film, zanimiv za ponovne oglede.