forked from jaanos/APPR-2019-20
/
projekt.Rmd
202 lines (130 loc) · 10.5 KB
/
projekt.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
---
title: "Analiza angleške prve lige"
author: "Jan Založnik"
output:
html_document: default
pdf_document:
includes:
in_header: lib/styles.sty
latex_engine: xelatex
---
```{r setup, echo=FALSE, results='hide', message=FALSE, warning=FALSE}
# Če želimo nastaviti pisave v PDF-ju, odkomentiramo
# in sledimo navodilom v programu.
#source("fontconfig.r", encoding="UTF-8")
# Uvoz vseh potrebnih knjižnic
source("lib/libraries.r", encoding="UTF-8")
```
```{r rstudio, echo=FALSE, results='asis'}
# Izris povezave do RStudia na Binderju
source("lib/rstudio.r", encoding="UTF-8")
```
# Izbira teme
Pri tem projektu bom analizira prvo angleško ligo v zadnjih 10 letih. Pri analizi slednje bom analiziral koliko boljše so ekipe na domači zelenici kot pa v gosteh, število golov na tekmo, število strelov v in izven okvira vrat, število kotov, število rumenih in rdečih kartonov in še več pomembnih statističnih podatkov. Dodal bom pa tudi sodnike, ki so na vsaki tekmi zelo pomemben dejavnik.
![](slike/epl.png)
***
# Obdelava, uvoz in čiščenje podatkov
```{r uvoz, echo=FALSE, message=FALSE}
source("uvoz/uvoz.r", encoding="UTF-8")
```
Uvozil sem podatke o prvi angleški ligi v obliki CSV s spletne strani https://datahub.io/sports-data/english-premier-league ter v obliki HTML z Wikipedije. Podatke imamo v treh razpredelnicah v obliki *tidy data*.
1. `Sezone` - osnovni statistični podatki o angleški prvi ligi (prva tabela)
- `Domača_ekipa` - spremenljivka: ime ekipe (neurejen faktor),
- `Gostujoča_ekipa` - spremenljivka: ime ekipe (neurejen faktor),
- `Zadetki_domača_ekipa` - spremenljivka: število zadetkov domačih (število: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9; kjer nikoli nobena ekipa ni zadela več kot 9 zadetkov),
- `Zadetki_gostujoca_ekipa` - spremenljivka: število zadetkov gostov (število: 0, 1, 2, 3, 4, 5, 6, 7; kjer nikoli nobena ekipa ni zadela več kot 7 zadetkov),
- `Rezultat` - spremenljivka: Rezultat na koncu tekme (črka : H = zmaga domačih, D = izenačeno, A = zmaga gostov),
- `Zadetki_domača_ekipa_polčas` - spremenljivka: število zadetkov domačih (število: 0, 1, 2, 3, 4, 5; kjer nikoli nobena ekipa ni zadela več kot 5 zadetkov)
- `Zadetki_gostujoča_ekipa_polčas` - spremenljivka: število zadetkov domačih (število: 0, 1, 2, 3, 4, 5; kjer nikoli nobena ekipa ni zadela več kot 5 zadetkov)
- `Rezultat_polčas` - spremenljivka: Rezultat ob polčasu (črka : H = vodstvo domačih, D = izenačeno, A = vodstvo gostov),
- `Sodnik` - spremenljivka: ime in priimek sodnika (neurejen faktor)
- `Streli_domaci` - spremenljivka: število strelov domačih (število),
- `Streli_gostje` - spremenljivka: število strelov gostov (število),
- `Streli_domaci_v_okvir` - spremenljivka: število strelov v okvir domači (število),
- `Streli_gostje_v_okvir` - spremenljivka: število strelov gostov (število),
- `Prekrski_domači` - spremenljivka: število prekrškov domači (število),
- `Prekrski_gostje` - spremenljivka: število prekrškov gostje (število),
- `Koti_domaci` - spremenljivka: število kotov domači (število),
- `Koti_gostje` - spremenljivka: število kotov gostje (število),
- `Rumeni_karton_domaci` - spremenljivka: število rumenih kartovno domači (število),
- `Rumeni_karton_gostje` - spremenljivka: število rumenih kartonov gostje (število),
- `Rdec_karton_domaci` - spremenljivka: število rdečih kartonov domači (število),
- `Rdec_karton_gostje` - spremenljivka: število rdečih kartonov gostje (število),
- `Kvota_zmaga_domacin` - spremenljivka: kvota za zmago domačih (število),
- `Kvota_neodloceno` - spremenljivka: kvota za neodločen izid (število)
- `Kvota_zamga_gost` - spremenljivka: kvota za zmago gostov (število).
2. `Najboljsi_trenerji` - trenerji, ki so osvojili ligo
- `Leto` - spremenljivka: leto (število),
- `Trener` - spremenljivka: ime in priimek trenerja (neurejen faktor),
- `Klub` - spremenljivka: s katerim klubom je trener osvojil ligo (besedilo).
3. `Trenutni_trenerji` - trenutni trenerji klubov
- `Name` - spremenljivka: ime in priiimek trenerja (besedilo),
- `Club` - spremenljivka: ime kluba (besedilo),
- `Appointed` - spremenljivka: datum, ko so predstavili trenerja (števili in besedilo).
***
# Analiza in vizualizacija podatkov
```{r vizualizacija, echo=FALSE, message=FALSE, warning=FALSE, results='hide'}
source("vizualizacija/vizualizacija.r", encoding="UTF-8")
```
Cilj moje naloge je ugotoviti, katere ekipe so v zadnjih desetih letih najbolj uspešne in kako to sovpada s statističnimi podatki, želim pokazati, da so ekipe načeloma uspešnejše, ko igrajo na domačem terenu. Zanimajo me tudi bolj splošni podatki, kot je na primer poštenost ekip, ki se kaže z rumenimi in rdečimi kartoni. Pokazal bom tudi, da je število kartonov zelo odvisna od sodnika, torej da nekateri sodniki hitreje posežejo po kartonu kot drugi(to bom pokazal s povprečjem, ki ga ima posamezen sodnik, na primer Mark Klettenburg 3.2 rumenih kartonov in 0.2 rdečih kartonov na tekmo).
Spodnji graf prikazuje povprečno število zadetkov domače in gostujoče ekipe v sezonah od 2009 do 2019. Kot sem predvideval je razlika očitna, kar kaže na to, da ima ekipa pred domačim občinstvom večjo željo po doseganju zadetkov in so pri tem bolj uspešni.
```{r Zadetki, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
Primerjava_zadetkov_domace_gostujoce_ekipe_graf
```
Na naslednjem grafu sem predstavil, najuspešnejše ekipe v tem obdobju. Vidimo lahko, da je Manchester City edino moštvo, ki je skupaj pridobilo več kot 800 točk. Na dnu grafa pa lahko vidimo Middlesbrough, ki je med elito "preživel" samo dve sezoni. V uspešnosti pa izstopa prvih 6 moštev ali kot jim v Veliki Britaniji pravijo "The big six". Na preskoku je pa tudi Everton, ki se počasi bliža nivoju najboljših v Premier league. Kot 7. uvršeno moštvo pa lahko vidimo Stoke City, ki pa je leta 2018 izpadlo iz najmočnejše lige na svetu.
```{r Najuspesnejse_ekipe, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
Najuspesnejse_ekipe
```
Zanimalo me je tudi ali so ekipe enakopravne na igrišču, če so torej enako kaznovane, ne glede na to ali igrajo doma ali v gosteh. Ugotovil sem, da sodniki veliko hitreje kaznujejo goste kot pa domače. Težko je oceniti ali je to posledica drugačnega taktičnega pristopa ekip ali pa so sodniki bolj milostni do domačih ekip. Dejstvo pa je, da so sodniki pod večjim pritiskom publike, če kaznujejo domače igralce.
```{r Rumeni_kartoni, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
stolpicni_graf_prejetih_rumenih_kartonov
```
Na naslednjem grafu lahko vidimo, povprečno število rumenih kartonov vseh sodnikov, ki so v tem obdobju na zelenici delili pravico. Rdeča črta označuje povprečje vseh izdanih rumenih kartonov. Iz tega lahko tudi sklepamo, da je na vsaki tekmi povprečno izdanih 3,3 rumenih kartonov.
```{r Sodniki_rumen, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
Sodniki_rumen_karton
```
Tudi pri naslednjem grafu lahko vidimo, da so z rdečim kartonom večinoma nagrajeni gostujoči nogometaši.
```{r Sodniki_rdec, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
stolpicni_graf_prejetih_rdecih_kartonov
```
Naslednji graf prikazuje seštevek vseh prekrškov. Opazimo lahko, da so ekipe, ki so storile največ prekrškov zelo uspešne. Vsi angleški velikani se nahajajo na vrhu grafa. Torej lahko sklepamo, da je agresiven pristop zelo pomemben pri zbiranju točk.
```{r Prekrski, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
graf_prekrskov
```
Naslednja dva grafa nam prikazujeta trenutne trenerje in pa trenerje, ki so vsaj enkrat osvojili Premier league. Menjevanje trenerjev v tej ligi je nekaj povsem običajnega. Zato sem hotel s prvim grafom pokazati, kako kratke so dobe trenerje, graf se dnevno tudi sam posodablja. Na drugem grafu pa lahko vidimo dominacijo Sir Alexa Fergusona, ki je kar trinjastkrat osovojil naslov prvaka.
```{r Doba_trenerjev, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
Trenutna_trenerska_doba
```
```{r trenerski prvaki, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
Najuspesnejsi_trenerji
```
Na naslednjem zemljevidu lahko vidimo približno lokacijo vseh klubov in število točk, ki so jih dosegli. Zaradi velikega števila klubov iz Londona sem tukaj upošteval samo povprečje vseh točk lodnovskih klubov in na zemljevidu označil celoten Greater London.
```{r Celotni_zemljevid, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
zemljevid_EngWal
```
Tukaj so na malo večjem zemljevidu prikazani klubi iz Londona. Podobno kot prej so tudi tu klubi razporejeni po številu osvojenih točk.
```{r londonski_klubi, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
zemljevid_london
```
***
# Napredna analiza podatkov
```{r analiza, echo=FALSE, message=FALSE}
source("analiza/analiza.r", encoding="UTF-8")
```
Prednost domačega igrišča je vedno manj pomembni fakotor v Premier league. To lahko vidimo na spodnjem grafu, saj se število doseženih golov domače ekipe počasi zmanjšuje, število golov gostujoče ekipe pa se počasi dviguje. Težko je ugotoviti zakaj je do tega dejansko prišlo. Menim pa, da je razlogov več. Definitivno je vsako leto bolj priljubljena angleška prva liga in s tem je več turistov, ki prihajajo na domače tekme svojih ljubljenih ekip. Torej kot prvi razlog bi lahko navedel, da je vedno slabše vzdušje na stadionih. Drugi razlog je, da so zelenice na vseh stadionih pripravljene vrhunsko, kar včasih ni bilo tako in je posledično domača ekipa imela prednost, saj so bili vajeni svojega terena. Pojavljajo se tudi vedno večje razlike med najboljšimi klubi in tistimi, ki se borijo za obstanek. Zato so finančni vložki pri prvih ekipah veliko večji in posledično je večja razlika v kakovosti igralcev. Razlogov je verjetno še veliko več.
```{r Napoved_golov, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
Napoved_golov
```
Klube sem razverstil tudi po uspešnosti v 5 različnih skupin in prikazal podrobneje zanimiv sever Anglije, osrednji del in pa London.
```{r Anglija_in_Wales, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
zemljevid_AngWal
```
```{r Sever_Anglije, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
zemljevid_severne_ANGLIJE
```
```{r srednja_Anglija, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
zemljevid_srednje_ANGLIJE
```
```{r London_skupine, echo=FALSE, fig.align='center',message=FALSE, warning=FALSE}
zemljevid_london_skupin
```