forked from jaanos/APPR-2019-20
/
projekt.Rmd
192 lines (145 loc) · 6.99 KB
/
projekt.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
---
title: "Poročilo pri predmetu Analiza podatkov s programom R"
subtitle: "Analiza namena uporabe interneta v Sloveniji"
author: "Jakob Svetina"
output:
html_document: default
pdf_document:
includes:
in_header: lib/styles.sty
latex_engine: xelatex
# runtime: shiny
---
```{r setup, echo=FALSE, results='hide', message=FALSE, warning=FALSE}
# Če želimo nastaviti pisave v PDF-ju, odkomentiramo
# in sledimo navodilom v programu.
#source("fontconfig.r", encoding="UTF-8")
# Uvoz vseh potrebnih knjižnic
source("lib/libraries.r", encoding="UTF-8")
```
```{r rstudio, echo=FALSE, results='asis'}
# Izris povezave do RStudia na Binderju
source("lib/rstudio.r", encoding="UTF-8")
```
# Izbira teme
Tema: Analiza namena uporabe interneta v Sloveniji
V projektni nalogi bom analiziral namen uporabe interneta v Sloveniji v letih 2007-2014.Zanima me, kako se spreminja uporaba interneta pri posameznikih, glede na starost, spol, izobrazbo, status aktivnosti in stopnjo urbanizacije. Poskušal bom ugotoviti, na katere uporabe interneta najmanj vplivajo dane spremenljivke, torej kaj posameznik uporablja ne glede na spol, starost, ...
***
# Obdelava, uvoz in čiščenje podatkov
```{r uvoz, echo=FALSE, message=FALSE}
source("uvoz/uvoz.r", encoding="UTF-8")
```
Vhodni podatki so v obliki .csv.
Vir podatkov:
- https://pxweb.stat.si/SiStatDb/pxweb/sl/20_Ekonomsko/20_Ekonomsko__23_29_informacijska_druzba__95_uporaba_inter_arhiv/?tablelist=true
Podatki so v 5 tabelah:
Tabela 1: Namen uporabe interneta po starostnih razredih in spolu - 'starostni_razredi_in_spol':
- 'namen uporabe interneta' - (neurejen faktor)
- 'leto' - (število)
- 'število posameznikov - skupaj' - (število)
- '16-24' - (število)
- '25-34' - (število)
- '35-44' - (število)
- '45-54' - (število)
- '55-64' - (število)
- '65-74' - (število)
- 'moški - skupaj' - (število)
- 'moški 16-24' - (število)
- 'moški 35-54' - (število)
- 'moški 55-74' - (število)
- 'ženske - skupaj' - (število)
- 'ženske 16-24' - (število)
- 'ženske 35-54' - (število)
- 'ženske 55-74' - (število)
Tabela 2: Namen uporabe interneta po izobrazbi in spolu - 'izobrazba_in_spol':
- 'namen uporabe interneta' - (neurejen faktor)
- 'leto' - (število)
- 'število posameznikov - skupaj' - (število)
- 'največ oš izobrazba' - (število)
- 'srednja izobrazba' - (število)
- 'vsaj visokošolska izobrazba' - (število)
- 'moški - skupaj' - (število)
- 'moški največ oš izobrazba' - (število)
- 'moški srednja izobrazba' - (število)
- 'moški vsaj visokošolska izobrazba' - (število)
- 'ženske - skupaj' - (število)
- 'ženske največ oš izobrazba' - (število)
- 'ženske srednja izobrazba' - (število)
- 'ženske vsaj visokošolska izobrazba' - (število)
Tabela 3: Namen uporabe interneta po statusu aktivnosti - 'status_aktivnosti':
- 'namen uporabe interneta' - (neurejen faktor)
- 'leto' - (število)
- 'število posameznikov - skupaj' - (število)
- 'učenec, dijak, študent' - (število)
- 'zaposlen, samozaposlen' - (število)
- 'upokojenec' - (število)
- 'drugo' - (število)
Tabela 4: Namen uporabe interneta po stopnji urbanizacije - 'stopnja_urbanizacije':
- 'namen uporabe interneta' - (neurejen faktor)
- 'leto' - (število)
- 'število posameznikov - skupaj' - (število)
- 'gosto poseljena območja' - (število)
- 'vmesna območja' - (število)
- 'redko poseljena območja' - (število)
Tabela 5: Namen uporabe interneta po starostnih razredih - 'starostni_razredi':
- 'namen uporabe interneta' - (neurejen faktor)
- 'leto' - (število)
- '16-24' - (število)
- '25-34' - (število)
- '35-44' - (število)
- '45-54' - (število)
- '55-64' - (število)
- '65-74' - (število)
Uvozili smo podatke o občinah v obliki CSV s statističnega urada ter v obliki HTML
z Wikipedije. Podatke imamo v dveh razpredelnicah v obliki *tidy data*.
1. `druzine` - podatki o družinah za vsako občino
- `obcina` - spremenljivka: ime občine (neurejen faktor),
- `velikost.druzine` - spremenljivka: število otrok v družini (število: 1, 2, 3 ali 4, kjer zadnja vrednost pomeni 4 ali več),
- `stevilo.druzin` - meritev: število družin z ustreznim številom otrok v ustrezni občini (število).
2. `obcine` - podatki o občinah
- `obcina` - spremenljivka: ime občine (neurejen faktor),
- `povrsina` - meritev: površina občine v km$^2$ (število),
- `prebivalci` - meritev: prebivalstvo občine (število),
- `gostota` - meritev: število prebivalcev na km$^2$ (število),
- `naselja` - meritev: število naselij v občini (število),
- `ustanovitev` - meritev: leto ustanovitve občine (število),
- `pokrajina` - meritev: pokrajina, ki ji občina pripada (neurejen faktor),
- `regija` - meritev: regija, ki ji občina pripada (neurejen faktor),
- `odcepitev` - meritev: podatki o občinah, od katerih se je občina odcepila (besedilo).
**Opomba**: da bi razpredelnica `obcine` res bila v obliki *tidy data*, bi morali odstraniti stolpec `gostota` (saj je izpeljan iz stolpcev `povrsina` in `prebivalci`), podatke o pokrajinah pa bi morali premakniti v drugo razpredelnico, saj nekatere občine pripadajo dvema pokrajinama. Podobno bi morali narediti tudi s stolpcem `odcepitev`.
Spodnji graf prikazuje porazdelitev števila naselij v občinah.
```{r histogram, echo=FALSE, message=FALSE, fig.align='center', fig.cap='Histogram števila naselij v občinah'}
ggplot(obcine, aes(x=naselja)) + geom_histogram() +
ggtitle("Pogostost števila naselij") + xlab("Število naselij") + ylab("Število občin")
```
***
# Analiza in vizualizacija podatkov
```{r vizualizacija, echo=FALSE, message=FALSE, warning=FALSE, results='hide'}
source("vizualizacija/vizualizacija.r", encoding="UTF-8")
```
Spodnji zemljevid prikazuje povprečno velikost družine za vsako občino.
```{r zemljevid, echo=FALSE, fig.align='center', fig.cap='Zemljevid povprečnega števila otrok v družini'}
ggplot() + geom_polygon(data=left_join(zemljevid, povprecja, by=c("OB_UIME"="obcina")),
aes(x=long, y=lat, group=group, fill=povprecje)) +
ggtitle("Povprečno število otrok v družini") + xlab("") + ylab("") +
guides(fill=guide_colorbar(title="Povprečje"))
```
***
# Napredna analiza podatkov
```{r analiza, echo=FALSE, message=FALSE}
source("analiza/analiza.r", encoding="UTF-8")
```
Spodnji graf prikazuje povezavo med številom naselij in površino občine.
```{r graf, echo=FALSE, fig.align='center', fig.cap='Povezava med številom naselij in površino občine'}
ggplot(inner_join(obcine, data.frame(obcina=names(skupine),
skupina=factor(skupine)), by="obcina")
, aes(x=povrsina, y=naselja, color=skupina, size=prebivalci/1000)) + geom_point() +
ggtitle("Število naselij glede na površino občine") +
xlab(expression("Površina (km"^2 * ")")) + ylab("Št. naselij") +
guides(color=guide_legend(title="Skupina"),
size=guide_legend(title="Prebivalci (* 1000)"))
```
***
```{r shiny, echo=FALSE}
shinyAppDir("shiny", options=list(width="100%", height=600))
```