Skip to content

zalastopar/APPR-2019-20

 
 

Repository files navigation

Analiza podatkov s programom R, 2019/20

Repozitorij z gradivi pri predmetu APPR v študijskem letu 2019/20

  • Shiny Shiny
  • RStudio RStudio

Analiza najboljših 250 filmov po IMDb

Analizirala bom najboljših 250 filmov po lestvici IMDb. Filme bom primerjala glede na:

  • leto izdaje
  • zvrst
  • proračun
  • oceno
  • dolžino
  • jezik
  • državo snemanja

Cilj mojega projekta je ugotoviti katere komponente najbolj vplivajo na priljubljenost filma.

Podatke za analizo bom črpaka iz https://www.imdb.com/chart/top ter iz CSV datoteke, ki je shranjena v mapi podatki.

Tabela 1 (filmi):

  • leto izdaje
  • dolžina filma
  • IMDb ocena
  • filmski studio, ki je film izdal
  • proračun
  • dobiček, ki ga je film pridesel

Tabela 2 (drzave):

  • država snemanja

Tabela 3 (jeziki):

  • govoreči jeziki

Tabela 4 (zvrsti):

  • zvrsti filma

Program

Glavni program in poročilo se nahajata v datoteki projekt.Rmd. Ko ga prevedemo, se izvedejo programi, ki ustrezajo drugi, tretji in četrti fazi projekta:

  • obdelava, uvoz in čiščenje podatkov: uvoz/uvoz.r
  • analiza in vizualizacija podatkov: vizualizacija/vizualizacija.r
  • napredna analiza podatkov: analiza/analiza.r

Vnaprej pripravljene funkcije se nahajajo v datotekah v mapi lib/. Podatkovni viri so v mapi podatki/. Zemljevidi v obliki SHP, ki jih program pobere, se shranijo v mapo ../zemljevidi/ (torej izven mape projekta).

Potrebni paketi za R

Za zagon tega vzorca je potrebno namestiti sledeče pakete za R:

  • knitr - za izdelovanje poročila
  • rmarkdown - za prevajanje poročila v obliki RMarkdown
  • shiny - za prikaz spletnega vmesnika
  • DT - za prikaz interaktivne tabele
  • rgdal - za uvoz zemljevidov
  • rgeos - za podporo zemljevidom
  • digest - za zgoščevalne funkcije (uporabljajo se za shranjevanje zemljevidov)
  • readr - za branje podatkov
  • rvest - za pobiranje spletnih strani
  • tidyr - za preoblikovanje podatkov v obliko tidy data
  • dplyr - za delo s podatki
  • gsubfn - za delo z nizi (čiščenje podatkov)
  • ggplot2 - za izrisovanje grafov
  • mosaic - za pretvorbo zemljevidov v obliko za risanje z ggplot2
  • maptools - za delo z zemljevidi
  • extrafont - za pravilen prikaz šumnikov (neobvezno)

Binder

Zgornje povezave omogočajo poganjanje projekta na spletu z orodjem Binder. V ta namen je bila pripravljena slika za Docker, ki vsebuje večino paketov, ki jih boste potrebovali za svoj projekt.

Če se izkaže, da katerega od paketov, ki ji potrebujete, ni v sliki, lahko za sprotno namestitev poskrbite tako, da jih v datoteki install.R namestite z ukazom install.packages. Te datoteke (ali ukaza install.packages) ne vključujte v svoj program - gre samo za navodilo za Binder, katere pakete naj namesti pred poganjanjem vašega projekta.

Tako nameščanje paketov se bo izvedlo pred vsakim poganjanjem v Binderju. Če se izkaže, da je to preveč zamudno, lahko pripravite lastno sliko z želenimi paketi.

Če želite v Binderju delati z git, v datoteki gitconfig nastavite svoje ime in priimek ter e-poštni naslov (odkomentirajte vzorec in zamenjajte s svojimi podatki) - ob naslednjem zagonu bo mogoče delati commite. Te podatke lahko nastavite tudi z git config --global v konzoli (vendar bodo veljale le v trenutni seji).

About

Repozitorij z gradivi za predmet Analiza podatkov s programom R v študijskem letu 2019/20

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • R 95.0%
  • Dockerfile 4.7%
  • TeX 0.3%