Skip to content

mnunes/introbigdata_material

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Introdução

Bem-vindo ao site da disciplina EST0133 - Introdução à Modelagem de Big Data, ministrada aos alunos do Bacharelado em Estatística da UFRN. O material contido aqui está sendo utilizado durante o semestre 2022.2. Atualmente não é possível aceitar alunos de fora da universidade nesse curso, mas o material está aberto a quem quiser utilizá-lo.

Além dos slides, exercícios e códigos disponibilizados nesse repositório, há uma playlist no YouTube com vídeos explicativos sobre cada tópico.

Este é um projeto de Marcus Nunes.

Primeiros Passos

Há alguns programas que devem ser instalados em seu computador para que ele fique preparado para acompanhar as aulas. A lista destes programas está a segu. Eles devem ser instalados na ordem em que estão colocados abaixo.

  1. Instale o interpretador da linguagem de programação R. A versão 4.2.1 é a mais recente neste momento. Recomendo fortemente que, caso o R já esteja instalado em seu computador, ele seja atualizado para a versão mais atual.

  2. Instale a versão desktop gratuita do RStudio.

  3. Caso seu computador rode Windows, é necessário instalar um programa extra para compilar os arquivos-fonte de alguns dos pacotes utilizados. Esse programa é chamado RTools, é gratuito e pode ser baixado nesse link. Atente para baixar a versão do RTools equivalente à da sua versão do R.

  4. Há uma série de pacotes a serem instalados no R para que a disciplina seja acompanhada. Assim, após abrir o RStudio pela primeira vez, rode o comando abaixo para que todos os pacotes necessários sejam instalados em seu computador. O script irá verificar quais pacotes necessários para a disciplina já estão em seu computador e apenas aqueles pacotes que estiverem faltando serão baixados e instalados. Além disso, o script irá atualizar os pacotes que estiverem em versões antigas. É um comando demorado a ser executado, cuja duração dependerá da velocidade da sua conexão à internet.

source("https://raw.githubusercontent.com/mnunes/introbigdata_material/master/scripts/pacotes.R")

  1. É possível baixar os slides e códigos da disciplina manualmente. Entretanto, a melhor maneira de se manter a par com o que está ocorrendo é através do git. Crie uma conta no github e instale o GitHub Desktop para facilitar a sua vida. Todas essas ferramentas são gratuitas.

  2. Com o GitHub Desktop instalado, é necessário clonar esse repositório em seu computador. Basta seguir dois passos para isso. O primeiro deles é ir ao menu File > Clone Repository...

  1. Em seguida, siga os passos abaixo, na ordem em que estão colocados:
    1. Clique no campo URL.
    1. Entre com o endereço deste repositório: mnunes/introbigdata_material.
    1. Escolha uma pasta em seu computador para salvar os arquivos. Eu sugiro que seja na mesma pasta em que estão os materiais de suas outras disciplinas na universidade.
    1. Clique no botão Clone para copiar os arquivos para o seu computador.

  1. Sempre que for necessário atualizar o material, clique no botão Fetch origin, localizado na barra superior da tela.

  1. Se houver uma ou mais atualizações a serem baixadas, clique na mensagem Pull origin, que aparecerá no mesmo botão.

  1. Entre regularmente no Github Desktop para realizar as operações Fetch origin e Pull origin para, assim, manter-se atualizado com a disciplina. Eventuais typos nos slides e nos códigos serão corrigidos dessa maneira.

  2. Bugs nos códigos, erros de digitação nos slides, conjuntos de dados faltantes e demais erros ou problemas com o material podem ser facilmente reportados nesse link. Usuários que conheçam melhor o funcionamento do github podem submeter pull requests.

Referências Bibliográficas

O material da disciplina foi produzido a partir de várias referências espalhadas por bibliotecas e pela internet. Poucas delas estão em português.

Livros

  • Hastie, T. e Tibshirani, R. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer. link
  • Izbicki, R. e dos Santos, T. M. (2020) Aprendizado de máquina: uma abordagem estatística. São Carlos. link
  • James, G., Witten, D., Hastie, T., e Tibshirani, R. (2014). An Introduction to Statistical Learning with Applications in R. Springer.
  • Kuhn, M. e Johnson, K. (2013). Applied Predictive Modeling. Springer. site do livro, sem seu conteúdo completo
  • Kuhn, M. e Johnson, K. (2019). Feature Engineering and Selection: A Practical Approach for Predictive Models. Taylor & Francis. link
  • Lantz, B. (2013). Machine Learning with R. Packt Publishing.
  • Tan, P.-K., Steinbach, M., e Kumar, V. (2012). Introdução ao Data Mining: Mineração de Dados. Ciência Moderna.
  • Zhao, Y. (2012). R and Data Mining: Examples and Case Studies. Academic Press.

Sites

Leituras complementares

  • Domingos, P. (2015). The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. Basic Books.
  • O'Neil, C. (2017) Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Crown.
  • O'Neil, C. e Schutt, R. (2013) Doing Data Science: Straight Talk from the Frontline. O'Reilly.
  • Parker, M. (2020). Humble Pi: A Comedy of Maths Errors. Penguin.

About

Material didático da disciplina Introdução à Modelagem de Big Data, oferecida pelo Departamento de Estatística da UFRN

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages