Skip to content

EduardoMoraesRitter/spark

Repository files navigation

Curso de SPARK

Introdução:

  • Instalando pyspark no Colab
  • decompactar arquivos com zipar
  • ler os arquivos de CSV com spark
  • Renomeando Colunas
  • Bibliotecas
  • Mudar os tipo do dado
  • Consulta com select
  • Filtragem com filter
  • Agrupamento, Agregação e Sumarizando
  • Função case(when)
  • Join e Union
  • SQL
  • Formato CSV OCR PARQUET

NLP

  • Nuvem de Palavras
  • Remoção de caracteres especiasis
  • separar em partes Tokenização
  • Remover ruidos os StopWords
  • Vetorizar ou Bag of Words
  • Modelo de arvore de decisao
  • Teste e Metrificação

Text Multi-class

  • Tokenizer
  • StopWordsRemover
  • CountVectorizer
  • IDF
  • LogisticRegression

About

curso de spark

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published