Skip to content

rckurosaki/tutorial_spark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

64 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Tutorial Apache Spark™

Projeto final da disciplina Processamento Massivo de Dados do curso de Ciências da Computação da Universidade Federal de São Carlos campus Sorocaba. Ministrada pela Profª Drª Sahudy Montenegro González.

Integrantes do grupo autores deste documento:

  • Lucas Sampaio de Souza - 743568
  • Renato Araujo Rizzo - 587788
  • Renato Candido Kurosaki - 587834

Introdução

O objetivo da disciplina de Processamento Massivo de Dados em relação a este projeto final foi capacitar os alunos a entenderem conceitos de big data, conhecerem as características e dificuldades de se manipular volumes massivos de dados e descobrir como o mercado, a indústria e até mesmo o usuário comum utilizam ferramentas para colocar em prática estes conceitos e superar essas dificuldades. Esta documentação e tutorial é o resultado de pesquisas e estudos realizados pelos integrantes do grupo sobre a ferramenta Apache Spark™, tecnologia essa que une características de processamento distribuído, paralelo e tolerante a falhas para possibilitar manipulação eficiente de grandes volumes de dados.

A intenção do projeto também é disponibilizar esse conhecimento a qualquer um que tenha interesse na ferramenta estudada e queira ter uma experiência prática introdutória com a mesma.

A documentação está organizada por seções iniciando por uma explicação do que é o Apache Spark™, os principais conceitos da ferramenta, alguns casos de uso e por fim um tutorial prático com Spark em um caso de uso específico. Um apêndice foi incluído para complementar o tutorial assim como outras seções por requisito de entrega do projeto em si.

Sumário

About

Tutorial Apache Spark

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published