Projeto final da disciplina Processamento Massivo de Dados do curso de Ciências da Computação da Universidade Federal de São Carlos campus Sorocaba. Ministrada pela Profª Drª Sahudy Montenegro González.
- Lucas Sampaio de Souza - 743568
- Renato Araujo Rizzo - 587788
- Renato Candido Kurosaki - 587834
O objetivo da disciplina de Processamento Massivo de Dados em relação a este projeto final foi capacitar os alunos a entenderem conceitos de big data, conhecerem as características e dificuldades de se manipular volumes massivos de dados e descobrir como o mercado, a indústria e até mesmo o usuário comum utilizam ferramentas para colocar em prática estes conceitos e superar essas dificuldades. Esta documentação e tutorial é o resultado de pesquisas e estudos realizados pelos integrantes do grupo sobre a ferramenta Apache Spark™, tecnologia essa que une características de processamento distribuído, paralelo e tolerante a falhas para possibilitar manipulação eficiente de grandes volumes de dados.
A intenção do projeto também é disponibilizar esse conhecimento a qualquer um que tenha interesse na ferramenta estudada e queira ter uma experiência prática introdutória com a mesma.
A documentação está organizada por seções iniciando por uma explicação do que é o Apache Spark™, os principais conceitos da ferramenta, alguns casos de uso e por fim um tutorial prático com Spark em um caso de uso específico. Um apêndice foi incluído para complementar o tutorial assim como outras seções por requisito de entrega do projeto em si.