Pesquisar aqui

domingo, 5 de maio de 2019

Hadoop – o que é e para que serve?


Hadoop – o que é e para que serve?


C:\Users\Cmes44\AppData\Local\Microsoft\Windows\INetCache\Content.MSO\A5B23ED0.tmp


O Hadoop é uma solução “open source” para o armazenamento e tratamento distribuído de grandes
conjuntos de dados (Big Data),usando clusters de computadores (tipo Cloud).
O Hadoop nasceu a partir de um artigo sobreo Google File System, publicado em Outubro de 2003, que deu
origem a outro trabalho de investigação da Google – Map Reduce, para o tratamento simplificado de grandes
quantidades de dados.
O Hadoop foi desenvolvido pela Apache, tendo sido lançado em Abril de 2006.
Os serviços do Hadoop fornecem armazenamento, processamento, acesso, governança, segurança e
tratamento de dados.
Quais são as principais vantagens do Hadoop?
É utilizado, como foi referido, no processamento e armazenamento de grandes quantidades de dados.
Escalabilidade e desempenho – a distribuição e tratamento de dados em cada nó de um cluster, permite
armazenar, gerir, processar e analisar dados na escala do petabyte.
Confiabilidade – os clusters de grande dimensão são propensos a falhas de nós, e o Hadoop foi construído
para ser resistente a falhas. Quando um nó falha o processamento, os dados são automaticamente replicados
para os outros nós e preparados para eventuais falhas futuras.
Flexibilidade – ao contrário das bases de dados tradicionais, não é necessário criar estruturas de dados antes
de os armazenar. Aqui os dados podem ser armazenados em qualquer formato, estruturado, semi-
estruturado, ou não estruturado, podendo aplicar-se um esquema de organização para a leitura.
Baixo custo – ao ser “open source” e ao poder ser executado em servidores de baixo custo, permite a redução
de custos de processamento e armazenamento.

Referências:




Sem comentários:

Enviar um comentário

Comente de forma construtiva...

Nota: só um membro deste blogue pode publicar um comentário.