informáTICa para todos: Hadoop – o que é e para que serve?

domingo, 5 de maio de 2019

Hadoop – o que é e para que serve?

$C:\Users\Cmes44\AppData\Local\Microsoft\Windows\INetCache\Content.MSO\A5B23ED0.tmp$

O Hadoop é uma solução “open source” para o armazenamento e tratamento distribuído de grandes

conjuntos de dados (Big Data),usando clusters de computadores (tipo Cloud).

O Hadoop nasceu a partir de um artigo sobreo Google File System, publicado em Outubro de 2003, que deu

origem a outro trabalho de investigação da Google – Map Reduce, para o tratamento simplificado de grandes

quantidades de dados.

O Hadoop foi desenvolvido pela Apache, tendo sido lançado em Abril de 2006.

Os serviços do Hadoop fornecem armazenamento, processamento, acesso, governança, segurança e

tratamento de dados.

Quais são as principais vantagens do Hadoop?

É utilizado, como foi referido, no processamento e armazenamento de grandes quantidades de dados.

Escalabilidade e desempenho – a distribuição e tratamento de dados em cada nó de um cluster, permite

armazenar, gerir, processar e analisar dados na escala do petabyte.

Confiabilidade – os clusters de grande dimensão são propensos a falhas de nós, e o Hadoop foi construído

para ser resistente a falhas. Quando um nó falha o processamento, os dados são automaticamente replicados

para os outros nós e preparados para eventuais falhas futuras.

Flexibilidade – ao contrário das bases de dados tradicionais, não é necessário criar estruturas de dados antes

de os armazenar. Aqui os dados podem ser armazenados em qualquer formato, estruturado, semi-

estruturado, ou não estruturado, podendo aplicar-se um esquema de organização para a leitura.

Baixo custo – ao ser “open source” e ao poder ser executado em servidores de baixo custo, permite a redução

de custos de processamento e armazenamento.

Referências:

Comente de forma construtiva...

Nota: só um membro deste blogue pode publicar um comentário.

informáTICa para todos