Eduardo (M) Fagundes

O que o Hadoop pode fazer no Big Data

nov 22, 2013

—

Imagine que você tem um pote de balas multicoloridas, e você precisa aprender alguma coisa sobre eles, talvez a contagem de doces azul em relação a uns vermelhos e amarelos. Você poderia esvaziar a jarra em um prato, conta-los e identificar algumas correlações entre eles. Se a jarra tiver apenas algumas centenas de balas, esse processo levará apenas alguns minutos.

Agora imagine que você tenha quatro pratos e quatro ajudantes. Você derrama cerca de um quarto das balas em cada prato. Os quatros ajudantes analisam o seu conjunto de balas e cada um chega a uma conclusão. Depois os quatro compartilham as informações. A análise será muito mais rápida.

Isso é o que faz o Hadoop para dados. Hadoop é um framework open-source software para a execução de aplicações em grandes infraestruturas de processamento. Hadoop tem um enorme poder de processamento e a capacidade de lidar virtualmente com um número ilimitado de tarefas simultâneas com um baixo custo de infraestrutura de processamento.

As organizações estão adotando o Hadoop para vários motivos:

Hadoop é distribuído. Os dados são processados em diferentes servidores com baixo impacto na infraestrutura de processamento;
Hadoop roda em hardware commodity. Ele é cerca de 10 vezes mais barato comparado com a mesma capacidade de computação de hardware especializado.
Hadoop é tolerante a falhas. Falha de hardware é atenuada com a replicação de dados e processamento distribuído. Executa a mesma tarefa em múltiplas cópias e aceita a que for concluída primeira;
Hadoop não requer um esquema de dados pré-definido. Um dos principais benefícios do Hadoop é a sua capacidade de carregar arquivos não estruturados, sem ter que transformá-los primeiro. Você pode carregar qualquer tipo de dados para a análise;
Hadoop consegue lidar com Big Data. Clusters Hadoop podem crescer entre 6.000 e 10.000 nós e lidar com mais de 100 mil tarefas simultâneas e 10.000 jobs simultâneos. O Yahoo! roda milhares de clusters e mais de 42.000 nós Hadoop com mais de 200 petabytes de dados armazenados.
Hadoop é rápido. Em um teste de desempenho, um cluster de 1.400 nós classifica um terabyte de dados em 62 segundos. Um cluster de 3.400 nós classifica 100 terabytes em 173 minutos. Apenas para comparação, um terabyte contém 2.000 horas de música com qualidade de CD e 10 terabytes poderia armazenar a biblioteca inteira do Congresso americano.

Comece a pensar em usar o Hadoop na sua próxima análise de dados.

White paper: How to Use Hadoop as a Piece of the Big Data Puzzle