Big Data: O desafio da coleta, transformação e carga de dados

Comentar sobre os benefícios do Big Data é desnecessário no atual estágio do mercado. Quem ainda não se convenceu está fora do jogo. Basta lembrar que o McKinsey Global Institute apontou o Big Data entre as cinco oportunidades para o crescimento da economia americana. Um dos desafios para muitas empresas é a coleta, transformação e carga de dados. O outro é ter uma equipe capacitada para fazer análise avançada de dados. Esse artigo comenta sobre a coleta, transformação e carga de dados.

Para quem tem experiência em implantação de ERPs consolidando vários sistemas legados conhece o desafio do ETL (Extract, Transformation and Load) dos dados. Ao longo do tempo as empresas constroem vários sistemas e, no passado, sem uma visão empresarial integrada para a definição da arquitetura de dados e taxonomia. Ou seja, as estruturas de dados foram criadas para classificar os elementos dentro dos próprios sistemas. Quando se tenta consolidar os dados em um único sistema encontramos dificuldades para compatibilizá-los.

Um exemplo simples da necessidade de transformação de dados é a unidade de medida utilizada em sistemas diferentes. Em um sistema a unidade é quilograma e em outro é tonelada.  Entretanto, os desafios são maiores quando um determinado dado foi calculado por um outro sistema e você precisa desenvolver um algoritmo para descobrir os elementos que foram usados para o cálculo.

Depois da extração e transformação dos dados, a próxima etapa é a carga nos bancos de dados. A complexidade dessa tarefa varia de acordo com o volume de dados a ser carregado. Para grandes volumes é necessária uma infraestrutura de I/O (input/output) robusta e veloz.

Olhando uma organização típica, vemos que apenas 20% dos dados da organização estão estruturados nos sistemas de aplicações. Os outros 80% estão espalhados em planilhas eletrônicas, processadores de texto, apresentações, arquivos vetoriais de CAD, etc. Cada um possui uma estrutura de dados específica. Esses dados são tão ou mais importantes para as tomadas de decisão que os dados estruturados dos sistemas.

Com o crescimento do número de sensores remotos usando tecnologia de Internet of Things o volume de aquisição de dados tem evoluído, exponencialmente. No setor elétrico, a coleta de dados de medidores eletrônicos deve aumentar o volume de dados coletas em quase 4.000 vezes. Alguns medidores eletrônicos têm 250 registradores de dados.

Além dos dados empresariais, dados de entidades externas são importantes para a análises e tomadas de decisão. Dados das redes sociais são importantes para conhecer o perfil dos consumidores e direcionar as estratégias de vendas e novos produtos. As redes sociais, como Facebook e Twitter, possuem kits de desenvolvimento de software (SDK) para interagir com seus ambientes.

Com a Internet of Things e as redes sociais a análise de dados é realizada em tempo real com os dados em memória e não mais armazenadas em discos mecânicos tradicionais. Novos mecanismos de troca de dados entre clusters, como o ACE+TAO usado pelo Facebook, melhoram a qualidade de serviço (QoS) da troca e qualidade das comunicações de dados.

As principais soluções de software para Big Data são open source e estão disponíveis para todas as empresas. Embora, a arquitetura seja complexa os kits de desenvolvimento facilitam o acesso e manipulação de dados. Identificando claramente os objetivos dos projetos de Big Data o retorno do investimento é garantido.