Uma nova organização para Big Data

Qual a principal diferença entre Data Warehouse (DW) e Big Data? O DW é utilizado para melhorar as tomadas de decisão e o Big Data é usado para a inovação. As empresas terão que tomar a decisão de dividir seus sistemas de informação no médio prazo. Uma para atender aos processos operacionais tradicionais e outra para atender a demanda por inovação. Os sistemas atuais não estão preparados para analisar o volume dados gerados pelas redes sociais e sensores da Internet da Coisas (Internet of Things, IoT). Será necessário criar uma nova organização exclusiva e independente da tradicional TI para analisar dados e propor novos produtos e serviços baseados no Big Data. Essa nova organização terá como principal característica uma equipe de pessoas inteligentes e espertas, smart people.

O DW trabalha com dados históricos armazenados de forma estruturada e centralizada. Como as empresas possuem apenas 20% de seus dados estruturados as decisões são baseadas em um pequeno universo de informações. Essas informações estão armazenadas em estruturas de bancos de dados hierárquicos ou relacionais. As demais informações estão em arquivos fragmentados, como: planilhas, apresentações e documentos. Atualmente, as empresas já têm dificuldades para tomar decisões com as informações disponíveis pelos sistemas de informações.

A atual estrutura de bancos de dados das empresas (DMSM, RDBMS ou ORDBMS) não são apropriadas para trabalhar com Big Data. Desta forma, é necessário construir uma infraestrutura independente de hardware e software. O Big Data requer uma infraestrutura para tratar grandes volumes de dados, velocidade de processamento e variedade de dados, o chamado 3V.

Para tratar milhares de terabytes é necessária uma infraestrutura de armazenamento e I/O flexível, escalável e de alto desempenho, usando tecnologias SSD (Solid State Drive) e DAS (Direct-attach Storage) ou trabalhando com os dados em memória (in-memory). As tecnologias de SAN (Storage Area Network) e NAS (Network-attached storage) são relativamente lentas para o Big Data.

Para conseguir velocidade de processamento é necessário trabalhar com processamento paralelo em uma infraestrutura escalável. Como a filosofia do Big Data é dividir as pesquisas em várias frentes é necessário um grande número de processadores para conseguir alto desempenho no processamento. O Big Data usa processamento paralelo massivo (MPP) para bancos de dados, grid computing, sistemas de arquivos e bancos de dados distribuídos e pesado acesso à Internet.

Trabalhar com uma grande variedade de dados muda o paradigma da normalização de dados utilizada pelos bancos de dados tradicionais. O Big Data requer tecnologias para processamento de gigantescas quantidades de dados, tais como: teste A/B, crowdsourcing, fusão e integração de dados, algoritmos genéricos, máquinas de aprendizagem, processamento de linguagem natural, processamento de sinais, simulações, análise de séries e visualização.

O MapReduce, um framework para processamento de Big Data proposto pelo Google, é um dos mais conhecidos no mercado. O MapReduce tem uma implementação em open source, o Apache Hadoop. Esse framework permite o processamento de dados com um grande número de computadores (nós) de forma coletiva em “cluster” (se todos os nós estiverem na mesma rede local) ou em “grid” (se os nós estiverem geograficamente ou administrativamente distribuídos). Devido as características de processamento em paralelo e altamente escalável é recomendável o uso de ambientes Cloud Computing.

Resolvidos os desafios de coleta de dados e infraestrutura de TI o próximo desafio é definir a equipe para a análise de dados. Na verdade, esse é o maior desafio para que o Big Data traga valor para as organizações.

Minha sugestão é que os membros da equipe tenham diferentes dominâncias celebrais e com experiência em melhoria contínua de processos e projetos de startups. Para o sucesso dessa equipe seu líder deve estar no mesmo nível hierárquico dos demais diretores para não sofrer obstáculos na obtenção de dados organizacionais e exposição de ideias e projetos.

Resumindo, o Data Warehouse não atende as expectativas de inovação das empresas e é necessário criar uma organização para Big Data com infraestrutura apropriada, de preferência em ambiente Cloud Computing, e uma equipe com diferentes aptidões com liberdade de acesso as informações corporativas e sem obstáculos para apresentar novos projetos.