Porque ainda se paga licenças caras pelos Data Warehouse tradicionais?

O principal objetivo de um Data Warehouse (DW) é centralizar informações de diferentes fontes de dados para análises avançadas de dados. Estas análises permitem identificar tendências e identificar correlações importantes entre fatos, melhorando e acelerando as tomadas de decisão. Entretanto, os investimentos em ferramentas de DW tradicionais são caras e exigem muito planejamento para a normalização de tabelas do banco relacional e esforço de extração, transformação e carga dos dados. Felizmente, as tecnologias de código aberto de Big Data, como o Hadoop, Hive e HBase podem substituir a maioria dos atuais DWs. Então cabe a pergunta: porque as empresas ainda pagam por licenças caras de Data Warehouse?

A primeira resposta poderia ser o risco da migração. Afinal, se está funcionando e já está no orçamento para que mudar? Existem coisas mais importantes para se preocupar. Obviamente, que não é uma boa justificativa no médio e longo prazo. O rápido crescimento dos dados dos novos modelos de negócios fará os custos aumentarem cada vez mais, tornando ainda mais complexa e cara a migração. Além da empresa perder competitividade em custo com seus concorrentes.

A segunda resposta é a forte utilização do DW para apoiar a operação com muitas transações online (OLTP), inviabilizando a migração para tecnologias que oferecem pouco suporte para OLTP, como o Hadoop. O ponto aqui é saber se o custo das transações online são apropriados para o negócio usando uma ferramenta cara transações online.A terceira resposta poderia ser a recuperação do investimento no treinamento dos especialistas é na infraestrutura do DW. Neste caso, é bom ficar atento para não ficar refém dos especialistas e manter uma infraestrutura com poucas instalações no país, tornando ainda cara a operação.

A quarta resposta seria a falta de confiança em softwares de código aberto (open source). Essa resposta tem pouco fundamento uma vez que as maiores empresas adotam software livre com grande sucesso, como Google, Yahoo!, IBM, Cisco e outras centenas de empresas muito grandes. Apenas quem quer proteger sua posição na organização usaria esse argumento.

A quinta resposta seria usar o argumento que bancos de dados noSQL não são totalmente consistentes em ambientes Big Data. A questão aqui depende do negócio, em ambientes de análise de grandes volumes dados a eventual perda de algum dado não impactará o resultado da análise. Ou seja, devemos utilizar as ferramentas certas para cada tipo de aplicação.

A criatividade e diferentes modelos de negócios podem gerar outras respostas. Entretanto, acredito que na maioria dos casos é possível encontrar uma solução com software livre para reduzir custos e aumentar a produtividade nas empresas.

Parto do princípio que nenhuma empresa consegue ter recursos suficientes para desenvolver e manter complexos ambientes de software e concorrer no longo prazo com ferramentas como Hadoop para Big Data e outras soluções para os novos negócios.