O que é um data warehouse?

Revisado em 10-dez-2011

Um data warehouse (DW), ou armazém de dados é um banco de dados com dados históricos usados para análise e decisões das mais exóticas perguntas realizadas por executivos. Os dados contidos nos data warehouse são sumarizados, periódicos e descritivos. Com a manipulação desses dados os executivos podem tomar decisões baseadas em fatos e não em intuições e especulações. Os data warehouses são projetados para processamento on-line analítico (OLAP, On-line Analytical Processing) ao invés do processamento transacional on-line (OLTP, On-line Transactional Processing). Ferramentas OLAP para pesquisa inteligente de dados são chamadas dedata mining. Delimitando a abrangência dos dados a uma área de negócio da empresa o data warehouse passa a se denominar data mart. É possível implementar um data warehouse com vários data marts distribuídos.

No mercado competitivo atual uma decisão errada pode decretar a morte de uma empresa. Decisões baseadas em dados fragmentados obtidos pelos sistemas de informações tradicionais não oferecem uma informação consistente, caso não exista uma forte integração entre eles. Um data warehouse concentra dados de diversos sistemas estruturados e outras bases de dados, em diferentes plataformas. Os dados antes de serem armazenados são filtrados, normalizados, reorganizados, sumarizados para constituírem uma base de dados confiável e íntegra. Muitas vezes uma informação está representada sob diversas formas, dependendo do sistema de informação. Por exemplo, um código de fornecedor pode ser diferente em dois ou mais bancos de dados.

Um data warehouse é projetado para garimpar informações escondidas nas montanhas de dados de uma empresa. A longo do tempo os sistemas de informações são desenvolvimentos e implementados visando o controle de um determinado processo na empresa. Em alguns casos, nem mesmo os analistas de sistemas conseguem ter a visão do todo. A maioria dos sistemas de informação é parametrizada, onde as pesquisas às informações são pré-definidas, não oferecendo flexibilidade ao usuário final (nem aos próprios analistas) para criar novas pesquisas de forma ágil e rápida. Os data warehouses tem como premissa resolver essa questão, dando ao usuário final a flexibilidade necessária para pesquisas, mesmo para as mais exóticas. Foi dessa forma que a cadeia americana de supermercados Wal-Mart descobriu uma relação entre o consumo de fraldas descartáveis e o consumo de cervejas.

O banco de dados de um data warehouse deve ser projetado para processamento analítico on-line (OLAP), onde caracteriza-se pela ênfase na performance da recuperação das informações. Orientado à análise e processos de decisão pelos usuários finais através do uso de ferramentas especialmente desenvolvidas para o cruzamento multidimensional dos dados, os data mining. Essas ferramentas podem descobrir associações que nem mesmo o usuário imaginaria pesquisar. Os data mining são mais eficientes se usados em data marts, pois estes são orientados a determinados assuntos da empresa. Os data warehouses devem permitir o download de informações para a utilização em outras ferramentas, tais como: planilhas eletrônicas e outros bancos de dados. Diferente dos bancos de dados orientados à transações on-line em tempo-real que trabalham centrados nas operações do dia-a-dia da empresa.

Benefícios do Data Warehouse:

  • Mantém o histórico de dados, mesmo se os sistemas transacionais não os fizerem;
  • Integra os dados de vários sistemas, permitindo uma visão consolidada de toda a operação, principalmente quando uma organização possui várias empresas com sistemas de informações diferentes e trabalha agressivamente em aquisições e fusões;
  • Melhora a qualidade dos dados, criando uma padronização de códigos e descrições e identificando e corrigindo dados ruins;
  • Apresenta as informações da organização de forma consistente;
  • Fornece um único modelo de dados para toda a organização, independente da fonte;
  • Reestrutura os dados de modo a satisfazer as necessidades dos usuários do negócio;
  • Reestrutura os dados para melhorar o desempenho de consulta, mesmo para consultas analíticas complexas, sem afetar os sistemas em operação;
  • Agrega valor às aplicações de negócio operacional, principalmente a gestão de relacionamento com clientes (CRM).