Quais informações devem ser
armazenadas no data warehouse?
As empresas investem em tecnologias de data
warehouse para melhorar seus processos decisórios e gerenciais, melhorar
seus serviços a clientes, aumentar sua competitividade perante a
concorrência, reduzir seus custos operacionais, manter e identificar
novos clientes. Para garantir a confiabilidade das análises, o processo
de migração das bases de dados operacionais para o data warehouse é uma
das fases mais críticas o projeto. Evita-se na fase de migração e
limpeza dos dados o fenômeno "garbage in, garbage out", ou seja, se os
dados de entrada são ruins o resultado das análises será igualmente
ruim. Recomenda-se cinco etapas para a migração dos dados desde a
extração dos dados nas bases de origem até a validação dos dados. Não
negligencie a fase inicial de migração dos dados, pois os usuários
reconhecem imediatamente as análises ruins e isso decretará o fracasso
do projeto.
Para atingir os objetivos das empresas de melhorias internas de seus
processos com a introdução dos data warehouses os analistas envolvidos
no projeto deve assegurar a qualidade dos dados migrados das bases
operacionais. Dados iguais podem estar representados de diversas formas
nas bases de dados. Por exemplo, o código para identificar o sexo da
pessoa pode estar representado por "1" e "2" em uma base em outra por
"M" e "F". No processo de migração e limpeza dos dados essas
divergências devem ser corrigidas. Observe os seguintes passos no
processo de limpeza dos dados:
- O exame dos dados determina sua qualidade, verificando os padrões de
representação de dados adotados e o número de campos utilizados;
- A análise dos dados determina o contexto e destino de cada campo;
- A correção de dados para garantir que os dados sejam assinalados com
bons, ruins ou que os dados possam ser automaticamente corrigidos; e,
- A coincidência de registros determina se dois registros podem ou não
representar o mesmo objeto, exigindo muitos julgamentos dos analistas e
ferramentas sofisticadas.
O ciclo completo de migração de dados das bases operacionais para os
bancos de dados do data warehouse exige cinco etapas:
- Extração dos dados do sistema de
origem para um ambiente intermediário, conhecido com staging area.
As rotinas de extração servem para selecionar os dados do sistema de
origem para o data warehouse. Normalmente, essas rotinas são
executadas no ambiente de origem dos dados para facilitar a execução
de rotinas que transformam, convertem, combinam e analisam os dados
de origem.
- Conversão dos esquemas da staging
area para carregar os dados. Nessa etapa é realizada a limpeza dos
dados para garantir a integridade da informação. Um cuidado especial
deve ser dado as chaves de pesquisas utilizadas nos bancos de dados
de origem e as chaves que serão utilizadas no banco de dados de
destino.
- Consolidação dos dados da staging
area em tabelas que refletem o contexto de negócio. Os dados
agregados refletem os dados definidos pelo projeto após passarem por
vários processos de classificação e definida qual a melhor chave de
pesquisa para o data warehouse.
- Migração dos dados da staging area
para o banco de dados do data warehouse. Recomenda-se nessa etapa o
uso do software de carregamento do próprio banco de dados de
destino, utilizando a integridade referencial para garantir que as
chaves das tabelas estejam íntegras.
- Validação dos dados. A garantia da qualidade dos dados carregados é
assegurada pelo processo de conversão e no exame feito pelos
clientes.