Soluções de gerenciamento de dados para Analytics

O grande desafio das empresas é integrar dados estruturados de seus bancos de dados relacionais e seus Data Warehouse com dados de outras bases, em diferentes formatos e formas de acesso. O uso de bases externas cresce, exponencialmente, com métodos de aquisição como o REST e web services. Cresce, também, o uso de dados provenientes de dispositivos remotos, usando Internet of Things (IoT) ou outros tipos de conexões M2M (Machine-to-Machine), como medidores eletrônicos de energia. Para manipular todos esses dados é necessário uma solução capaz de extrair, transformar e carregar os dados para as ferramentas analíticas possam operar. Manipular grandes volumes de dados para analises, principalmente, em tempo real não é algo trivial.

Resumindo, precisamos de uma solução completa de software que suporte e gerencie dados de um ou mais sistemas de gerenciamento de arquivos que possa processar estruturas relacionais e suportar acessos e disponibilizar dados de ferramentas analíticas independentes com diferentes interfaces.

Esses sistemas conhecidos como DMSA (Data Management Solution for Analytics) devem suportar novas estruturas de dados, como XML, JSON, textos, documentos, geoposicionamento e acessar dados externos, independentemente, da aplicação de front-end.

Existem várias soluções disponíveis dos principais fornecedores de tecnologia internacionais: Actian; Amazon Web Services (AWS); Cloudera; HP; IBM; Microsoft; SAP; Oracle e Teradata. Cada solução, tecnologicamente, tem suas vantagens e restrições dependendo do ambiente de dados da empresa.

Entretanto, em muitos casos a seleção de uma solução não está apenas na tecnologia, mas na disponibilidade e quantidade de mão de obra especializada e na relação custo/benefício.

Embora seja muito mais fácil adotar uma solução seguindo a tecnologia e serviços especializados já implantados na empresa, como é o caso da Oracle e SAP, é necessário avaliar alternativas de mercado, principalmente para justificar o dinheiro investido para os acionistas.

Apenas para reforçar, não estamos falando de ferramentas de BI e Data Warehouse, simplesmente. Estamos falando de um ambiente mais amplo que permite analises em tempo real com o uso de novas soluções, como o uso de tecnologias in-memory.

A Actian (www.actian.com), uma jovem empresa americana, faz a integração dos dados para a sua ferramenta analítica através de um portfólio de produtos chamados de megavendors, disponíveis para IBM, Oracle, Microsoft e outros, com preços bem atraentes. A base do DBMS da Actian é o Redshift da Amazon, embora utilizem sistemas de arquivos diferentes. O software é disponível para uso gratuito para arquivos de até 500GB. O desafio é a pouca base instalada do software e, consequentemente, a disponibilidade de mão de obra. Entretanto, pelo seu custo e facilidades vale a pena formar especialistas nas empresas.

A Amazon Web Service (aws.amazon.com) oferece sua solução Amazon Redshift, um serviço de data warehouse na nuvem, o AWS Data Pipeline, desenhado para orquestrar os dados armazenados na AWS e, o Elastic MapReduce (EMR). Esse serviço tem sinergia com as aplicações de usuários que tem suas aplicações hospedadas no AWS. Os serviços de DBMS permitem a integração dos dados e analises sem a necessidade de migração para outros ambientes.

A AWS possui parcerias com a SAP, incluindo o SAP Hana, e outros fornecedores de soluções de BI, como o Microestrategy, aumentando sua competitividade com as ofertas de IaaS (Infrastructure as a Services) e PaaS (Platforma as a Services). Entretanto, a efetiva atratividade por esses serviços está, diretamente, ligada a rede de parceiros da AWS que deverão estar capacitados a configurar e treinar os profissionais das empresas no uso das ferramentas.

A Cloudera (www.cloudera.com) tem soluções de armazenamento de dados e uma plataforma de processamento baseada no Apache Hadoop, e ferramentas de gerenciamento de dados para design, desenvolvimento e operação. Uma das vantagens da Cloudera é a integração com um grande número de soluções de BI. Isso garante os investimentos já realizados em outras plataformas, como Teradata e Microsoft. O desafio da Cloudera é a gestão dos metadados e a pouca disponibilidade de mão de obra especializada.

A HP (www.hp.com) possui soluções baseadas no HAVEn, um conceito que combina varias aquisições de ferramentas analíticas debaixo de um único nome. As soluções são da Vertica, Autonomy e Hadoop. A Vertica é uma robusta solução de software coluna-vetor para plataformas padrões, exceto Windows, e através de uma edição de colaboração gratuita, até 1TB de dados e três nodes. A solução reúne as duas visões de data warehouse, a visão tradicional e a visão avançada utilizada pelas modernas ferramentas analíticas.

A IBM (www.ibm.com) oferce soluções stand-alone, apliances para data warehouse e a z/OS. A solução dashDB é um serviço de data warehouse em Cloud Computing. Possui uma variedade de apliances: IBM zEnterprise Analytics System, PureData System, IDAA, IBM Smart Analytics System e outros. A abordagem da IBM para a nuvem inclui soluções de integração e transformação de dados para analytics. Seu PaaS para data warehouse usando dashDB, incluindo o formato linha-coluna na modalidade in-memory, pode ser integrada com o serviço da banco de dados na nuvem Cloudant baseado em noSQL. Ou seja, a IBM tem um conjunto de soluções para gerenciamento de dados e ferramentas analíticas. Difícil saber se a própria IBM consegue avaliar qual a melhor solução para seus clientes.

A Microsoft (www.microsoft.com) comercializa o SQL Server e o Microsoft Analytics Platform System, que combina o SQL Parallel Data Warehouse e HDInsight, além da sua solução para a nuvem Azure. O SQL Server 2014 tem suporte para funções analíticas e transacionais in-memory, disponíveis também no Azure. A Microsoft tem uma enorme base instalada e cresce rápido no mercado com suas soluções analíticas. O Azure Stack, que permite a transição do ambiente tradicional para a nuvem, dentro de uma visão de nuvem híbrida, permite a concentração dos dados corporativos em uma única plataforma e facilita o uso de ferramentas analíticas.

A Oracle (www.oracle.com) tem várias soluções de DBMS, incluindo appliance para Hadoop, chamado Oracle Big Data Appliance. Provavelmente, a Oracle é o maior fornecedor de soluções tradicionais de data warehouse. Isso acontece pelo alinhamento natural dos clientes que utilizam os bancos de dados Oracle. Entretanto, esse domínio pode ser abalado com as soluções “best-fit” dos outros fornecedores. As questões de custos e a forte dependência de um único fornecedor tiram a flexibilidade de soluções tecnológicas e de negociação comercial dos clientes, tornando saudável uma diversificação das tecnologias.

A SAP (www.sap.com) oferece soluções de linha-coluna (SAP IQ) e o SAP Hana uma solução in-memory para analytics. Também oferecido como appliance. Talvez, a SAP seja a empresa que melhor esteja explorando os recursos da sua base instalada. O lançamento do SAP S/4HANA em 2015 para analises em tempo na nuvem, simplifica o acesso tanto de grandes clientes como de pequenos clientes. A grande vantagem da SAP é a sua rede de canais que conhecem bem os clientes e estão espalhados geograficamente, facilitando o suporte a solução e empatia com os clientes.

A Teradata (www.teradata.com) é um tradicional fornecedor de soluções de data warehouse. Suas soluções incluem licenças de DBMS, appliances e soluções para nuvem. A Teradata chama esse conjunto de soluções de Unified Data Architecture (UDA). Eles colecionam mais de 10.000 casos de sucesso em centenas de áreas de negócios. Existe um caso da Swisscom que, segundo eles, conseguiram reduzir em 40% os custos anteriores com a Oracle. Embora, segundo pesquisas, os clientes reclamam dos altos preços. Espera-se que a solução em nuvem possa reduzir os preços.

Como comentei no início, a seleção de uma solução para gerenciamento de dados não é trivial e requer um estudo cuidadoso e forçar provas de conceito (PoC) de pelo três fornecedores para assegurar que a empresa está fazendo a melhor escolha. Isso inclui as soluções disponíveis na nuvem, que devem ser o foco dos novos serviços dos fornecedores.