Eduardo M Fagundes

Artigos

Coletânea de artigos técnicos e reflexões de Eduardo M. Fagundes publicados entre 2011 e 2017

Assine a Newsletter no Linkedin

Tag: big data

  • Cientista de Dados: a profissão do futuro

    Estamos iniciando um ciclo tecnológico com ampla capacidade de processamento, armazenamento de dados e comunicação que permite análises avançadas de gigantescos volumes de dados. Isso muda os atuais paradigmas da computação.

    Nesse cenário, é possível considerar não apenas os 15% dos dados estruturados das empresas, mas todos aqueles disponíveis em e-mails, planilhas, textos, figuras, vídeos, áudio, dados públicos e das redes sociais. Associando as tecnologias de Big Data, Internet das Coisas e ferramentas avançadas, teremos tomadas de decisão mais acertadas. Entretanto, para isso funcionar, precisamos do elemento mais importante: o  cientista de dados.

    A tecnologia exigida para as redes sociais está mudando o paradigma da computação. O Twitter deve gerar diariamente 35 Zettabytes (ZB) em 2020, mais do que os 7 ZB por dia, atualmente. Um Zettabyte equivale a 10^21 bytes, enquanto um Gigabyte equivale a 10^9 bytes. Os impactos desse fenômeno implicam na mudança da arquitetura de servidores, na forma de armazenamento de dados e na seleção da linguagem de programação. Por exemplo: o Twitter obteve 10 vezes mais velocidade de processamento com o JMV do que com o Ruby.

    Na área de energia, as aplicações vão desde a seleção do local para a instalação de uma planta de geração até o combate a fraudes. Por exemplo, a seleção do local para a instalação de uma planta de energia eólica deve ser determinada por múltiplos fatores, como temperatura, precipitação de chuvas, velocidade do vento, umidade, pressão atmosférica e muitos outros. A correta tomada de decisão reduz os riscos dos investimentos multimilionários.

    Na área de saúde, as aplicações são imensas. Correlacionar grandes volumes de dados de variadas fontes ajudará a detectar a causa-raiz de doenças e impedir o surgimento de epidemias de impacto significativo nas populações. Sobretudo, ajudará a prevenir doenças e melhorar os diagnósticos clínicos.

    Um cientista de dados deve reunir várias habilidades, como ter fortes conhecimentos estatísticos e matemáticos, fazer modelagem preditiva, conhecer estratégias de negócios para construir algoritmos necessários para fazer as perguntas certas e ter as respostas certas. Eles devem ser capazes de traduzir as conclusões em uma linguagem de negócios de forma escrita, oral e visual. Eles precisam entender como os produtos são desenvolvidos, como projetar arquiteturas de computadores e conhecer linguagens de programação orientadas a Big Data. Além disso, devem garantir a privacidades dos consumidores e responsabilidade ética.

    Grandes cientistas de dados podem ter diferentes origens, como engenharia, ciência da computação, bioestatística, econometria, física e matemática aplicada. Mestrado e doutorado serão altamente recomendados para a formação dos cientistas de dados.

    Como dá para perceber, teremos poucos grandes cientistas de dados. Aqui se colocam desafios tanto para os profissionais quanto para as empresas: o profissional deve se empenhar na formação e as empresas, na seleção e investimentos para aperfeiçoar as habilidades dos cientistas de dados.

  • Podemos crescer na crise?

    As notícias econômicas dos últimos meses podem gerar depressão e otimismo. A depressão vem daqueles que não planejaram e possuem poucas linhas de produtos ou, para os profissionais, com uma única habilidade. Os otimistas que se planejaram estão colhendo os resultados positivos e identificando novas oportunidades de negócios. A resposta para a pergunta do título, então, é: sim.

    Nenhuma crise econômica acontece da noite para o dia. Nenhum evento acontece por um único fator, eles ocorrem por uma sequência de fatores que podem ser previstos com antecedência. Óbvio: a crise econômica de 2008 não era uma “marolinha” para o Brasil. Quem entendeu isso e diversificou sua linha produtos e mercados, hoje está em uma situação mais confortável em relação àqueles que não mudaram suas práticas.

    O comportamento dos consumidores é influenciado pelas mudanças da economia e por expectativas, como a sua manutenção no emprego e melhoria do poder de compra. Quanto mais indicadores da economia e comportamentais conseguirmos relacionar, de preferência em grandes volumes, melhor será nossa análise. O volume de dados é importante para identificarmos as tendências, que podem ser mascaradas pela baixa quantidade de informações.

    Nós, seres humanos, tendemos a sofrer de várias falhas cognitivas e vieses que distorcem nossa capacidade de fazer previsões precisas. Quando montamos uma crença ao redor de algo, tendemos a nos aferrar nela. Deixamos de lado provas que nos contradizem e focamos apenas em fatos que apoiam nossas crenças preexistentes.

    Considero três pontos importantes no planejamento de crescimento empresarial e evitar falhas: montagem de cenários prospectivos; formação de uma equipe com talentos diversificados; e, uso de técnicas analíticas baseadas em Big Data.

    Com técnicas analíticas e contribuições de especialistas de vários setores é possível criar cenários futuros. A partir desses cenários estudar a participação em novos mercados, criação de novos produtos e mudanças de abordagens com o atuais consumidores.

    Felizmente, os recursos tecnológicos de Big Data e de sofisticados softwares analíticos estão disponíveis no ambiente de Cloud Computing com preços acessíveis para empresas de qualquer porte.

    Os desafios são a formação de uma equipe talentosa e acesso a diferentes bases de dados para executar as análises. Isso pode ser contornado criatividade, colaboração e recompensa por resultados.

    Espere a próxima crise econômica preparado.

  • Até 2025, o modelo econômico chinês será dominante

    Estamos caminhando para adotar o modelo econômico chinês. A capacidade de produção chinesa e de outros países da Ásia desequilibrou os preços dos produtos no mundo. Os efeitos da globalização afetam todos os países e exigem estratégias de Estado e dos empresários para potencializar ou mitigar seus impactos.

    As previsões apontam que até 2025 o modelo econômico dominante será o chinês. Se a maioria das empresas e governos acreditarem nessas previsões, elas acontecerão. Ao que tudo indica, poucas pessoas duvidam disso.

    Nesse cenário prospectivo, a inovação é fundamental e será o fator que selecionará os mais aptos a competir no mercado internacional. O ponto chave será embarcar inteligência em todos (com grifo) produtos. Desta forma, o preço do produto não será definido pelos materiais e seus custos de produção, mas pelo seu valor agregado em poder se adaptar ao comportamento de cada indivíduo.

    Veja o exemplo de um vaso sanitário inteligente que pode medir a temperatura e fazer a análise da urina das pessoas, trazendo enormes benefícios para idosos que vivem sozinhos. Outro exemplo, são as pulseiras e tênis inteligentes que podem monitorar as atividades físicas das pessoas e enviar os dados para os preparadores físicos e médicos para receber novas orientações de exercícios físicos.

    A implementação dessas facilidades depende de sensores remotos baratos, software, conectividade com a Internet, processamento e, essencialmente, capacidade de inovação.

    Dentro desse contexto, quatro coisas estão envolvidas: técnicas de inovação, Internet das Coisas (IoT), Big Data e Cloud Computing. Para fazer uso de tudo isso é, fundamental, a educação e motivação para que os empreendedores desenvolvam projetos inovadores.

    A formação de engenheiro e tecnólogos é uma questão de segurança nacional para proteger as empresas da concorrência internacional. Entretanto, se não criarmos oportunidades de trabalho para os jovens a geração nem-nem irá aumentar ainda mais.

    Como consultor, recomendo que o foco das empresas deve ser em colocar inteligência nos seus produtos. Essa é uma forma de criar uma cultura de inovação e se preparar para o novo modelo econômico de 2025.

  • Uma nova organização para Big Data

    Qual a principal diferença entre Data Warehouse (DW) e Big Data? O DW é utilizado para melhorar as tomadas de decisão e o Big Data é usado para a inovação. As empresas terão que tomar a decisão de dividir seus sistemas de informação no médio prazo. Uma para atender aos processos operacionais tradicionais e outra para atender a demanda por inovação. Os sistemas atuais não estão preparados para analisar o volume dados gerados pelas redes sociais e sensores da Internet da Coisas (Internet of Things, IoT). Será necessário criar uma nova organização exclusiva e independente da tradicional TI para analisar dados e propor novos produtos e serviços baseados no Big Data. Essa nova organização terá como principal característica uma equipe de pessoas inteligentes e espertas, smart people.

    O DW trabalha com dados históricos armazenados de forma estruturada e centralizada. Como as empresas possuem apenas 20% de seus dados estruturados as decisões são baseadas em um pequeno universo de informações. Essas informações estão armazenadas em estruturas de bancos de dados hierárquicos ou relacionais. As demais informações estão em arquivos fragmentados, como: planilhas, apresentações e documentos. Atualmente, as empresas já têm dificuldades para tomar decisões com as informações disponíveis pelos sistemas de informações.

    A atual estrutura de bancos de dados das empresas (DMSM, RDBMS ou ORDBMS) não são apropriadas para trabalhar com Big Data. Desta forma, é necessário construir uma infraestrutura independente de hardware e software. O Big Data requer uma infraestrutura para tratar grandes volumes de dados, velocidade de processamento e variedade de dados, o chamado 3V.

    Para tratar milhares de terabytes é necessária uma infraestrutura de armazenamento e I/O flexível, escalável e de alto desempenho, usando tecnologias SSD (Solid State Drive) e DAS (Direct-attach Storage) ou trabalhando com os dados em memória (in-memory). As tecnologias de SAN (Storage Area Network) e NAS (Network-attached storage) são relativamente lentas para o Big Data.

    Para conseguir velocidade de processamento é necessário trabalhar com processamento paralelo em uma infraestrutura escalável. Como a filosofia do Big Data é dividir as pesquisas em várias frentes é necessário um grande número de processadores para conseguir alto desempenho no processamento. O Big Data usa processamento paralelo massivo (MPP) para bancos de dados, grid computing, sistemas de arquivos e bancos de dados distribuídos e pesado acesso à Internet.

    Trabalhar com uma grande variedade de dados muda o paradigma da normalização de dados utilizada pelos bancos de dados tradicionais. O Big Data requer tecnologias para processamento de gigantescas quantidades de dados, tais como: teste A/B, crowdsourcing, fusão e integração de dados, algoritmos genéricos, máquinas de aprendizagem, processamento de linguagem natural, processamento de sinais, simulações, análise de séries e visualização.

    O MapReduce, um framework para processamento de Big Data proposto pelo Google, é um dos mais conhecidos no mercado. O MapReduce tem uma implementação em open source, o Apache Hadoop. Esse framework permite o processamento de dados com um grande número de computadores (nós) de forma coletiva em “cluster” (se todos os nós estiverem na mesma rede local) ou em “grid” (se os nós estiverem geograficamente ou administrativamente distribuídos). Devido as características de processamento em paralelo e altamente escalável é recomendável o uso de ambientes Cloud Computing.

    Resolvidos os desafios de coleta de dados e infraestrutura de TI o próximo desafio é definir a equipe para a análise de dados. Na verdade, esse é o maior desafio para que o Big Data traga valor para as organizações.

    Minha sugestão é que os membros da equipe tenham diferentes dominâncias celebrais e com experiência em melhoria contínua de processos e projetos de startups. Para o sucesso dessa equipe seu líder deve estar no mesmo nível hierárquico dos demais diretores para não sofrer obstáculos na obtenção de dados organizacionais e exposição de ideias e projetos.

    Resumindo, o Data Warehouse não atende as expectativas de inovação das empresas e é necessário criar uma organização para Big Data com infraestrutura apropriada, de preferência em ambiente Cloud Computing, e uma equipe com diferentes aptidões com liberdade de acesso as informações corporativas e sem obstáculos para apresentar novos projetos.

  • Inteligência de mercado com Big Data e Cloud Computing

    O sonho dourado dos empreendedores e executivos de empresas é criar produtos e serviços para mercados de baixa concorrência e com grande margem de lucro. Muitas vezes esse produto é um “Ovo de Colombo”. Aquele onde as pessoas dizem: “Como não pensei nisso antes?”.

    Um novo produto é resultado da interpretação de dados disponíveis. Como a interpretação é feita por pessoas, para um mesmo conjunto de dados, provavelmente, teremos resultados diferentes.

    Hoje o grande desafio é manipular a montanha de dados gerados na internet. Segundo Eric Schmidt, CEO da Google, o homem moderno cria a cada dois dias mais informações que os nossos ancestrais. O Facebook processa mais de 500 terabytes de dados diariamente. O Google processa mais de 2 milhões de pesquisas por minuto. E a Cisco prevê a produção de 8 zetabytes de dados por ano até 2015 (o equivalente a 2 trilhões de DVDs).

    Nas redes sociais o conteúdo é criado pelas próprias pessoas, registrando seu comportamento, intenções e relacionamentos. Para extrair o ouro dessa montanha de dados teremos que ter a capacidade para coletar, interpretar, processar e extrair valor das informações. Essa será uma das importantes especialidades das próximas décadas.

    Um novo ambiente requer novas ferramentas e tecnologias. As tradicionais ferramentas de TI, construídas para baixos volumes de dados, não são apropriadas para manipular os grandes volumes de dados produzidos na Internet.

    Nesse novo cenário, o pessoal de marketing deve procurar novas tecnologias e adotar novos conceitos gráficos de apresentação dos dados para estimular o cérebro a identificar informações correlacionadas para criar insights para novos negócios.

    Uma das soluções é utilizar ambientes de Cloud Computing especializados para inteligência de mercado com capacidade para manipular grandes volumes de dados : o chamado Big Data. Isso permitirá as organizações cortarem custos, acelerar o tempo de implantação e ter mais agilidade na integração de novos conjuntos de dados quando necessário.

    O desafio do modelo de negócio dessas empresas especializadas em Big Data será atender o pequeno empreendedor até uma grande empresa com preços diferenciados e acessíveis.