close

Dez pontos para entender o que é um data lake 

Seja Relevante e A3Data explicam o que é um data lake, sua importância e diferença em relação a outros conceitos, como data warehouse

data lake © - Shutterstock
por Redação outubro 11, 2023
  • Desenvolvimento de médias empresas Mais informações
    Desenvolvimento de médias empresas
  • Inovação e transformação digital Mais informações
    Inovação e transformação digital

A tradução literal do conceito de data lake é bastante sugestiva: lago de dados. A imagem remete a um volume imenso de informação bruta armazenada em algum lugar. Mais do que quantidade, porém, estamos falando de dados em formato nativo, esperando para serem analisados. 

O que é data lake?

O data lake é uma solução de armazenamento centralizada que permite o armazenamento, processamento e proteção de grandes quantidades de dados estruturados, semi-estruturados e não estruturados. Diferentemente dos bancos de dados tradicionais, o data lake armazena os dados em seu formato original, sem limitações de tamanho, e oferece flexibilidade para processar dados de qualquer tipo. 

Para falar mais sobre o tema, criamos este miniguia, em dez pontos que explicam o que é data lake. O material inaugura uma série ilustrada sobre o universo dos dados, fruto de uma parceria entre a A3Data e o Seja Relevante – a Data Fluency. A série apresenta infográficos informativos mensalmente, com conteúdos diversos. A Data Fluency traz uma linguagem facilmente consumida por indivíduos com vivência em TI, mas, principalmente, é capaz de ser digerida por áreas de negócio nas quais a maturidade analítica tende a ser menor.

1. Por que usar um data lake?

o que e e porque usar data lake
© – Shutterstock

Os data lakes armazenam, geralmente, conjuntos grandes de massas de dados que podem incluir uma combinação de dados estruturados, não estruturados e semiestruturados. As empresas os usam principalmente como uma plataforma para análise de Big Data, Inteligência Artificial (IA) e outros aplicativos de ciência de dados, que exigem grandes volumes e envolvem técnicas avançadas de análise, como a modelagem preditiva e o aprendizado de máquina. Um data lake fornece local central para cientistas e analistas de dados encontrarem, prepararem e analisarem dados relevantes. Daí o sucesso da tecnologia. 

1.1. O que são dados estruturados, não estruturados e semiestruturados

Essas são as três formas de dados que se tornaram importantes para todos os tipos de aplicativos de negócios. Os dados estruturados já existem há algum tempo. Mas, houve um rápido crescimento na geração de fontes de dados semiestruturadas e não estruturadas, devido ao aumento do Big Data. Como resultado, cada vez mais empresas estão procurando levar sua inteligência para o próximo nível, incluindo todas as três formas de dados.

2. Benefícios para os negócios

Os data lakes fornecem uma base para aplicativos de ciência de dados e análise avançada. Ao fazer isso, eles permitem que as organizações gerenciem as operações de negócios com mais eficiência e identifiquem tendências e oportunidades de negócios. 

Uma organização, por exemplo, pode usar modelos preditivos sobre o comportamento de compra do cliente para melhorar a sua publicidade online e campanhas de marketing, melhorando a experiência do consumidor e o desempenho das ações. A análise em um data lake também ajuda no gerenciamento de riscos, detecção de fraudes, manutenção de equipamentos e outras funções dos negócios.

2.1. A importância da ciência de dados

Segundo o site da Amazon Web Services (AWS), ciência de dados é o estudo destas informações para extrair insights significativos para os negócios. Ela é uma abordagem multidisciplinar que combina princípios e práticas das áreas de matemática, estatística, inteligência artificial e engenharia da computação, para analisar grandes quantidades de informações. A ciência de dados é importante porque combina ferramentas, métodos e tecnologia para gerar significado com base em dados. 

2.2. O que são modelos preditivos

Segundo o site ClearSale, com as rápidas mudanças pelas quais os negócios vêm passando, “não há mais espaço para tomar decisões baseadas em intuição”. É preciso contar com dados. E o modelo preditivo é muito usado para embasar as definições corporativas e proteger as empresas contra fraudes. Um modelo preditivo é, de forma simplificada, uma função matemática que pode ser aplicada a uma grande quantidade de informações soltas. A ideia é evidenciar padrões capazes de determinar as próximas tendências. Ele se baseia em algoritmos estatísticos e técnicas de Machine Learning para calcular probabilidades de resultados.

3. Arquitetura de data lake

Muitas tecnologias podem ser usadas em data lakes e as organizações podem combiná-las de diferentes maneiras. Isso significa que a arquitetura de um data lake geralmente varia de organização para organização. Por exemplo, uma empresa pode implantar o Hadoop com o mecanismo de processamento Spark e o HBase, um banco de dados NoSQL executado no HDFS. Já outra pode executar o Spark em dados armazenados no Amazon Simple Storage Service (S3).

4. Muito além dos dados brutos

muito alem dos dados
© – Shutterstock

Alguns conjuntos de informações podem ser filtrados e processados para análise no data lake. Nesse caso, a arquitetura deve permitir incluir capacidade de armazenamento suficiente para dados pré-preparados. Muitos data lakes também incluem sandboxes, espaços dedicados ao trabalho investigativo e à experimentação de novas métricas, indicadores e modelos, potencializando a mobilização da informação para gerar valor para o negócio.

4.1. Vantagens dos sandboxes

Segundo explica o blog Transfeera, um sandbox é um ambiente de teste isolado, utilizado por programadores e desenvolvedores para testar novos programas, aplicativos e plataformas com segurança. Além disso, permite que esses testes sejam realizados sem que eles interfiram ou danifiquem qualquer outro ambiente e tenham ramificações no mundo real. O sandbox é um ambiente protegido contra os ataques de hackers e de fraudes. Por isso, trata-se de algo bastante seguro para quem deseja fazer mudanças ou testes sem correr riscos.

5. Nada de preconceitos…

Nenhum dado precisa ser rejeitado no data lake, pois toda informação coletada dos sistemas de origem pode ser carregada e retida nele. E isso tudo pode ser armazenado em um estado não transformado, ou quase não transformado, conforme recebido do sistema de origem. Esses dados são posteriormente processados e se encaixam em um esquema com base em requisitos específicos de análise.

6. Nem desperdícios

Alguns elementos também devem ser incluídos para garantir que o data lake seja funcional e que os dados que ele contém não sejam desperdiçados. Isso inclui uma estrutura de pastas comum com convenções de nomenclatura, um catálogo de dados pesquisável, uma taxonomia de classificação de dados para identificar dados confidenciais, além de ferramentas de perfil de dados para fornecer insights e identificar problemas de qualidade. 

Também é recomendável ter um processo padronizado de acesso a dados para ajudar a controlar e acompanhar quem está acessando as informações e mecanismos de proteção como a criptografia e o monitoramento automatizado.

6.1. A importância da taxonomia 

Segundo o site Yapoli, a taxonomia é a técnica ou metodologia que organiza, classifica e define a hierarquia dos arquivos digitais e produtos/informações dentro de uma estrutura compreensível. Em termos práticos, o processo envolve a concepção, nomeação e classificação dos grupos que permitem uma leitura clara da origem e aplicação de cada informação, a qual está estruturada e relacionada dentro da empresa e de suas respectivas áreas: regiões, divisões, segmentos e categorias. O desafio principal da gestão de ativos digitais (DAM) para as corporações é estruturar como esses arquivos/informações serão nomeados e, consequentemente, classificados em grande escala sem perder a estrutura e padrão, ou seja, a taxonomia preestabelecida.

7. Não é data warehouse

As maiores diferenças entre data lakes e data warehouses são seu suporte a tipos variados de dados e o esquema de funcionamento. 

Em um data warehouse, que armazena principalmente dados estruturados, o esquema para conjuntos de dados é pré-determinado e há um plano para processar, transformar e usar os dados quando carregados no warehouse

Esse não é necessariamente o caso em um data lake, que pode abrigar diferentes tipos de dados e não precisa ter um esquema definido para eles ou um plano específico de como serão usados, mas pressupõe uma maior flexibilidade, tanto no processamento quanto nos casos de uso possíveis.

8. Data lake e Hadoop

data lake e hadoop
© – Shutterstock

Os data lakes são frequentemente associados a sistemas Hadoop, estruturas de software de código aberto para armazenar dados e executar aplicações em clusters de hardwares comuns. Eles fornecem armazenamento de grande volume para qualquer tipo de dado, têm grande poder de processamento e a capacidade de lidar quase ilimitadamente com tarefas e trabalhos ocorrendo ao mesmo tempo. 

9. Data lakes na nuvem versus locais

No início, a maioria dos data lakes era implantada em data centers locais. Mas, eles agora fazem parte das arquiteturas de dados em nuvem em muitas organizações. A mudança começou com a introdução de plataformas de Big Data baseadas em cloud e serviços gerenciados, que incorporam Hadoop e Spark, além de várias outras tecnologias. Em particular, os líderes de mercado de plataformas de nuvem (AWS, Microsoft e Google) oferecem pacotes de tecnologia de big data. 

9.1. Afinal, o que é big data?

Segundo o site da Alura, com o advento da Internet o volume de dados gerados ao redor do mundo cresceu de forma inesperada. A utilização em larga escala de dispositivos móveis ampliou ainda mais a quantidade de informações. Os métodos tradicionais para armazenamento e processamento de dados em grandes empresas tornaram-se insuficientes. Por isso, surgiu o conceito de big data, uma área do conhecimento que visa estudar como  tratar, analisar e gerar conhecimento por meio de grandes conjuntos de dados que não conseguem ser trabalhados em sistemas tradicionais.

10. Pântanos de dados

© – Shutterstock

Um dos maiores desafios é impedir que um data lake se transforme em um pântano de dados. Afinal, se não for configurado e gerenciado adequadamente, o data lake pode se tornar um depósito confuso de informações, onde os usuários podem não encontrar o que precisam e os gerentes perderem o controle das informações armazenadas. Os pontos de atenção também envolvem a gestão correta – precisa ter governança –, além de evitar a sobrecarga de tecnologia.

O infográfico da A3Data, a seguir, traz informações dinâmicas sobre os data lakes:

Quer saber mais? Artigo | Vídeo

10.1. O que faz a governança?

Segundo o blog Claranet, governança de TI é a capacidade de adequar as atividades que a área de tecnologia da informação desenvolve com as necessidades e objetivos estratégicos de uma organização. Isso faz com que a área de TI seja mais estratégica e ativa no negócio. A estratégia de governança visa garantir que o setor dedique todo seu potencial nas iniciativas certas para trazer os resultados esperados.




Os assuntos mais relevantes diretamente no seu e-mail

Inscreva-se na nossa newsletter