A transformação digital tem exigido mudanças significativas na forma como as empresas gerenciam e processam dados. Entre as inovações que têm ganhado destaque, a arquitetura lakehouse surge como uma solução poderosa para integrar dados estruturados e não estruturados, proporcionando um ambiente flexível e eficiente. Neste artigo, exploraremos o que é a arquitetura lakehouse, suas vantagens, os desafios envolvidos na migração e como ela pode ser integrada com outras soluções emergentes de gestão de dados.
Adaptado por Diego Uchoa do original publicado por Henry Cook, Thornton Craig, Prasad Pore, Ehtisham Zaidi para o Gartner
Evolução das Arquiteturas de Dados e a Transição para o Lakehouse
Ao longo dos anos, os sistemas de dados evoluíram para resolver problemas específicos, cada um com suas características e limitações. A arquitetura de data warehouse, por exemplo, resolveu o problema de fornecer uma visão holística dos dados estruturados da empresa, atendendo grandes volumes de usuários com níveis de serviço aceitáveis. No entanto, outras arquiteturas foram necessárias, pois um único sistema não conseguia suportar todos os tipos de carga de trabalho. Como exemplo, as necessidades de relatórios operacionais em tempo real para processos de negócios não eram bem atendidas por essa abordagem.
Em seguida, surgiram os data lakes, que solucionaram a necessidade de ingestão, processamento e exploração de “big data”, dados grandes e flexíveis com menos estrutura, como logs de navegação, dados da Internet das Coisas (IoT), mídias sociais, vídeos e áudios. A tecnologia open-source map-reduce do data lake permitia carregar e experimentar qualquer tipo de dado antes que ele fosse modelado. Contudo, o data lake não substituiu o data warehouse, pois não foi projetado para lidar com consultas interativas de alto volume para grandes populações de usuários.
Leia também: Power BI e data analytics: tomada de decisões estratégicas e inteligente
A arquitetura do Logical Data Warehouse (LDW) buscou resolver a integração dos dados estruturados e não estruturados, criando uma visão unificada da empresa. No entanto, apresentava limitações, como múltiplos componentes de armazenamento, duplicação de repositórios de metadados, controles de segurança inconsistentes, e uma carga de manutenção elevada. Essas falhas e a redundância nos elementos dos motores componentes geraram um nível de endividamento técnico, o que impulsionou a busca por uma nova solução mais eficiente.
Agora, a arquitetura de lakehouse surge como uma solução que combina o melhor de ambos os mundos, ao integrar características do data lake e do data warehouse de maneira mais eficiente e sem as limitações enfrentadas pelas abordagens anteriores.
Representação de imagem contida no texto original
O que é a Arquitetura Lakehouse?
A arquitetura lakehouse combina o melhor dos data lakes e data warehouses, criando um repositório unificado para dados estruturados e não estruturados. Ela permite que as empresas aproveitem as vantagens de um data lake — como a flexibilidade e baixo custo — sem perder os benefícios de um warehouse, como a estrutura e performance em consultas analíticas.
A principal inovação do lakehouse é a utilização de open table formats (OTF), como Delta Lake, Iceberg e Hudi, que permitem a transição de dados em grandes volumes para análises rápidas, mantendo a governança e integridade dos dados.
Benefícios da Arquitetura Lakehouse
A adoção da arquitetura lakehouse oferece uma série de benefícios para as organizações:
- Unificação de dados: Capacidade de integrar dados estruturados, semi-estruturados e não estruturados em um único repositório.
- Redução de complexidade e custos: Diminui a duplicação de dados e reduz a necessidade de múltiplas ferramentas de processamento e armazenamento.
- Maior flexibilidade e agilidade: A flexibilidade de usar diferentes ferramentas de processamento e manter o controle sobre os dados em formatos abertos.
- Aproveitamento de dados em tempo real: Possibilita o uso de dados em tempo real e a realização de análises de dados em grandes volumes com baixa latência.
Comparação entre a arquitetura Data Warehouse e Lakehouse
Caso de Uso | Lakehouse | Data Warehouse |
Repositório unificado para dados | Integrar dados estruturados, semi-estruturados e não estruturados | Apenas dados estruturados |
Redução de duplicação e complexidade | Elimina tecnologias redundantes e silos de dados | Alta duplicação de dados e complexidade |
Harmonização do ciclo de vida de dados | Simplifica pipelines, orquestração e governança | Pode exigir ferramentas diferentes para cada tipo de dado |
Armazenamento de baixo custo e flexibilidade | Uso de formatos abertos como Delta Lake, Iceberg, Hudi | Armazenamento mais caro e inflexível |
Consultas BI e dados estruturados | Suporte limitado a consultas de BI (semelhante ao data warehouse) | Melhor para BI com alto desempenho de consultas |
Alta concorência e baixa latência | Desafios para consultas interativas de alta concorrência | Melhor para suportar consultas em tempo real |
Necessidade de maturação gradual | Exige implementação mais gradual e capacidades de engenharia avançadas | Mais simples e pode ser mais fácil de implementar inicialmente |
Desafios na implementação da arquitetura lakehouse
Apesar de seus benefícios, a transição para uma arquitetura lakehouse pode apresentar desafios significativos:
- Desempenho em consultas complexas: Embora os lakehouses sejam eficazes para grandes volumes de dados e análises em larga escala, as consultas interativas de baixa latência podem não ser tão rápidas quanto em sistemas dedicados, como os tradicionais data warehouses.
- Integração com sistemas legados: A migração de sistemas antigos para a arquitetura lakehouse pode ser complexa e exigir integração com plataformas já existentes.
- Gestão de segurança e governança: A natureza distribuída do lakehouse exige que as políticas de segurança e governança sejam bem definidas, incluindo criptografia, controle de acesso e auditoria.
Leia também: Data Analytics: construindo uma cultura Data-Driven na sua organização
Planejamento da migração para lakehouse
A migração para uma arquitetura lakehouse deve ser cuidadosamente planejada para garantir que o novo sistema não prejudique os níveis de serviço exigidos pela empresa. É fundamental:
- Avaliar as necessidades de armazenamento e processamento SQL: A nova arquitetura deve ser capaz de suportar os requisitos de armazenamento e as consultas SQL em tempo real.
- Manter a integridade dos dados: Verificar se o sistema escolhido mantém a consistência e integridade dos dados, principalmente em transações com várias tabelas.
- Considerar a evolução do sistema: Planejar a implementação de soluções emergentes, como o data fabric, que pode ajudar a integrar o lakehouse com outras soluções de dados no futuro.
Arquitetura | Definição | Dependências |
Data Mesh | Descentralização da responsabilidade dos dados entre diferentes domínios dentro da organização | Pode utilizar múltiplos lakehouses para diferentes domínios de dados |
Data Products | Produtos de dados independentes, com acesso e consumo bem definidos | Pode se basear em lakehouses para armazenar e processar dados, garantindo governança e controle |
Data Fabric | Arquitetura unificada de dados, que utiliza metadados e integração para acesso eficiente | O lakehouse pode fazer parte de um data fabric, compartilhando metadados e componentes de governança |
Lakehouse | Armazenamento de dados unificado que integra dados estruturados e não estruturados | Pode atuar como a base de armazenamento e processamento para data mesh e data fabric |
Justificativa de Negócio para a Adoção da Arquitetura Lakehouse
Embora este tipo de arquitetura ofereça várias vantagens, é importante que a mudança seja justificada sob a perspectiva de negócios:
- Custo: A estimativa de custos deve incluir os gastos com a migração, a manutenção do novo sistema, treinamento de equipes e expansão do sistema ao longo do tempo.
- Desempenho: Avaliar o desempenho esperado para diferentes tipos de usuários, cargas de trabalho e consultas, incluindo os usuários não humanos (como feeds de dados automatizados).
- Retorno sobre investimento (ROI): Considerar os custos e benefícios de cada etapa da transição para garantir que os investimentos tragam retornos significativos ao longo do tempo.
Aproveitar Soluções Existentes e Emergentes
Uma abordagem prática para a migração para lakehouse é aproveitar soluções existentes. Se a organização já possui um data lake ou um data warehouse, é possível fazer uma transição gradual para a arquitetura lakehouse, adicionando serviços de SQL querying, real-time processing e open table formats. Além disso, mesmo que o sistema atual não possa ser completamente transformado em um lakehouse, ele pode servir como um fallback para garantir a continuidade dos serviços enquanto a nova arquitetura é amadurecida.
Além disso, ao olhar para o futuro, a arquitetura lakehouse pode ser integrada a soluções emergentes como data fabrics e data ecosystems, ampliando sua capacidade de integração e interoperabilidade.
Conclusão
A arquitetura lakehouse representa uma evolução significativa na gestão e processamento de dados, proporcionando uma solução flexível e escalável que atende às demandas de análise de grandes volumes de dados. No entanto, a transição para essa nova arquitetura deve ser feita com cuidado, levando em consideração os desafios técnicos, a justificativa de negócios e o planejamento estratégico para garantir que a mudança traga benefícios duradouros. Ao adotar uma abordagem gradual e integrada, as organizações podem maximizar o valor de seus dados e se posicionar para o futuro, integrando soluções emergentes como data fabric e data ecosystems.
Metodologia
O relatório original foi baseado em pesquisas da Gartner, entrevistas com fornecedores e mais de 1.000 chamadas de consulta com clientes ao longo de cinco anos. A Gartner Chief Data and Analytics Officer Agenda Survey for 2024 foi conduzida para determinar a agenda e os desafios estratégicos do cargo de Chief Data and Analytics Officer (CDAO) ou do escritório do CDAO para 2024. A pesquisa também visou informar o planejamento da agenda e possíveis tópicos de pesquisa para a prática de dados e analytics, além de acompanhar o progresso do papel do CDAO nas organizações. A pesquisa foi realizada online entre setembro e novembro de 2023, com 479 respondentes de várias partes do mundo. Os participantes deveriam ser titulares de cargos como CDAO, Chief Data Officer (CDO) ou Chief Analytics Officer (CAO), ou líderes de dados e analytics com responsabilidades em TI ou em unidades de negócios fora da TI. A amostra foi extraída de várias fontes, incluindo uma lista curada pela Gartner com mais de 4.770 CDOs e outros líderes de dados e analytics.
Observação: os resultados da pesquisa não representam descobertas globais ou do mercado como um todo, mas refletem os sentimentos dos respondentes e das empresas pesquisadas.