Publicado em 17 de dezembro de 2018
Vivemos hoje em um momento de muita informação e podemos afirmar que a transformação digital é encarregada por fazer com que os dados sejam vistos como uma nova descoberta. Uma dúvida que fica é em relação ao que é necessário para se trabalhar a grande massa de dados gerados no nosso dia a dia? Pois bem, o data lake pode ser uma alternativa.
Data driven, big data e business intelligence, realmente o mundo corporativo vive hoje uma verdadeira revolução de dados. As empresas têm aprendido coletá-los, interpretá-los, organizá-los e analisá-los visando criar insights e fundamentar decisões. No entanto, existe um número ainda maior de informações em estado bruto, e o data lake é uma opção para armazená-los.
Você já ouviu falar sobre esse conceito? Quer saber o que é e qual é a sua relação com o big data? Então não perca os próximos tópicos! Boa leitura!
O conceito data lake, ou também conhecido como “lago de dados” em tradução livre, refere-se a um novo modelo de implementação de armazenamento de dados, visando guardar o máximo possível fazendo uso de um mínimo esforço.
Isso porque, tal tecnologia garante a criação de um repositório centralizado, podendo armazenar todos os dados de uma empresa, estruturados ou não, provenientes de qualquer tipo de fonte e em qualquer escala.
Sabe-se que as organizações estão armazenando e produzindo muito mais dados do que nunca foi visto antes na história da humanidade. A cada ano, gera-se muito mais dados do que o que foi produzido no ano anterior.
Armazenar tais dados é o primeiro desafio. O fato é que muitos deles, hoje, não podem ser armazenados em apenas uma máquina, em um único servidor (por mais potente que ele seja).
Sendo assim, cada departamento dessas empresas normalmente tem um banco de dados, isso significa que elas acabam tendo filas de dados, que são bases separadas, sendo que cada departamento usa a sua.
A ideia do data lake, portanto, é solucionar esse problema: criar um repositório único, de baixo custo e que seja fácil para todos acessarem e que seja devidamente organizado e gerenciável para promover um melhor acesso, distribuído entre várias te no cluster para todos os stakeholders da empresa que querem trabalhar com determinado tipo de dado.
Data lake é uma das formas de se atacar um dos problemas de big data. Aliás, o big data, por definição, é todo aquele modelo de processamento e análise que não é feito em apenas um computador (seja ele um supercomputador da IBM, seja um notebook).
Como é que se lida com todo esse grande volume de dados se não é possível processá-los/analisá-los em um computador apenas? O big data é um conceito que se relaciona com o fato de ter vários computadores conectados à internet, conhecido como cluster.
Então, como distribuir toda a tarefa de armazenar esses dados e processá-los neste cluster de maneira a criar valor? O data lake é uma das soluções para resolver esse desafio.
As diferenças entre data lake e data warehouse são muitas. Embora os dois sejam implementações para o armazenamento de dados, o funcionamento acontece de maneira diferente. Entre as principais diferenças dessas tecnologias, podemos destacar algumas:
flexibilidade: os data lake podem armazenar qualquer coisa, enquanto os data warehouses tendem a ser mais engessados, logo, recebem dados de poucas fontes;
modelo de armazenamento: no armazém (data warehouse) é possível inserir apenas dados tratados. Já nos lagos (data lake), pode-se inserir qualquer dado;
tamanho: os lagos são maiores, tendo uma capacidade imensa de armazenamento. No entanto, podem levar mais tempo para administrar;
colaboração: o uso de data lakes garante que todos os colaboradores tenham acesso e usem suas informações da melhor forma.
São várias as aplicações dessa tecnologia, mas a principal finalidade é reunir dados que possam ser analisados em um futuro, além de contribuir para a melhoria dos processos.
Para criar um Data Lake e obter o máximo de resultado de seus dados, é importante seguir um manifesto com as 10 melhores práticas para o seu desenvolvimento:
ingerir dados rapidamente;
controlar quem carrega quais dados no lago;
persistir informações no estado bruto;
manter um tempo de leitura aceitável;
capturar várias fontes de dados;
ampliar a arquitetura de informações;
atender a todas as demandas;
permitir novas práticas;
escolher plataformas que suportem data lake;
integrar informações com big data.
Uma empresa grande que queira entender qual é o perfil dos profissionais que estão sendo promovidos frequentemente precisa ter dados específicos. Quanto mais dados para realizar esse tipo de análise, melhor.
Em data lake, tem-se dados do RH, por exemplo, dados da performance que determinado funcionário teve em diferentes projetos da área técnica e dados mais relativos à habilidade técnica dessa pessoa também estarão disponíveis. Sendo assim, os mais diferentes tipos de informações devem estar presentes em apenas um lugar.
O que o data lake pode oferecer para as empresas? Confira algumas características que são conhecidas como benefício pelas organizações:
Além de vir de múltiplas fontes, no data lake, a informação disponível não foi “informada” de maneira prévia para responder a um conjunto preestabelecido de questões.
Por isso, assim que surgem novas necessidades e novos tópicos, esses dados podem ser “pescados” a fim de respondê-los, ou seja, isso acaba proporcionando uma visão estratégica.
Como são reunidos dados de inúmeras fontes que não passam por uma limpeza prévia, consegue-se acumular uma grande quantidade de informações, em um ritmo muito rápido.
Os data lakes são extremamente acessíveis. Eles permitem que as informações sejam compartilhadas entre muitos usuários, sem precisar de intervenção da equipe de TI (Tecnologia da Informação).
Os dados podem ser agrupados por objetivos, temas ou por qualquer critério que seja útil no momento.
O data lake, ao reunir um volume tão gigante de dados, abre a possibilidade de cruzar conteúdos que não tinham sido analisados. Dessa forma, ele cria a chance de fazer descobertas e de obter insights totalmente inéditos.
É necessário investir muito para construir um data warehouse, além de ocupar muito tempo de um equipe, afinal, ele exige todo o processo de estruturação, limpeza e análise dos dados, conforme o esquema escolhido.
Comparado a esse modelo, o data lake tende a ser muito mais vantajoso, pois não há a exigência de todo esse tratamento da informação, além de manter toda essa quantidade de dados disponível para uma análise ampla, sem ser limitada a qualquer esquema.
Enfim, o data lake garante maior suporte à alta gestão para não somente facilitar as análises, mas para compreender como todo o fluxo de dados é processado pela empresa. Muitas vezes, diferentes departamentos da empresa têm dados redundantes, e quando você pode contar com um repositório central, isso dá maior credibilidade e garantia de que as análises estão sendo feitas apenas com os dados mais recentes.
E aí, o que achou deste texto? Gostou? Então aproveite para curtir a nossa página no Facebook e acompanhar nossas atualizações por lá!