Tail Refinaria – Resolvendo os problemas da Engenharia de Dados

Tail Refinaria – Resolvendo os problemas da Engenharia de Dados
19

Já que se acredita que 80% dos projetos de Ciência de Dados são tarefas de Engenharia de Dados (alguns dizem 90%), nós da Tail trabalhamos nos últimos anos em um projeto para resolver este problema, de forma que pudéssemos focar nos 20% onde está a parte divertida de um projeto de Ciência de Dados. Esse projeto, que se transformou em produto chamado Tail Refinaria.

Aqui vai um resumo das funcionalidades da Tail Refinaria:

 

1- Nós queríamos tornar mais fácil criar catálogos de dados, de forma que fosse rápido encontrar os dados que precisamos. Você submete à Refinaria uma amostra dos dados que você irá importar no Data Lake e a ferramenta automaticamente entende e detecta os tipos dados existentes no seu dataset:

 

2- Uma vez que temos tipos de dados com semântica (telefone, CPF, etc), nós podemos automaticamente validá-los quando os dados reais são inseridos e até detectar dados sensíveis (PII) para sugerir que eles sejam automaticamente anonimizados quando forem importados no Data Lake:

 

 

3- A ferramenta sempre pergunta qual a base legal que a empresa possui para poder usar aqueles dados. Isso é importante para que cientistas de dados saibam se possuem permissão legal para usar o dado para uma tarefa em particular (importante na LGPD):

 

4- Quando um datastore é criado, nós oferecemos uma série de possíveis enriquecimentos de dados, de forma que quando um dado é importado no Data Lake, ele será automaticamente enriquecido pelo pipeline de importação de dados que será gerado para aquele datastore: 

 

 

5- Quando a configuração do datastore é concluída, a Refinaria cria automaticamente um pipeline Apache Spark SQL que será executado sempre que novos dados forem importados. O pipeline irá fazer a limpeza, anonimização e enriquecimento que foram solicitados durante a configuração do datastore.

 

 

6- Quando processamos os dados, nosso pipeline de importação Apache Spark SQL irá gerar até mesmo uma amostra dos dados automaticamente, para tornar mais fácil e rápido executar experimentos.

 

7 – E a Refinaria irá gerar um Data Lineage para todas as modificações no datastore, representando o Data Lineage como uma linha do tempo, para tornar mais fácil entender e rastrear as mudanças nos dados. O Data Lineage é pesquisável por data e por pipeline executado.

 

 

8- Com o Data Lake criado, você pode executar pipelines interativos (similares a notebooks, como Jupyter). De fato, faz parte da Tail Refinaria uma ferramenta de notebook compatível com Spark e Scala que usa comandos Spark SQL para representar o pipeline:

 

 

9- Quando você cria um pipeline, a Refinaria irá gerar um código Spark SQL e este código será o seu pipeline. Você pode então agenda-lo e executá-lo. Desta forma, o mesmo pipeline criado na fase de experimentação é executado em produção, sem nenhum trabalho extra:

 

 

10 – Você pode até mesmo enviar visualizações criadas no pipeline para um dashboard customizado, que será automaticamente atualizado cada vez que o pipeline é executado:

 

 

11- Com segurança, data lineage, catálogo de dados, rastreamento de bases leais, facilidade de encontrar datasets, nós esperamos permitir que nossos clientes criem Data Lakes de verdade, e não “Data Swamps”, como Alex Gorelik chama os Data Lakes mal sucedidos no seu excelente livro Enterprise Big Data Lake.

 

12- Existem muitas outras funcionalidades na Tail Refinaria: conectores para tipos de dados customizados, uma arquitetura de plug-ins para adicionar transformações, filas de transação, logging, exportação de dados, integração com o Google Data Studio, suporte para código Spark SQL, etc. 

 

Se você tem interesse em saber mais, fique à vontade para nos contactar.

 

Esse post faz parte de uma série de conteúdos sobre Refinaria de Dados.

Confira todos os conteúdos:

Post 1: Tail Refinaria – Resolvendo os problemas da Engenharia de Dados

Post 2: Machine Learning com a Tail Refinaria

Post 3: Acesso fácil a dados de treino para construção de modelos de Machine Learning com a Tail Refinaria

Post 4: Simplificando a utilização de algoritmos de Feature Engineering com a Tail Refinaria

Post 5: Treinando e implantando um modelo de Machine Learning com a Tail Refinaria

Post 6: Usando Notebooks de Ciência de Dados para Treino e Implantação de Modelos de Machine Learning

Post 7: Precisamos falar sobre Model Lineage

 

Post escrito por Fabiane Bizinella Nardon (@fabianenardon), Cientista Chefe da Tail. Com mestrado em Ciência da Computação e Doutorado em Engenharia Elétrica, é especialista em Engenharia de Dados e Engenharia de Machine Learning. É também responsável pelo conteúdo editorial da trilha de Engenharia de Machine Learning do QCon São Paulo, palestrante frequente sobre o tema e autora de diversos artigos. Fabiane também foi escolhida Java Champion pela Sun Microsystems, como reconhecimento de sua contribuição para o ecosistema Java.