Acesso fácil a dados de treino para construção de modelos de Machine Learning com a Tail Refinaria

Acesso fácil a dados de treino para construção de modelos de Machine Learning com a Tail Refinaria
22

Como discutimos no artigo anterior, obter, limpar, criar amostras e preparar dados de treino é uma das tarefas que mais consomem tempo quando se está criando modelos de machine learning em um projeto de Ciência de Dados.

A Tail Refinaria é nossa plataforma de Engenharia de dados que prove uma série de funcionalidades para criar Data Lakes e pipelines de Ciência de Dados, incluindo um Catálogo de Dados, uma ferramenta de Data Lineage, notebooks de Ciência de Dados compatíveis com Spark SQL, execução em lote de pipelines Apache Spark, agendamento de pipelines, rastreamento de bases legais de dados compatíveis com a LGPD, visualização de dados e muito mais.

Quando nós decidimos adicionar suporte a Machine Learning na Tail Refinaria, um dos nossos principais objetivos era aproveitar a nossa ferramenta de Catálogo de Dados para tornar o acesso a dados de treino mais fácil, ao mesmo tempo que garantimos a aplicação de todas as políticas de controle de acesso que já temos implementadas para o nosso Data Lake.

 

Veja como funciona:

1- O primeiro passo é criar um pipeline interativo, também chamado de notebook, para ler os dados do Data Lake e prepará-los para serem usados no treino de um modelo. Este pipeline pode ser depois agendado para re-treinar o modelo quando novos dados de treino estiverem disponíveis.

 

Note que quando o pipeline interativo está conectado, a Tail Refinaria irá conectar o seu pipeline a um cluster Apache Spark para permitir executar a experimentação interativamente enquanto escrevemos as células do pipeline. Mais tarde, quando o pipeline estiver concluído e testado, vamos agenda-lo para execução em lote, dessa forma implantando em produção o mesmo código que usamos na experimentação.

 

2 -O próximo passo é selecionar que datastores que estão no Data Lake deveriam ser lidos para treinar o modelo. Neste exemplo, nós vamos usados os dados disponíveis no excelente kmeans tutorial do Google.

 

3- Depois que o datastore estiver selecionado, podemos ler seus dados para iniciar a experimentação. A Tail Refinaria cria automaticamente amostras de todos os datastores que estão no Data Lake. Desta forma, nós podemos escolher executar as nossas experimentações em uma amostra, para testar os algoritmos mais rapidamente, e depois agendar o pipeline para treinar o modelo usando todo o datastore e não só a amostra.

 

4- Depois, nós podemos inspecionar o conteúdo do datastore selecionado:

 

5- Depois que tivermos lido os datastores que precisamos, nós podemos adicionar uma célula de Spark SQL ao pipeline para escrevermos código que irá transformar e selecionar os dados que serão usados no treino do modelo:

 

 

Até aqui, nós acessamos nosso Catálogo de Dados, selecionamos dois datastores que estavam disponíveis no Data Lake da empresa, fizemos a leitura de amostras deles no nosso cluster Spark para executarmos uma experimentação, escrevemos e executamos código Spark SQL para transformar os dados.

Se fosse necessário acessar fontes de dados de terceiros para treinar nosso modelo (dados censitários, bases de CEPs, etc), nós poderíamos visitar o Marketplace da Tail Refinaria e adquirir novos dados para usar no nosso modelo.

Obviamente, usando a Tail Refinaria, Cientistas de Dados terão acesso apenas aos dados que possuem permissão para acessar. Os dados podem também ser anonimizados no pipeline de importação que adiciona os dados ao Data Lake, adicionando assim outro nível de privacidade. A Tail Refinaria cuida disso tudo.

Como você pôde ver, acessar e transformar dados para treinar um modelo é um processo que se torna fácil e intuitivo com a Tail Refinaria. No próximo artigo, vamos mostrar como adicionar algoritmos de feature engineering ao nosso pipeline.

 

Esse post faz parte de uma série de conteúdos sobre Refinaria de Dados.

Confira todos os conteúdos:

Post 1: Tail Refinaria – Resolvendo os problemas da Engenharia de Dados

Post 2: Machine Learning com a Tail Refinaria

Post 3: Acesso fácil a dados de treino para construção de modelos de Machine Learning com a Tail Refinaria

Post 4: Simplificando a utilização de algoritmos de Feature Engineering com a Tail Refinaria

Post 5: Treinando e implantando um modelo de Machine Learning com a Tail Refinaria

Post 6: Usando Notebooks de Ciência de Dados para Treino e Implantação de Modelos de Machine Learning

Post 7: Precisamos falar sobre Model Lineage

Post escrito por Fabiane Bizinella Nardon (@fabianenardon), Cientista Chefe da Tail. Com mestrado em Ciência da Computação e Doutorado em Engenharia Elétrica, é especialista em Engenharia de Dados e Engenharia de Machine Learning. É também responsável pelo conteúdo editorial da trilha de Engenharia de Machine Learning do QCon São Paulo, palestrante frequente sobre o tema e autora de diversos artigos. Fabiane também foi escolhida Java Champion pela Sun Microsystems, como reconhecimento de sua contribuição para o ecossistema Java.