Gestão do Processo de Ciência de Dados

Carlos J. Costa

Professor Associado do ISEG (Lisbon School of Economics and Management); Doutorado em Ciencias e Tecnologias de Informação

28 de abril de 2020

Principalmente com a proliferação do covid-19, assistimos a uma proliferação de “posts” de auto-intitulados “data scientists”. A maioria faz análises muito elementares, simples médias ou regressões simples. No entanto, o problema não está no recurso a abordagens muito básicas. Antes, importa perceber de que forma é que as abordagens se enquadram nos problemas apresentados. É por isso que é relevante perceber o processo de ciência de dados e fazer a respetiva gestão.

Voltando um pouco atrás, a ciência de dados é uma área de estudo que resulta da intersecção de várias áreas de conhecimento, nomeadamente a matemática, a computação e o conhecimento aplicado a um negócio ou a uma organização. Estas são as principais áreas que necessitam de ser integradas para se poder fazer gestão de um projeto de ciência de dados. Uma das abordagens seguidas para a ajudar na descrição do processo de ciência de dados é o Cross Industry Standard Process for Data Mining (CRISP- DM). Esta metodologia foi desenvolvida em meados dos anos 90 por um consórcio incluindo a Daimler, NCR e Teradata entre outras. Posteriormente teve vários desenvolvimentos, tendo sido incorporada noutras metodologias, nomeadamente o POST-DS (Process Organization and Scheduling electing Tools for Data Science). Esta abordagem apresenta seis grandes fases a saber: entender o negócio, entender os dados, preparar dados, conceber modelos, avaliar e instalar.

A primeira fase, entender o negócio, foca-se na definição do objetivo do projeto a partir de uma perspetiva do negócio, definindo um plano preliminar para atingir os objetivos. Essa fase inicial concentra-se no entendimento dos objetivos e requisitos do projeto, convertendo esse conhecimento na definição de problema de dados e em um plano preliminar projetado a atingir.

"A primeira fase, entender o negócio, foca-se na definição do objetivo do projeto a partir de uma perspetiva do negócio, definindo um plano preliminar para atingir os objetivos. "

"Depois de entender os negócios, entra-se na segunda fase na qual deve entender os dados. Esta fase consiste no recolhimento de dados e início de atividades para familiarização com os dados, identificando problemas ou conjuntos interessantes."

"A terceira fase é a preparação dos dados. Consiste na construção do conjunto de dados final a partir dos dados iniciais."

"A preparação de dados é relevante para a conceção de modelos. Nesta fase, várias técnicas de modelação são aplicadas, e respetiva calibração dos parâmetros com vista a otimização."

Depois de entender os negócios, entra-se na segunda fase na qual deve entender os dados. Esta fase consiste no recolhimento de dados e início de atividades para familiarização com os dados, identificando problemas ou conjuntos interessantes. A fase de entendimento dos dados começa com a recolha inicial de dados e prossegue com as atividades que permitem que o cientista de dados se familiarize com os dados, identifique problemas de qualidade dos dados, descubra as primeiras ideias sobre os dados e / ou detete subconjuntos interessantes para formar hipóteses sobre informações ocultas.

A terceira fase é a preparação dos dados. Consiste na construção do conjunto de dados final a partir dos dados iniciais. Normalmente ocorre várias vezes no processo. A fase de preparação de dados abrange todas as atividades necessárias para construir o conjunto de dados final, dados que serão alimentados na ferramenta ou ferramentas utilizadas conceção e estimação de modelos a partir dos dados brutos iniciais. É provável que as tarefas de preparação de dados sejam executadas várias vezes e não necessariamente numa ordem pré-definida. As tarefas nesta fase incluem seleção de tabelas, registos e atributos, além de transformação e limpeza de dados para ferramentas de modelização

A preparação de dados é relevante para a conceção de modelos. Nesta fase, várias técnicas de modelação são aplicadas, e respetiva calibração dos parâmetros com vista a otimização. Assim, é comum retornar à preparação dos dados durante esta fase. Nesta fase, várias técnicas de modelação são selecionadas e aplicadas, e os seus parâmetros são estimados ou calibrados para otimizar valores. Normalmente, existem várias técnicas para o mesmo tipo de problema de ciência de dados. Os modelos tanto se podem traduzir em regressões, simples médias ou redes neuronais, entre muitas outras técnicas. Algumas técnicas têm especificidades requisitos nos tipos de dados. Por exemplo, os modelos baseados em árvores de decisão, usam tipicamente dados discretos. As regressões usam tipicamente valores contínuos. Muitas vezes as variáveis independentes não são utilizadas em todos os modelos a testar. Portanto, muitas vezes é necessário voltar à fase de preparação de dados.

Na fase anterior foi construído um modelo que parece ter grande qualidade de uma perspetiva de análise de dados. No entanto, é necessário verificar se o modelo atinge os objetivos do negócio, fazendo a sua avaliação. Nesta fase do projeto, o analista construiu um modelo (ou modelos) que parece ter alta qualidade. Antes de prosseguir para a instalação final do modelo, é importante avaliá-lo completamente e rever as etapas executadas para o implementar, e para garantir que o modelo atinge os objetivos de negócios adequadamente. Um objetivo chave consiste em determinar se há algum problema de negócio importante que não foi suficientemente considerado. No final desta fase, deve ser equacionada a decisão sobre o uso dos resultados das técnicas de ciência de dados.

O conhecimento adquirido pelo modelo é organizado e apresentado de uma maneira que o cliente possa utilizar. A criação do modelo geralmente não é o fim do projeto. Mesmo que o objetivo do modelo seja aumentar o conhecimento dos dados, o conhecimento adquirido precisará ser organizado e apresentado de forma que o cliente possa usá-lo. É o que se denomina de instalação. Esta fase geralmente envolve a aplicação de modelos “ativos” nos processos de tomada de decisão de uma organização. Por exemplo, pode-se utilizar um modelo em tempo real que personalize páginas Web. Dependendo dos requisitos, a fase de instalação pode ser tão simples quanto gerar um relatório ou tão complexa como implementar uma modelo que utiliza dados no processo em toda a empresa, voltando a estimar os valores do próprio modelo. Em muitos casos, é o cliente, não o analista de dados (ou cientista de dados), que realiza a instalação. No entanto, mesmo que o analista realize o esforço de instalação, é importante que o cliente entenda antecipadamente que ações precisam ser executadas para realmente fazer uso dos modelos criados.

Assim, desta forma um modelo inicialmente proposto (nos anos 90) no contexto de mineração de dados é atualmente dos mais utilizados na indústria. É evidente que os métodos de modelação e toda a tecnologia de recolha de dados tem-se desenvolvido nos últimos anos com o Boom do IOT e da recolha de dados em diversos tipos de serviços, mudou drasticamente os resultados que conseguimos ter agora face ao que era possível há 30 anos. Mas os processos são fundamentalmente os mesmos com pequenas alterações na implementação. Uma abordagem desta natureza permite enquadrar a abordagem no contexto do problema e seguir um conjunto de passos sustentado e rigorosos. Finaliza pela apresentação dos resultados aos utilizadores e permite criar valor para as organizações e sociedade.

"Na fase anterior foi construído um modelo que parece ter grande qualidade de uma perspetiva de análise de dados. No entanto, é necessário verificar se o modelo atinge os objetivos do negócio, fazendo a sua avaliação."

"A criação do modelo geralmente não é o fim do projeto. Mesmo que o objetivo do modelo seja aumentar o conhecimento dos dados, o conhecimento adquirido precisará ser organizado e apresentado de forma que o cliente possa usá-lo. É o que se denomina de instalação. "