O que são dados etiquetados e porque são o combustível do Machine Learning

O que são dados etiquetados e porque são o combustível do Machine Learning

Cml

Quando comecei a explorar Machine Learning de forma mais prática, deparei-me
rapidamente com um conceito que aparece constantemente em livros, cursos e artigos: os
dados etiquetados.

À primeira vista parece apenas mais um termo técnico. No entanto, quanto mais avançava
no estudo da área, mais percebia que grande parte do sucesso ou fracasso de um projeto de
Inteligência Artificial depende precisamente da existência destas etiquetas.

Na verdade, muitos projetos não falham por falta de algoritmos avançados. Não falham por
falta de capacidade computacional. Nem sequer falham por falta de dados.

Falham porque não possuem dados etiquetados em quantidade suficiente.
Se existe um elemento que pode ser considerado o combustível do Machine Learning, são
precisamente as etiquetas.

O que são dados etiquetados?

De forma simples, um dado etiquetado é um registo que já contém a resposta correta.
Imaginemos uma empresa de logística que pretende prever reclamações de clientes.
Cada envio pode conter informação como:

  • Distância percorrida
  • Peso da mercadoria
  • Tempo de entrega
  • Número de incidentes
  • Custo do transporte

Mas para treinar um modelo de Machine Learning precisamos de algo mais.
Precisamos de saber o resultado final.
Por exemplo:

Distância Peso Incidentes Reclamação

150 km10 kg 0 Não
500 km25 kg 2Sim
300 km15 kg 1Não

A coluna “Reclamação” é a etiqueta.

É essa informação que permite ao algoritmo aprender.
Sem ela, o modelo não sabe se determinada combinação de características corresponde a
um bom ou mau resultado.

Uma metáfora simples

Imagine que pretende ensinar uma criança a distinguir cães de gatos.
Mostra-lhe centenas de fotografias.
Sempre que apresenta uma imagem diz:
Isto é um cão.
ou
Isto é um gato.
Ao fim de algum tempo a criança começa a identificar padrões.
Repara nas orelhas.
Na forma do focinho.
No tamanho do corpo.
Na textura do pelo.
Pouco a pouco aprende a distinguir os dois animais.
Agora imagine que mostra exatamente as mesmas fotografias, mas sem dizer qual é qual.
A aprendizagem torna-se muito mais difícil.
É exatamente isso que acontece em Machine Learning.
As etiquetas funcionam como o professor que acompanha o processo de aprendizagem.

O problema que encontrei no meu primeiro projeto

Recentemente desenvolvi um pequeno projeto de Machine Learning utilizando um conjunto
de dados de uma empresa logística fictícia chamada LogiTrans.
O objetivo era prever quais os envios com maior probabilidade de gerar reclamações.
O dataset continha 1000 operações logísticas.

À primeira vista parecia uma quantidade razoável de informação.
No entanto, quando comecei a analisar os dados encontrei um problema.
Apenas cerca de 300 registos continham informação sobre reclamações.
Os restantes não possuíam qualquer etiqueta.
Isto significa que o algoritmo apenas podia aprender a partir de uma pequena parte do
conjunto de dados.

Foi nesse momento que percebi uma realidade muito comum nos projetos empresariais.
As organizações possuem enormes quantidades de dados.
Mas muitas vezes possuem poucas respostas.

Ter muitos dados não significa ter bons dados

Esta é uma das conclusões mais importantes que retirei das primeiras sessões de Machine
Learning.
Existe uma tendência natural para acreditar que mais dados significam automaticamente
melhores resultados.
Mas isso nem sempre acontece.
Imagine um município que possui consumos energéticos de 500 edifícios.
Possui leituras horárias.
Possui faturas.
Possui medições de sensores.
Possui dados meteorológicos.
Possui anos de histórico.
À primeira vista parece uma mina de ouro.
Mas se o objetivo for identificar edifícios energeticamente ineficientes, será necessário
saber quais os edifícios que realmente apresentam desperdícios.
Sem essa informação, o modelo não sabe o que deve aprender.
Os dados existem.
As etiquetas não.
E sem etiquetas a aprendizagem supervisionada torna-se impossível.

O papel das etiquetas na eficiência energética

Na área da eficiência energética encontramos inúmeros exemplos deste desafio.
Imagine que pretendemos construir um sistema capaz de prever falhas em equipamentos
AVAC.

Os sensores podem recolher milhares de variáveis:

  • Temperaturas
  • Pressões
  • Horas de funcionamento
  • Consumos elétricos
  • Estado dos ventiladores

Mas para treinar um modelo precisamos de saber quando ocorreu uma avaria.
Essa informação é a etiqueta.
Sem histórico de falhas registadas, o algoritmo não consegue aprender os padrões que
antecedem uma avaria.
O mesmo acontece em muitas outras aplicações:

  • Deteção de desperdícios energéticos
  • Classificação de edifícios eficientes
  • Previsão de incumprimentos contratuais
  • Deteção de fraude
  • Identificação de anomalias operacionais

Em todos estes casos, a qualidade das etiquetas influencia diretamente o desempenho do
modelo.

Porque é tão caro criar etiquetas?

Se as etiquetas são tão importantes, porque não as criamos simplesmente?
A resposta é simples.
Porque normalmente são caras.
Imagine um hospital que pretende desenvolver um sistema para detetar doenças através de
exames médicos.

Cada exame precisa de ser analisado por especialistas.
Cada diagnóstico precisa de ser validado.
Cada etiqueta exige tempo e conhecimento especializado.
O mesmo acontece na indústria, na energia ou na área financeira.
Em muitos projetos, o custo de etiquetar dados pode ser superior ao custo do
desenvolvimento do próprio modelo.
É precisamente por isso que surgiram abordagens como o Semi-Supervised Learning e o
Self-Supervised Learning, que explorarei em artigos futuros.

O paradoxo dos dados modernos

Vivemos numa época em que produzimos mais dados do que nunca.
Sensores.
Telemóveis.
Aplicações.
Satélites.
Veículos.
Equipamentos industriais.
Tudo gera informação continuamente.
Mas existe um paradoxo interessante.
Temos abundância de dados.
Temos escassez de etiquetas.

É por isso que muitas das grandes evoluções recentes da Inteligência Artificial procuraram
encontrar formas de aprender mesmo quando as etiquetas são escassas ou inexistentes.

O que isto significa para as empresas?

Uma das principais lições para qualquer organização é simples.
Antes de investir em algoritmos avançados, vale a pena olhar para a qualidade dos dados
disponíveis.
Muitas vezes a pergunta correta não é:
Qual o melhor algoritmo?

Mas sim:
Tenho exemplos suficientes do resultado que pretendo prever?
Em muitos casos, melhorar a recolha e a classificação dos dados produz ganhos muito
superiores à mudança de tecnologia.
Um modelo simples alimentado com dados de qualidade tende a superar um modelo
complexo alimentado com dados pobres.

Conclusão

Quando pensamos em Inteligência Artificial, é natural focarmo-nos nos algoritmos, nos
modelos e nas tecnologias mais recentes.
Mas a realidade é que a aprendizagem começa muito antes disso.
Começa nos dados.
E, mais concretamente, nas etiquetas.
São elas que permitem aos algoritmos distinguir o que é correto do que é incorreto.
São elas que transformam informação em conhecimento.
São elas que permitem que um sistema aprenda com a experiência passada para apoiar
decisões futuras.
Tal como um professor orienta um aluno durante o processo de aprendizagem, as etiquetas
orientam os modelos de Machine Learning.
Sem elas, a aprendizagem supervisionada simplesmente não acontece.
E é precisamente por isso que considero os dados etiquetados um dos ativos mais valiosos
de qualquer organização que pretenda utilizar Inteligência Artificial de forma séria e eficaz.


Ler mais: O que são dados etiquetados e porque são o combustível do Machine Learning