Tipos de Aprendizado - Supervisionado x Não-Supervisionado

Todo modelo em Aprendizado de Máquinas precisa de dados. Dados são como diamantes brutos, ao lapidá-los eles têm muito, muito mais valor.

Os dados normalmente se dividem em 2 classes: etiquetados e não-etiquetados (labeled vs non-labeled).

Para entender melhor o que são dados etiquetados nada melhor que um exemplo: Considere um conjunto de dados (nosso dataset) que consiste em 1000 fotos: 500 fotos de cachorros e 500 fotos de gatos. Um dataset etiquetado seria se, para cada foto, existisse uma legenda especificando se a foto em questão contém um gato ou um cachorro. Por outro lado, o dataset não-etiquetado consiste apenas nas 1000 fotos, sem legenda alguma.

Para cada classe de dados existe uma série de modelos que podem ser usados para lapidá-los e é exatamente desta dicotomia que surgem os 2 tipos de aprendizado mais recorrentes em Aprendizado de Máquinas:

1. Aprendizado Supervisionado

Um modelo é dito SUPERVISIONADO se ele necessita de dados etiquetados para ser treinado, estão inclusos aqui modelos de Regressão e de Classificação.
Um exemplo de Classificação seria um modelo que, ao ser treinado no nosso dataset de cães e gatos etiquetado, fosse capaz de classificar (cão ou gato) uma foto que não foi usada durante o treino.

2. Aprendizado Não-Supervisionado

De forma complementar, um modelo é dito NÃO-SUPERVISIONADO se ele não necessita de dados etiquetados para ser treinado, estão inclusos aqui modelos de Agrupamento (Clustering) e de Associação (Association).
Um exemplo de Agrupamento seria um modelo que, ao ser treinado no dataset de cães e gatos não-etiquetado, fosse, de algum modo, capaz de fazer "grupos de semelhança" (de preferência cães com cães e gatos com gatos). À partir deste agrupamento, surgiriam discernimentos que poderiam ajudar o Cientista de Dados durante seu estudo.

Uma observação importante a ser feita é que, normalmente, modelos Supervisionados são muito mais simples e apresentam resultados concretos de forma muito mais rápida. Assim, qual a necessidade da existência do Aprendizado Não-Supervisionado? Ora, a resposta, após um pouco de reflexão, é bem simples e surge de uma segunda indagação: Quem etiqueta os dados?

De fato, dados etiquetados são raros! (quase como um Santo Graal...) Já, por outro lado, dados não etiquetados se encontra aos montes! Etiquetas milhares de linhas, fotos ou textos não é uma tarefa fácil e, normalmente, exige muito trabalho humano (braçal mesmo). Além disso, como é, em geral, uma tarefa feita por humanos, o processo de etiquetagem está sujeito à falhas! Para contornar estas falhas, veja só: mais trabalho humano de verificação!

É por isso que estes dois tipos de aprendizado são os mais importantes! O Aprendizado Não-Supervisionado em muitos casos serve como um provedor de insights.

Os próximos posts serão, respectivamente, sobre Aprendizado Supervisionado e Aprendizado Não-Supervisionado. Eu irei começar dar exemplos concretos com dados e programação em Python. Serão posts mais completos que tentarei fazer da forma mais clara possível.

Pesquisar este blog

Science de Dados

Tipos de Aprendizado - Supervisionado x Não-Supervisionado

Comentários

Postar um comentário