Postagens

Desenvolvendo um Modelo - Introdução

Imagem
Introdução O processo de criação de um modelo pode ser resumido em 6 passos: Repartição dos dados em 3 conjuntos: treino/teste/validação Escolha do modelo Otimização hiperparâmetros do modelo (usa os dados de treino e validação) Treino do modelo usando a união dos conjuntos treino e validação Avaliação do modelo nos dados de teste Treino do modelo usando a união dos conjuntos treino, validação e teste Veja bem que, para obter o modelo final, nós normalmente usamos todos os dados em disposição ! Quando nosso objetivo é comparar a performance de vários modelos em um mesmo problema, nós fixamos os dados da etapa 1   e fazemos as etapas 2-5 para cada um dos modelos usados na comparação (isso se chama fazer um Benchmark). Vamos explicar um pouco melhor o interesse dessa repartição, aplicando nesse passo-a-passo. Repartição treino/teste/validação Dados de treino Esses são os dados que são de fato utilizados no treino do modelo, falamos que o modelo "vê diretamente" esses dados dura

Tipos de Aprendizado - Supervisionado x Não-Supervisionado

Todo modelo em Aprendizado de Máquinas precisa de dados. Dados são como diamantes brutos, ao lapidá-los eles têm muito, muito mais valor. Os dados normalmente se dividem em 2 classes: etiquetados e não-etiquetados (labeled vs non-labeled).  Para entender melhor o que são dados etiquetados nada melhor que um exemplo: Considere um conjunto de dados (nosso dataset) que consiste em 1000 fotos: 500 fotos de cachorros e 500 fotos de gatos. Um dataset etiquetado seria se, para cada foto, existisse uma legenda especificando se a foto em questão contém um gato ou um cachorro. Por outro lado, o dataset não-etiquetado consiste apenas nas 1000 fotos, sem legenda alguma.  Para cada classe de dados existe uma série de modelos que podem ser usados para lapidá-los e é exatamente desta dicotomia que surgem os 2 tipos de aprendizado mais recorrentes em Aprendizado de Máquinas: 1. Aprendizado Supervisionado Um modelo é dito SUPERVISIONADO se ele necessita de dados etiquetados para ser treinado, estão inc

Introdução à Ciência de Dados

O que é Ciência de Dados A Ciência de Dados é um campo misto que engloba basicamente programação, estatística e conhecimentos específicos da área sendo estudada. De forma geral, um cientista de dados, em posse de diversas ferramentas práticas e teóricas, analisa (ora, ora...) dados para solucionar/estudar problemas.  De uma forma simples, se estamos analisando um problema da área da saúde, um cientista de dados deve possuir não apenas conhecimentos de programação e estatística consolidados, mas também a habilidade de absorver os conhecimentos específicos da área da saúde (oriundos de experts da área), aplicáveis ao problema questão. O cientista de dados, em posse de todas essas habilidades e conhecimentos, é capaz de realizar um estudo quantitativo, interpretar os resultados obtidos e colher conclusões para, assim, solucionar o problema. A Ciência de Dados engloba campos como: Aprendizado de Máquina ( Machine Learning ) e Inteligência Artificial ( Artificial Intelligence ), que ainda s

Quem sou eu e o porquê desse blog

 Este é o primeiro post deste blog e é aqui onde eu vou não apenas me apresentar mas também explicar o propósito deste blog. Meu nome é Luiz José Bezerra Pinheiro , tenho 23 anos, atualmente moro na França e sou um Cientista de Dados em formação . Eu nasci em Fortaleza-CE no dia 01/03/1997.  Antes de explicar o que faço hoje eu gostaria de explicar como cheguei até aqui com um breve resumo da minha trajetória: Desde muito novo sempre me interessei pelas ciências exatas e essa paixão me fez ter sonhos grandes e cada vez maiores, aos 14 anos decidi que queria ser Engenheiro do ITA , Instituto Tecnológico de Aeronáutica e aos 17 fui aprovado para o curso de Engenharia Mecânica. Durante minha estadia no ITA eu vi a possibilidade de buscar um duplo diploma em uma escola francesa, chamada École Polytechnique , e logo me interessei, pois esta é a mais célebre escola francesa de engenharia. Com esse novo objetivo em mente decidi seguir esse plano: Fazer um duplo diploma de 2 anos e meio na Éco