O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

Qual é a diferença entre aprendizagem supervisionada e não supervisionada?

Marcos Lima

jan 22, 2025

Neste post, explicaremos a diferença entre aprendizagem supervisionada e não supervisionada, dois conceitos centrais no campo de machine learning. Primeiramente, apresentaremos o conceito de machine learning. Em seguida, exploraremos os paradigmas de aprendizagem supervisionada e não supervisionada. Logo depois, discutiremos a principal diferença entre essas duas abordagens. Por fim, listaremos alguns dos algoritmos utilizados em cada paradigma.

O que é machine learning?

Machine learning, ou aprendizado de máquina, é um ramo da inteligência artificial que desenvolve algoritmos capazes de aprender com os dados. Em vez de serem explicitamente programados para realizar uma tarefa específica, esses algoritmos identificam padrões e utilizam esse conhecimento para tomar decisões ou fazer previsões.

Um exemplo é o recurso de texto preditivo, presente em aplicativos de mensagens, pois ele extrai padrões no discurso escrito do usuário em interações anteriores. Desse modo, o algoritmo de machine learning pode melhorar suas previsões e recomendações conforme o usuário continua a escrever.

banner da Psicometria Online Academy.

O que são aprendizagem supervisionada e não supervisionada?

Na área de machine learning, os algoritmos podem ser classificados em diferentes paradigmas. Nas duas próximas seções, descreveremos dois paradigmas. Em seguida, faremos uma diferenciação entre eles.

O que é aprendizagem supervisionada?

Na aprendizagem supervisionada, o algoritmo tem acesso às respostas corretas durante o treinamento. Ou seja, o desfecho que o modelo tenta prever já está presente no banco de dados e está devidamente rotulado.

A vantagem de ter essas respostas disponíveis é que o algoritmo pode comparar suas predições com o valor correto, ajustando-se a cada iteração para melhorar seu desempenho. Esse processo é muito semelhante ao que ocorre em modelos de regressão linear, nos quais o algoritmo aprende a prever uma variável com base em um conjunto de preditores.

Por exemplo, em um modelo de regressão linear múltipla, o algoritmo tenta estimar o valor da variável critério (Y1) com base em um conjunto de variáveis preditoras (ou features; os Xs). Genericamente, podemos representar o modelo de regressão linear múltipla com 100 variáveis preditoras por meio da seguinte equação:

equação da regressão linear múltipla.

Por exemplo, Y1 pode representar satisfação no trabalho, enquanto os Xs representam variáveis como idade, grau de escolaridade, cargo, relação com a chefia, salário etc. Por fim, os bs representam os coeficientes do modelo.

O ponto importante é que, durante o treino de algoritmo de aprendizagem supervisionada, o modelo pode comparar o valor previsto da variável critério (Y1-chapéu) com o valor observado, disponível no conjunto de dados (Y1). Desse modo, o objetivo do algoritmo é selecionar valores ótimos de bs que minimizem a discrepância entre Y1-chapéu e Y1.

A Figura 1 ilustra essa ideia, onde o algoritmo estima os valores de Y1 (Y1-chapéu) e os compara com os valores reais de Y1 para ajustar os coeficientes. É nesse sentido que afirmamos que a aprendizagem é “supervisionada”.

banco de dados para algoritmo de aprendizagem supervisionada.
Figura 1. Exemplo de banco de dados adequado para uma regressão linear múltipla.

O que é aprendizagem não supervisionada?

Na aprendizagem não supervisionada, o algoritmo trabalha com dados sem rótulos ou respostas corretas previamente conhecidas. O objetivo é encontrar padrões ou estruturas dentro dos dados, sem a necessidade de prever uma variável critério específica.

Um exemplo desta abordagem é a clusterização, na qual o o objetivo é agrupar casos semelhantes em clusters. Imagine, por exemplo, que um banco comercial deseja segmentar seus clientes com base em informações como gastos com cartão de crédito e renda. O algoritmo pode agrupar clientes com comportamentos semelhantes, sem que haja uma variável no banco de dados que identifique explicitamente quais são esses grupos.

Na clusterização, o número de grupos não é conhecido. O algoritmo precisa descobrir essa estrutura a partir dos dados, o que torna o processo mais exploratório. Por exemplo, A Figura 2 ilustra essa ideia, onde o algoritmo usa uma série de variáveis X1X100 para buscar padrões e segmentá-los em grupos.

banco de dados para algoritmo de aprendizagem não supervisionada.
Figura 2. Exemplo de banco de dados adequado para clusterização.

Qual é a diferença entre aprendizagem supervisionada e não supervisionada?

Se o nosso objetivo é atribuir um valor numérico a diferentes grupos, estamos diante de um problema de aprendizagem supervisionada ou não supevisionada? A resposta depende intrinsecamente da existência de rótulos no banco de dados identificando previamente o grupo ao qual cada observação pertence.

Se queremos designar um conjunto de pacientes a grupos previamente conhecidos, como diagnósticos de transtorno de personalidade borderline, histriônica ou narcisista, adotamos a aprendizagem supervisionada. Nesse caso, o rótulo do diagnóstico já está no banco de dados, e o algoritmo aprende a associar os pacientes a esses rótulos.

Por outro lado, se o objetivo é identificar padrões comportamentais de estudantes com base no uso do Moodle em uma universidade, a informação sobre os grupos não estará disponível nos dados. Aqui, usamos a aprendizagem não supervisionada, em que o algoritmo agrupa os estudantes de acordo com suas características, formando clusters que podem ser úteis análises subsequentes.

Quais são os principais algoritmos de aprendizagem supervisionada e não supervisionada?

Na aprendizagem supervisionada, alguns dos algoritmos mais comuns incluem:

  • Regressão linear e logística: amplamente utilizadas para predição de variáveis contínuas e categóricas;
  • Máquinas de vetores de suporte (SVM): úteis tanto para classificação quanto para regressão;
  • K-vizinhos mais próximos (KNN): classifica uma observação com base nos k pontos de dados mais próximos, utilizando medidas como a distância euclidiana;
  • Árvores de decisão: modelos que funcionam bem para problemas de classificação e regressão;
  • Redes neurais: ideais para tarefas complexas de predição, como reconhecimento de padrões e processamento de dados não lineares.

Por outro lado, na aprendizagem não supervisionada, destacam-se os seguintes algoritmos:

  • Análise de componentes principais: utilizado para redução de dimensionalidade, sintetizando um conjunto de variáveis em um menor número de componentes;
  • K-means: amplamente utilizado para agrupar dados em clusters;
  • Clustering aglomerativo: começa considerando cada observação como um cluster e vai mesclando sucessivamente até atingir um critério específico;
  • DBSCAN: um algoritmo de clusterização baseado em densidade, útil para identificar grupos de formas complexas (e.g., não lineares);
  • Algoritmos de agrupamento hierárquico: ajudam a criar hierarquias de agrupamento dentro dos dados.

Conclusão

Neste post, você aprendeu sobre dois dos principais paradigmas de machine learning. A formação da Psicometria Online Academy conta com módulos de Inteligência Artificial Aplicada a Pesquisas Científicas, que incluem conteúdos sobre algoritmos de aprendizagem supervisionada e não supervisionada, probabilistic graphical models, redes neurais e técnicas de processamento de linguagem natural.

Se você quer aprender sobre esses conteúdos, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referências

Müller, A. C., & Guido, S. (2016). Introduction to machine learning with Python: A guide for data scientists. O’Reilly.

Como citar este post

Lima, M. (2025, 22 de janeiro). Qual é a diferença entre aprendizagem supervisionada e não supervisionada? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/aprendizagem-supervisionada-e-nao-supervisionada/

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

Compreendendo a aquiescência

Um guia completo sobre a PEDro: Physiotherapy Evidence Database

O que é teste de hipótese?

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

O que é correlação de Spearman?

Postados recentemente

O que é exploratory graph analysis?

Compreendendo a aquiescência

Curva característica do item, curva de informação do item e curva de informação do teste: como interpretar as três curvas da TRI?

Um guia completo sobre a PEDro: Physiotherapy Evidence Database

Deseja se tornar completamente independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias