Neste post, apresentamos o coeficiente de correlação de Matthews, uma métrica de desempenho para modelos de classificação binária em machine learning. Primeiramente, descreveremos para que serve o coeficiente. Em seguida, mostraremos como calculá-lo e como interpretá-lo. Por fim, responderemos se a correlação de Matthews e o coeficiente phi são ou não equivalentes.
Para que serve o coeficiente de correlação de Matthews?
O coeficiente de correlação de Matthews (Matthews correlation coefficient, MCC) é uma medida de desempenho de modelos de classificação binária em machine learning. Em síntese, ele expressa, com um único número, o desempenho do modelo considerando todas as células da matriz de confusão (veremos mais sobre isso adiante).
Em machine learning, uma das vantagens do MCC é que ele é robusto a situações em que temos classes desbalanceadas. Por exemplo, em problemas de classificação, nem sempre temos bancos de dados em que os casos positivos e negativos estão divididos em 50% cada. Nessas situações, outras métricas de desempenho, como a acurácia, podem ser enganosas.
Em contrapartida, o MCC leva em conta esse desbalanceamento e penaliza previsões enviesadas para uma única classe, de modo a fornecer uma medida mais acurada do desempenho do modelo de classificação.

Como calcular o coeficiente de correlação de Matthews?
Para calcular o coeficiente de correlação de Matthews, utilizamos uma matriz de confusão, ou seja, uma tabela de contingência 2 × 2 que representa o desempenho do modelo de classificação (Figura 1).

Em síntese, a matriz anterior compara os valores observados na variável resposta (aquela que queremos prever) com os valores previstos pelo modelo de classificação. A partir do cruzamento dos valores observados e previstos, temos quatro resultados possíveis:
- Verdadeiros positivos (VP): observações corretamente previstas como positivas.
- Falsos positivos (FP): observações incorretamente previstas como positivas.
- Falsos negativos (FN): observações incorretamente previstas como negativas.
- Verdadeiros negativos (VN): observações corretamente previstas como negativas.
Com base nas informações contidas na matriz de confusão, podemos calcular o coeficiente de correlação de Matthews (MCC) a partir da seguinte fórmula:

Em seguida, entenderemos essa fórmula por meio de um exemplo de machine learning. Suponha que usamos um algoritmo que buscou classificar, com base no conteúdo de mil e-mails, quais deles continham spam (casos positivos) e quais não continham spam (casos negativos). Dados hipotéticos são apresentados na Figura 2.

Substituindo os valores da Figura 2 na fórmula, obtemos o seguinte resultado:

O coeficiente de correlação de Matthews é igual a 0,84. Portanto, o modelo de classificação de e-mails apresenta um bom desempenho global, mesmo considerando erros de ambos os tipos.
Como interpretar o coeficiente de correlação de Matthews?
A Figura 3 apresenta, pela última vez, a matriz de confusão usada para o cálculo do coeficiente de correlação de Matthews. Observe que destacamos as células nas cores verde e vermelha, além de inserirmos o numerador da fórmula logo após a matriz de confusão.

Como nosso objetivo é apenas dar uma intuição do MCC, omitimos o denominador da fórmula, cuja função é apenas restringir os valores do MCC entre –1 e +1.
Note que, no numerador, subtraímos os produtos dos acertos pelo produto dos erros. Desse modo, quanto maiores os acertos em relação aos erros, mais próximo de +1 o modelo de classificação será. Em contrapartida, valores próximos a 0 indicam predições próximas ao acaso, isto é, um modelo ruim. Por fim, valores próximos a –1 indicam que os erros são grandes em relação aos acertos, ou seja, que ele erra sistematicamente.
Em síntese, assim como ocorre com correlações tradicionais (e.g., correlação de Pearson), quanto maior o valor absoluto do coeficiente, mais forte é a relação entre valores previstos e valores observados. Em nosso exemplo, o MCC = 0,84 indica um bom desempenho global.
Coeficiente de correlação de Matthews e coeficiente phi são a mesma coisa?
No Brasil, a depender da região onde você estiver, ouvirá uma mesma fruta ser chamada de nomes distintos: mexerica, tangerina, bergamota ou mimosa. De maneira similar, é comum que diferentes comunidades científicas desenvolvam jargões técnicos que, muitas vezes, adotam termos distintos para o mesmo referente.
Se você já fez um curso introdutório de estatística, é possível que tenha aprendido sobre o teste qui-quadrado de independência e sobre o coeficiente phi, uma medida de tamanho de efeito da associação entre duas variáveis binárias. Então, uma pergunta que pode emergir é se os coeficientes de Matthews e phi são a mesma coisa.
Sim, matematicamente, o coeficiente de Matthews e phi são equivalentes, pois ambos utilizam exatamente a mesma fórmula baseada em tabelas 2 × 2. A única diferença entre eles é o contexto de uso. Em estatística, usamos o coeficiente phi para medir associação entre variáveis binárias (e.g., aprovado/reprovado × matutino/noturno). Por esse motivo, os termos VP, FP, FN e VN não fazem sentido, motivo pelo qual a notação da fórmula é distinta, mas equivalente:

Note que ela é conceitualmente idêntica à fórmula do MCC. Em contraste, em machine learning, usamos a correlação de Matthews para avaliar desempenho preditivo de modelos (i.e., valores observados vs. valores previstos). Portanto, embora o nome do coeficiente mude entre áreas, a lógica matemática e a interpretação permanecem as mesmas.

Referências
Chicco, D., & Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics, 21, Article 6. https://doi.org/10.1186/s12864-019-6413-7
Chicco, D., & Jurman, G. (2023). The Matthews correlation coefficient (MCC) should replace the ROC AUC as the standard metric for assessing binary classification. BioData Mining, 16, Article 4. https://doi.org/10.1186/s13040-023-00322-4
Como citar este post
Lima, M. (2026, 9 de fevereiro). O que é o coeficiente de correlação de Matthews? Blog Psicometria Online. https://blog.psicometriaonline.com.br/o-que-e-o-coeficiente-de-correlacao-de-matthews
