Classificação probabilística de textos | Jonatan Lemes

Confira na nesse Papo Reto, Jonatan Lemes falando sobre classificação probabilística de textos utilizando Teorema de Bayes.

“Uma relação ente uma probabilidade condicional e a sua inversa, ou seja, a probabilidade de uma hipótese dada a observação de uma evidencia versus a probabilidade de uma evidencia dada uma hipótese” (The Royal Statistical Society, 1763)

“O algoritmo “Naive Bayes” é um classificador probabilístico muito utilizado em machine learning. Foi criado por um matemático inglês, Thomas Bayes (1701 – 1761) para tentar provar a existência de Deus.

Hoje é também utilizado na área de Aprendizado de Máquina (Machine Learning) para categorizar textos com base na frequência das palavras usadas.

Entre as possibilidades de aplicações está a classificação de um e-mail como SPAM ou Não-SPAM e a identificação de um assunto com base em seu conteúdo.

Ele recebe o nome de “naive” (ingênuo) porque desconsidera a correlação entre as variáveis (features). Ou seja, se determinada fruta é rotulada como “Limão”, caso ela também seja descrita como “Verde” e “Redonda”, o algoritmo não vai levar em consideração a correlação entre esses fatores. Isso porque trata cada um de forma independente.”

Assista ao vídeo 😀