Os 10 melhores algoritmos em mineração de dados

A mineração de dados alcança conclusões importantes através de grandes quantidades de observações complicadas.

Árvores de decisão

Os algoritmos da árvore de decisão consistem em organizar os dados em eleições concorrentes, formando ramos de influência após uma decisão inicial. O tronco da árvore representa a decisão inicial e começa com uma questão de sim ou não, como tomar café da manhã ou não. Tomando café da manhã e não tomando café da manhã seria os dois ramos divergentes da árvore, e cada escolha subsequente teria seus próprios ramos divergentes que levam a um ponto final.

O algoritmo K-means

O algoritmo K-means baseia-se na análise de grupos. Tente dividir os dados coletados em "clusters" separados, agrupados por características comuns.

Máquinas de vetores de suporte

Os algoritmos das máquinas de vetores de suporte obtêm dados de entrada e prevêem quais das duas categorias possíveis incluem os dados de entrada. Um exemplo seria coletar códigos postais de um grupo de eleitores e tentar prever se um eleitor é um democrata ou um republicano.

O algoritmo a priori

O algoritmo a priori geralmente controla os dados da transação. Por exemplo, em uma loja de roupas, o algoritmo pode controlar quais camisas os clientes costumam comprar juntos.

O algoritmo EM

Esse algoritmo define parâmetros analisando os dados e prevê a possibilidade de uma saída futura ou evento aleatório dentro dos parâmetros de dados. Por exemplo, o algoritmo EM pode tentar prever o momento de uma próxima erupção de um geyser com base nos dados de tempo de erupções passadas.

Algoritmo de PageRank

O algoritmo de PageRank é um algoritmo básico para mecanismos de busca. Classifique e estime a relevância de um determinado dado dentro de um conjunto grande, como um único site dentro de um conjunto maior de todos os sites da Internet.

Algoritmo AdaBoost

O algoritmo AdaBoost funciona dentro de outros algoritmos de aprendizagem que antecipam o comportamento de acordo com os dados observados, de modo que eles são sensíveis a extremos estatísticos. Embora o algoritmo EM possa ser polarizado devido a um geyser que tem duas erupções em menos de um minuto, quando normalmente tem uma erupção cutânea uma vez por dia, o algoritmo AdaBoost modifica a saída do algoritmo EM analisando a relevância do endpoint.

Algoritmo do vizinho k mais próximo

Esse algoritmo reconhece padrões na localização dos dados e os associa a dados com um identificador maior. Por exemplo, se você quiser atribuir uma agência postal a cada local geográfico da residência e tiver um conjunto de dados para cada localização geográfica da residência, o algoritmo do vizinho k mais próximo atribuirá as casas à agência de correios mais próxima com base em sua proximidade.

Naive Baye

O algoritmo Naive Baye prevê a saída de uma identidade com base nos dados de observações conhecidas. Por exemplo, se uma pessoa tiver uma altura de 1, 67 m (6 pés e 6 polegadas) e um tamanho 14 de sapatos, o algoritmo Naive Baye poderia prever com certa probabilidade que a pessoa é um homem.

Algoritmo CART

"CART" é um acrônimo em inglês que significa análise e classificação de árvores de regressão. Como a análise das árvores de decisão, organiza os dados de acordo com as opções concorrentes, como se uma pessoa tivesse sobrevivido a um terremoto. Ao contrário dos algoritmos das árvores de decisão, que só podem classificar uma saída ou uma saída numérica com base na regressão, o algoritmo CART pode usar ambos para prever a probabilidade de um evento.