Data mining är processen att analysera och sammanställa data från olika perspektiv . Den strävar efter att definiera uppgifter mönster och relationer över stora pooler av information med hjälp av algoritmer --- uppsättningar av regler som löser ett problem över en rad konkreta åtgärder ( tror Euklides algoritm i algebra , som finner två siffror ' största gemensamma delare ) . 2006 IEEE International Conference on Data Mining rankas de 10 algoritmer inom området . Beslut Träd
beslutsträd algoritmer syftar till att organisera data på konkurrerande alternativ till grenar av inflytande efter ett första beslut . Den trädstammen representerar det ursprungliga beslutet , och det börjar med ett ja - eller - nej fråga , liksom huruvida eller inte att äta frukost . Äta frukost och inte äta frukost skulle vara de första två divergerande grenarna på trädet , och varje val därefter skulle ha egna divergerande grenar som leder fram till en slutpunkt .
K - Means Algoritm
k - medel algoritmen bygger på klusteranalys . Det syftar till att bryta de insamlade data i separata " kluster " grupperade efter liknande egenskaper .
Support Vector Machines
Support vektor maskin algoritmer tar indata och förutsäga vilken av två möjliga kategorier som inkluderar indata. Ett exempel skulle vara att samla postnummer i en pool av väljarna och försöka förutsäga om en ge väljare är en demokrat eller republikan .
Apriori algoritm
Apriori algoritm spårar typiskt transaktionsdata . Till exempel , i en klädaffär , kan algoritmen spåra vilka tröjor kunder köper normalt tillsammans .
EM algoritm
Denna algoritm definierar parametrar genom att analysera data och förutspår sannolikheten för en framtida utfall eller slumpmässig händelse inom parametrarna för uppgifterna . Till exempel skulle EM algoritmen försöka förutsäga tidpunkten för nästa utbrott av en gejser baserat på tidsdata av tidigare utbrott . Addera PageRank algoritm
PageRank algoritm är en grund algoritm för sökmotorer. Det rankas och beräknar relevansen av en enda bit av data inom en större uppsättning av data, som en enda webbplats inom den större mängden av alla webbplatser på Internet . Addera AdaBoost algoritm
Adaboost algoritmen fungerar inom andra lärande algoritmer som räknar beteende baserat på observerade data för att göra dem mer känsliga för statistiska avvikare . Även EM- algoritmen kan vara missvisande eftersom en gejser som har två utbrott på mindre än en minut då det oftast bryter ut en gång om dagen , skulle det Adaboost algoritmen tweak EM algoritmen utgång genom att analysera relevansen av avvikare .
K - Närmaste granne algoritm
Denna algoritm identifierar mönster i data som plats och associerar dessa data med ett större identifierare . Till exempel , om du ville tilldela ett postkontor till varje hem geografiska läge och hade uppgifter pool i varje hem geografiska läge , skulle k - Närmaste granne algoritmen tilldela bostäder till närmaste postkontor baserat på deras närhet till varandra . Addera Naive Baye
Naive Bayes algoritm förutsäger en identitet utfall baserat på data från kända observationer . Till exempel , om en person är g fot sex inches lång och bär storlek 14 skor , skulle Naive Bayes algoritm förutse med en viss sannolikhet att personen är en man .
CART Algoritm
" CART " står för " Klassificering och Regressiv Tree " analys . Liksom beslutsträd analys , organiserar data baserat på konkurrerande alternativ , till exempel om en person som har överlevt en jordbävning ? Till skillnad algoritmer beslutsträd , vilket bara kan klassificera ett utfall eller ge en regression baserad numeriska resultat , kan CART algoritmen använder både för att förutsäga sannolikheten för en händelse . Addera