processorkraften i datorer låter forskare och företag för att analysera data i mer komplexa sätt än någonsin förr . Data mining är processen att försöka hitta användbar information i stora datamängder . Data mining är ETL process avser de åtgärder genom vilka data är lagrade , kodas och skrivs till en databas för senare analys . Definitioner
Data mining definieras som processen att analysera data och sammanställa det till information som kan läggas till en nyttiga ändamål . Den data mining -processen handlar om att hitta mönster i datamängder som ger kategoriska information om hur datamängden är organiserad . Data mining kan användas för att analysera förhållandet mellan nästan alla mätbara variabler , några verkliga tillämpningar av data mining innefatta analys av marknadsföringsstrategier , produktionsprocesser och mänskliga beteendemässiga tendenser . Termen ETL är en akronym för extrakt , omvandla och ladda. Utdrag , omvandla och ladda hänvisar till de tre processer genom vilka ett databassystem skapas för analys .
Extraction
Det första steget i att skapa ett datalager som kan vara bryts för analys är att extrahera data från den ursprungliga källan . Extraktion varierar beroende på vilken typ av data som bryts . Ibland utvinning innebär att lokalisera och hämta en delmängd av data från en eller flera befintliga databaser . I andra fall kräver extraktion ursprungliga forskning som att söka på webben efter webbplatser som innehåller relevant information .
Transform
När lämplig data ligger under extraheringsprocessen då att uppgifterna måste manipuleras så att det kan lagras i en databas för senare analys . Processen att ändra data från sin ursprungliga form till en reglerats formen kallas transformation. Transformation kan innebära ett antal ändringar i data, inklusive relativt enkla funktioner såsom konvertering bokstäver till gemener och ta bort skiljetecken från teckensträngar . Omvandlingsprocessen kan även innefatta mer komplicerade förfaranden som utför aritmetiska funktioner på källvärden , sortera data och verifiera giltigheten av källdata . Målet med omvandlingen fasen är att ta de oraffinerade utvinning uppgifter och förvandla det till uppgifter som är av värde för mål data mining -projektet .
Load
gång data omvandlas till lämpligt format , måste den lagras i ett datalager . Belastningen fasen hänvisar till den process genom vilken transformerade data loggas till en databas . När informationen är lagrad i databasen , kan den utsättas för kvalitativ och kvantitativ analys för att söka efter mönster av intresse .