Data warehouse och data mining verktyg gör det lätt att utvinna och analysera stora mängder information , men kvaliteten på analysen är bara så bra som kvaliteten på uppgifterna . Det första steget i en forskningsstudie eller data warehousing projektet måste vara en bedömning av kvaliteten på de uppgifter som går in i projektet . Åtgärder för fullständighet , giltighet och enhetlighet alla faktor i denna bedömning . Att ta fram data kvalitetsmått , måste du följa vissa steg . Instruktioner
1
Utveckla ett ramverk för att mäta datakvalitet . Skapa utrymme i varje databas där resultaten av kvalitetskontroller kan lagras . Utveckla rapporter eller instrumentpaneler från dessa data .
2
mätdata fullständighet . Välj viktiga element i varje databas och räkna andelen nollor , tomma fält eller värden representerar otillgängliga eller okända data .
3
procentsatser Mät över tillåtna värden . När ett fält har ett antal fördefinierade kodvärdena , mäta fördelningen av dessa värden mot antalet felaktiga och saknade värden . Analysera dessa distributioner att avgöra om vissa koder visas för ofta . Om så är fallet , kan detta värde måste delas för att ge bättre beskrivning . Till exempel , om svaren är svart, vitt och färg och 98 % av svaren är färg , kan det vara bra att byta färg med röda , blå eller grön .
4
Kontrollera för rimliga värden . Numeriska mätningar debuterar vanligen inom ett tillåtet område . Till exempel kommer en daglig väder temperatur Fahrenheit mätning visas oftast som ett värde från ca -40 till 120 . Varje värde utanför detta intervall är troligtvis inte giltig .
5
Jämför värdena inom samma post för konsekvens . Om temperaturen var 90 Fahrenheit och nederbörden värdet är snö , en av de två värdena är troligen felaktiga.
6
Kontrollera överensstämmelse mellan relaterade poster. Använd liknande konsistenskontroller mellan poster i föräldra-barn- relationer och inom flera underordnade poster . Förälder och relationer barn finns kopplingar mellan databaselement . Till exempel , i ett antal tid - relaterade poster , om en uppsättning timme temperaturmätningar lista temperaturer stadigt ökande från 50 till 70 grader under hela förmiddagen men 10:00 läsning är -20 , är detta värde sannolikt av misstag .
7
Skapa rapporter, instrumentpaneler eller meddelanden baserat på de insamlade uppgifterna . Sammanfatta genom organisatorisk grupp , leverantör eller kund typ med förmåga att borra ner till specifika dataelement . Analysera data för att avgöra var felen uppstår och vad som kan göras för att förbättra datakvaliteten .
8
Förbättra datakvaliteten . Revidera affärsregler , reparation programvara för att avvisa dåliga uppgifter , meddela kunder datafrågor och hitta sätt att belöna kvalitet initiativ . Övervaka dessa mätningar över tid .