När analysera data , är det inte bara nödvändigt att ha ett tillräckligt stort belopp , men det är också viktigt att kvaliteten på uppgifterna är av hög standard . Data kan göras " smutsiga " i ett antal olika sätt - misstag under insamling , gjorde fel när man integrerar flera datamängder och oavsiktlig radering är bara några sådana sätt . På grund av detta är det viktigt att data rengöras före användning. Saknade uppgifter
automatiserade metoder används ofta för att hitta saknade uppgifter . Dessa kan vara SQL-frågor i en databas , eller statistiska analyser . Som analytiker du leta efter mönster i spridningen av uppgifter som saknas . Du gör sedan beslut om vad man ska göra , som kan utesluta vissa variabler helt och hållet, eller byta sina värden med medelvärden . Ibland saknade data kan indikera fel när man integrerar flera datamängder , och i ett värsta fall hela processen kan behöva upprepas för att få alla uppgifter .
Extremvärden
en avvikare är en data värde som är långt utanför det allmänna mönstret av uppgifterna . De kan identifieras med grafer , såsom lådagram , eller genom att söka efter värden ett visst antal standardavvikelser från medelvärdet . När identifierats , måste du bestämma om du vill ta bort dem eller inte - vilket innebär att avgöra om de var fel i datainsamlingen , eller sanna värden . Ibland kan du välja att köra vissa förfaranden med och utan extremvärden , för att jämföra resultaten .
Formateringsfel
mer vardagliga fel i en datamängd kan vara felstavningar eller andra liknande fel . Frågor kan användas för att hitta och ersätta uppenbara fel såsom felstavningar av varumärken eller platser , men de kan också användas för att markera datapunkter som kanske behöver rengöras . Till exempel kan du köra en sökning efter efternamn eller telefonnummer över och under en viss längd , för att lokalisera fel som inträffat någonstans längs datainsamling och integrationsprocessen .
Datakodning
p Det är vanligt att data initialt vara i ett format som är olämpligt för analys . Till exempel , kan enkätsvaren måste konverteras till ett numeriskt motsvarighet , till exempel från " Instämmer " till " 7 " eller kategoriska variabler som kön kan behöva konverteras till binära indikatorvariabler . Detta kallas för kodning eller omkodning , och det är bra att skapa nya variabler med de nyligen kodad data snarare än skriva över de gamla , så att misstag kan vara tillbaka kontrolleras .