misstag kan göras under datainsamlingen och integration , och analytiker behöver veta hur man kan identifiera och rätta till dessa misstag . Detta kallas data som städning , eller uppgifter skrubbning . Detta är inte en exakt vetenskap , och ibland beslut om vad man ska göra bygger på analytikerns dom , men hon vet att det inte bara är det viktigt att ha en tillräcklig mängd data - det måste vara av en ansedd kvalitet , alltför . Semantik och formatering
En vanlig uppgifter rengöring uppgift innebär att ta bort fel i formateringen . Detta kan vara något så enkelt som felstavningar som gjorts under datainsamlingen eller tas upp till problem med den symbol som används för att separata poster . Tänk dig till exempel följande bit data är inne i en datamängd där en apostrof används till separata poster :
Bird Watchers Club'42 Beacon Street'Boston
Detta skulle läsas som :
Bird WatchersClub42 Beacon StreetBoston
automatiska frågor och program används ofta för att rengöra data av detta fel. Vissa
Integration
datamängder är bra ensam , men blir problematiskt när de integreras i en större databas eller ett datalager . Till exempel kan ålder lagras som födelsedatum :
dd /mm /ååmm /dd /åååå
Eller genom intervall :
20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45
i vissa fall , som födelsedatum formatering , är det ganska enkelt att identifiera semantiska strukturer och standardisera uppgifterna . I fall som de åldersintervall Dock måste antaganden göras . Till exempel , är antalet personer i åldern 25-35 genomsnittet av personer i åldern 20-30 och 30-40
Outlier
Extremvärden är ? datapunkter som ligger långt från resten av uppgifterna . Till exempel en ålder av 600 , eller en test poäng flera gånger högre än genomsnittet . I det förra fallet kan du säkert utgå det var ett stavfel , men i det senare är det inte så självklart . När du inte vet om en avvikare är ett fel eller en legitim datapunkt , är det ditt beslut om att ta bort den eller inte , med hänsyn till syftet med uppgifterna .
Saknade data
Du måste också bestämma vad du ska göra om något saknas. Först bör mönster identifieras med hjälp av frågor och statistiska analyser - fördelning av uppgifter som saknas bestämmer vad du ska göra . Till exempel, om en online-undersökning har två sidor , men endast de frågor på första sidan besvarades , kan denna information användas för att hjälpa till att förfina formulären . Om uppgifter saknas är slumpmässigt fördelade och ligger på samma variabel , är det ibland möjligt att göra bedömningar utifrån vad som redan är känt .