misstag kan göras under datainsamlingen och integration , och analytiker behöver veta hur man kan identifiera och rätta till dessa misstag . Detta kallas data som städning , eller uppgifter skrubbning . Detta är inte en exakt vetenskap , och ibland beslut om vad man ska göra bygger på analytikerns dom , men hon vet att det inte bara är det viktigt att ha en tillräcklig mängd data - det måste vara av en ansedd kvalitet , alltför . Semantik och formatering

En vanlig uppgifter rengöring uppgift innebär att ta bort fel i formateringen . Detta kan vara något så enkelt som felstavningar som gjorts under datainsamlingen eller tas upp till problem med den symbol som används för att separata poster . Tänk dig till exempel följande bit data är inne i en datamängd där en apostrof används till separata poster :

Bird Watchers Club'42 Beacon Street'Boston

Detta skulle läsas som :

Bird WatchersClub42 Beacon StreetBoston

automatiska frågor och program används ofta för att rengöra data av detta fel. Vissa
Integration

datamängder är bra ensam , men blir problematiskt när de integreras i en större databas eller ett datalager . Till exempel kan ålder lagras som födelsedatum :

dd /mm /ååmm /dd /åååå

Eller genom intervall :

20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45

i vissa fall , som födelsedatum formatering , är det ganska enkelt att identifiera semantiska strukturer och standardisera uppgifterna . I fall som de åldersintervall Dock måste antaganden göras . Till exempel , är antalet personer i åldern 25-35 genomsnittet av personer i åldern 20-30 och 30-40
Outlier

Extremvärden är ? datapunkter som ligger långt från resten av uppgifterna . Till exempel en ålder av 600 , eller en test poäng flera gånger högre än genomsnittet . I det förra fallet kan du säkert utgå det var ett stavfel , men i det senare är det inte så självklart . När du inte vet om en avvikare är ett fel eller en legitim datapunkt , är det ditt beslut om att ta bort den eller inte , med hänsyn till syftet med uppgifterna .
Saknade data

Du måste också bestämma vad du ska göra om något saknas. Först bör mönster identifieras med hjälp av frågor och statistiska analyser - fördelning av uppgifter som saknas bestämmer vad du ska göra . Till exempel, om en online-undersökning har två sidor , men endast de frågor på första sidan besvarades , kan denna information användas för att hjälpa till att förfina formulären . Om uppgifter saknas är slumpmässigt fördelade och ligger på samma variabel , är det ibland möjligt att göra bedömningar utifrån vad som redan är känt .

Tidigare: Lägga Evernote till iCal

nästa: Analytiska funktioner SQLite

relaterade artiklar

·	Hur man sätter i en tabell med ett SQL-kommando
·	Hur man skapar en SQL Query i Access 2003
·	Hur man använder FileMaker Pro för att katalogisera M…
·	Lägga till flera frågor till Pivot i Access 2007
·	Hur man gör en tidslinje mall
·	Hur Re - index i Access 2007
·	Hur man bygger en kalender tabell i SQL 2005
·	Så räkna antalet objekt på en fråga i Access 2003
·	Hur att importera från CSV Med SSIS
·	Hur göra en bootbar bild av en Magic ISO

Utvalda artiklarna

·	Felsökning inte kan kopiera Web Bilder med Adobe Acrob…
·	Hur gör jag Ha kul med Microsoft Office Word
·	Hur du ändrar Buffer på VLC
·	Konvertera till vektor i Photoshop
·	Hur du skapar PDF- bilder
·	Hur Extrahera ett objekt från ett foto med Adobe Photo…
·	Hur Betala Skulder i SPCS
·	Hur mörkare markeringen i Microsoft Excel
·	Hur man spelar DTS Audio Med MKV File
·	Hur man gör en film med bilder och musik på datorn