Data rensning - annars känd som data rengöring eller skrubbning - är processen att upptäcka och korrigera fel, inkonsekvenser och brister i data. Stora mängder data samlas in och analyseras av politiker , ekonomer och forskare , men fel i data - vilket kan påverka sin behandling och de slutsatser som dragits av den - är vanligt och kan förväntas . Det finns flera metoder för data rensning , både traditionella och automatiserad . Statistisk metodik
Statistiska metoder kan användas för att granska data som och korrigera även komplexa datafel. En statistiker kan analysera medelvärdet , standardavvikelse och antal datavärden och på så sätt identifiera enskilda databasposter ( tupler ) som är ogiltiga . Dessa register kan tas bort eller ersättas med en genomsnittlig eller annan statistiskt värde . Statistiska metoder för data rensning kan också ange saknade värden , som kan fyllas i med rimliga värden baserade på resten av datamängden .
Uppgifter Cleansing verktyg
Data rensning verktyg har funnits i ett antal år . Automatiserade datarensning verktyg fokuserar typiskt på en särskild databas domän - som definierar de möjliga värden än vad som kan tas upp i varje fält , eller attribut - såsom namn och adressuppgifter . De använder oftast en uppsättning matchande regler från ett bibliotek , eller levereras interaktivt av användaren , för att validera gatunamn , namn på städer och postnummer och omvandla befintliga data till enskilda , vanliga element . De använder rekord matchning för att bestämma om två skivor representerar data på samma ämne och kan kombinera enskilda poster som har , säg, samma adress . Data Cleansing verktyg kan variera i graden av sofistikering med avseende på uppgifter revision , rensning och migration .
ETL verktyg
ETL står för " Extract , Transform , Load " och det finns många kommersiella programvaror verktyg för att underlätta ETL processen för data rensning . De viktigaste egenskaperna hos en effektiv ETL verktyg är dess förmåga att läsa källdata direkt och renar och omvandla data , tillsammans med sitt stöd för metadata . Metadata är dokumentation eller information om en specifik del av data och kan hjälpa en användare att upptäcka fel och inkonsekvenser i data som inte kan , nödvändigtvis , identifieras av ETL verktyget själv . ETL-verktyg ger vanligtvis ett bibliotek av funktioner och scheman för att omvandla data - datatypomvandlingar , aritmetiska funktioner , funktioner sträng , etc - och kan extrahera data från fritt formulerade datakällor , med vissa begränsningar , liksom via standard ODBC ( " Open Database Connectivity " ) och EDA ( " Electronic Design Automation " ) gränssnitt .