Data kan skadas på en rad olika sätt , från användarnas inmatningsfel till formatering inkonsekvenser . Dubbletter är en av de vanligaste uppgifterna problem i de flesta företags databaser . Det bästa sättet att garantera uppgifternas korrekthet är att förhindra korruption , men det är klokt att ha en plan för att hantera data problem om det uppstår problem . Upprepningar
Dubbletter kan vara en frustrerande sak att se som en data revisor . Ofta kan en front - end dataskärm inte fånga vissa typer av dubbletter , till exempel i en adress tabellen , kan 123 Main Street och 123 Main St verkar vara två olika adresser när de i själva verket är samma adress < . br >
Detta kan lösas genom att använda någon av två metoder : databorttagning eller rättning av data . Radera data skulle innebära att ta bort alla utom en instans av en uppsättning av dubbletter , medan data korrigering skulle uppdatera alla instanser av dubbelarbete till ett enda överenskomna värdet . Programvarupaket finns tillgängliga som använder en algoritm för att identifiera extremvärden baserade på standardavvikelse , kluster eller andra kriterier , då extremvärden utvärderas av ett ämne expert som avgör ödet för det oväntade posten .
Extract , omvandla, belastning
Utdrag , omvandla, belastning , eller ETF , är en vanligt förekommande metod för att flytta och städa uppgifter . Även om ingen manuell rensning sker , finns det automatiska uppgifter i translate fasen . Till exempel, om källtabellen butikerna " M " och " F " och destinationen tabellen lagrar " manligt " och " kvinnligt ", är ett skript körs för att översätta data till de nya värdena .
När uppgifterna renas och valideras , kan den importeras till destinationen tabellen . Det kan också importeras över gamla data att skriva över data . Detta fungerar bra när en hel kolumn av data i en tabell behöver ändras .
Uppdatering Legacy Systems
Uppdatera ett äldre system innebär normalt att flytta data en mellannivå , eller arrangera område , där det genomgår sedan en automatiserad samt manuella uppgifter rensning runda . Detta görs för att undvika att göra några oåterkalleliga misstag till äldre data innan du importerar den till det nya systemet . Det bör noteras att de gamla uppgifterna inte bör uppdateras , enligt uppgift - management.com , i syfte att undvika att behålla två separata datamängder . Det borde vara pensionär i stället och det nya systemet bör vara den enda i bruk framöver .