Källindata (SID) är den data som du vill använda som indata för din modell. Detta kan vara vilken typ av data som helst, inklusive:
* Strukturerade data: Denna typ av data lagras i ett strukturerat format, till exempel ett kalkylblad eller en databas.
* Ostrukturerad data: Denna typ av data lagras inte i ett strukturerat format, såsom text eller bilder.
SID kan komma från en mängd olika källor, inklusive:
* Interna data: Dessa data genereras inom din organisation och lagras vanligtvis i en databas eller ERP-system (Enterprise Resource Planning).
* Extern data: Denna data genereras utanför din organisation och kan hittas på webben, i sociala medier eller i statliga databaser.
Kvaliteten på ditt SID är avgörande för framgången för din modell. Dålig data kommer att leda till dåliga resultat. Därför är det viktigt att du tar dig tid att rengöra och förbereda din SID innan du använder den för modellering.
Här är några tips för att förbereda ditt SID:
* Rensa dina data: Detta innebär att alla dubbletter eller felaktiga data tas bort.
* Standardisera dina data: Detta innebär att du konverterar all din data till ett konsekvent format.
* Berika dina data: Detta innebär att lägga till ytterligare data till ditt SID, såsom demografisk information eller väderdata.
När du har förberett ditt SID kan du börja använda det för att bygga din modell.