En web spider är ett datorprogram som hämtar en webbsida , och sedan följer alla länkar på den sidan och nedladdningar dem också . Webb spindlar används för att lagra webbsidor för offline läsning , eller för lagring av webbsidor i databaser som skall användas av en sökmotor . Skapa ett Web Spider är en utmanande uppgift , som lämpar sig för ett college - nivå programmering klassen . Dessa instruktioner förutsätter att du har gedigen erfarenhet av programmering , men ingen kunskap om Spider arkitektur . Stegen lägga ut en mycket specifik arkitektur för att skriva en Web spindel i ditt valda språk . Saker du behöver
webbläsare som svarar på programmatiska kommandon
programmeringsspråk med läs - skriv diskåtkomst och funktioner databas
Visa fler instruktioner
1
initiera programmet med den ursprungliga webbsidan som du vill hämta . Lägg till URL till denna sida till en ny databastabell i webbadresser .
2
Skicka ett kommando till webbläsaren instruerar den att hämta denna webbsida , och spara den på en diskett . Flytta databasen pekaren framåt ett steg förbi den URL som du precis hämtat , som nu kommer att peka till slutet av tabellen .
3
Läs webbsidan i programmet , och tolka den för länkar till ytterligare webbsidor . Detta görs vanligtvis genom att söka efter textsträngen "http://" och fånga texten mellan den strängen och ett avslutande tecken (t.ex. "", " . " , Eller ">" ) . Lägg dessa länkar till URL databas tabell , databas pekaren ska vara på toppen av denna nya lista
4
Test posterna i databasen tabellen för unikhet , och ta bort alla webbadresser som verkar mer än en gång . .
5 p Om du vill tillämpa en URL-filter ( till exempel , för att förhindra att hämta sidor från webbplatser på olika domäner ) , gäller det nu att URL databasen tabellen och ta bort alla webbadresser som du inte vill att hämta .
6
Inrätta en programmatisk slinga så din spindel återgår till steg 2 ovan . Detta kommer rekursivt hämta alla webbadresser din spindel möter . Ta bort dubbletter webbadresser säkerställer att spindeln ordentligt upphör när den når den sista unik URL .