Dator
 |  Startsida |  Hårdvara |  Nätverk |  Programmering |  Programvara |  Felsökning |  System |   
Programmering
  • C /C + + -programmering
  • Computer Programspråk
  • Delphi Programmering
  • Java Programming
  • JavaScript programmering
  • PHP /MySQL Programmering
  • perl Programmering
  • python Programming
  • Ruby programmering
  • Visual Basics Programmering
  • * Dator Kunskap >> Programmering >> Computer Programspråk >> Content

    Hur man skapar ett Web Spider

    En web spider är ett datorprogram som hämtar en webbsida , och sedan följer alla länkar på den sidan och nedladdningar dem också . Webb spindlar används för att lagra webbsidor för offline läsning , eller för lagring av webbsidor i databaser som skall användas av en sökmotor . Skapa ett Web Spider är en utmanande uppgift , som lämpar sig för ett college - nivå programmering klassen . Dessa instruktioner förutsätter att du har gedigen erfarenhet av programmering , men ingen kunskap om Spider arkitektur . Stegen lägga ut en mycket specifik arkitektur för att skriva en Web spindel i ditt valda språk . Saker du behöver
    webbläsare som svarar på programmatiska kommandon
    programmeringsspråk med läs - skriv diskåtkomst och funktioner databas
    Visa fler instruktioner
    1

    initiera programmet med den ursprungliga webbsidan som du vill hämta . Lägg till URL till denna sida till en ny databastabell i webbadresser .
    2

    Skicka ett kommando till webbläsaren instruerar den att hämta denna webbsida , och spara den på en diskett . Flytta databasen pekaren framåt ett steg förbi den URL som du precis hämtat , som nu kommer att peka till slutet av tabellen .
    3

    Läs webbsidan i programmet , och tolka den för länkar till ytterligare webbsidor . Detta görs vanligtvis genom att söka efter textsträngen "http://" och fånga texten mellan den strängen och ett avslutande tecken (t.ex. "", " . " , Eller ">" ) . Lägg dessa länkar till URL databas tabell , databas pekaren ska vara på toppen av denna nya lista
    4

    Test posterna i databasen tabellen för unikhet , och ta bort alla webbadresser som verkar mer än en gång . .
    5 p Om du vill tillämpa en URL-filter ( till exempel , för att förhindra att hämta sidor från webbplatser på olika domäner ) , gäller det nu att URL databasen tabellen och ta bort alla webbadresser som du inte vill att hämta .
    6

    Inrätta en programmatisk slinga så din spindel återgår till steg 2 ovan . Detta kommer rekursivt hämta alla webbadresser din spindel möter . Ta bort dubbletter webbadresser säkerställer att spindeln ordentligt upphör när den når den sista unik URL .

    Tidigare:

    nästa:
    relaterade artiklar
    ·Hur man använder SNMP kommandot för att få en OID La…
    ·Hur återställa raderade AVI -filer
    ·Hur du startar ett parti fil från en annan
    ·Hur man skapar ett heltalsfält
    ·Hur konvertera HTML taggar med Plain Text i C #
    ·Hur man kompilerar en QBasic Program
    ·Definition av en låg nivå Undantag
    ·Definition av en Flödesschema
    ·Hur du gör din egen HTML 5 Spel
    ·Än begränsningen för inmatningsrutor i HTML
    Utvalda artiklarna
    ·Hur man utför MSA på provbockar
    ·Hur köra Microsoft Visual Studio Sample Program
    ·Historia av ASCII -koder
    ·Så Reverse Engineer på Visual C
    ·Hur du ändrar en bild i Visual Basic
    ·Hur man skapar spel i Visual Basic
    ·Hur Split Fast storlek med Java
    ·Hur dölja en kolumn Från FlexGrid i Visual Basic 6
    ·Hur att rensa Memcached
    ·Hur man skapar en fil med hjälp Perl
    Copyright © Dator Kunskap http://www.dator.xyz