sökmotorer som Google eller Yahoo , dra webbsidor i sina sökresultat genom att använda Web bots ( också ibland kallas spindlar eller sökrobotar ) , vilka är program som söker igenom Internet och webbplatser index i en databas . Web bots kan göras med de flesta programmeringsspråk , inklusive C , Perl , Python och PHP , som alla tillåter programvara ingenjörer att skriva skript som utför processuella uppgifter, såsom Web skanning och indexering . Instruktioner
1
Öppna en vanlig applikation textredigering , t.ex. Anteckningar , som ingår i Microsoft Windows , eller Mac OS X : s Textredigerare , där du kommer att författa en Python program Web bot .
2
Starta Python-skript genom att bland annat följande rader med kod , och ersätta det exempel URL med adressen till webbplatsen du vill scanna och namnet på exempel databasen med databasen som kommer att lagra resultaten :
import urllib2 , re , stringenter_point = ' http://www.exampleurl.com ' DB_NAME = ' example.sql ' Addera 3
Inkludera följande rader med kod definiera sekvens av operationer som webben bot kommer att följa :
def uniq ( seq ) : set = { } map ( set.__setitem__ Seq, []) avkastning set.keys ( ) katalog
4
Skaffa webbadresserna i webbplatsens struktur genom att använda följande kodrader :
def geturls (URL ) : objekt = [ ] begäran = urllib2.Request ( URL ) request.add.header ( ' Användare ' , ' Bot_name ;) ' ) halt = urllib2.urlopen ( begäran ) . läs ( ) objekt = re.findall ( ' href = " http://. ? " " , innehåll ) urls = [ ] retur webbadresser
5
Definiera databas som webben bot kommer att använda och ange vilken information den ska lagra för att slutföra göra webben bot :
db = open ( DB_NAME , ' a ' ) allurls = uniq ( geturls ( enter_point ) )
6
Spara textdokumentet och ladda upp den till en server eller dator med en internetuppkoppling där du kan köra skriptet och börja skanna webbsidor .
Addera ditt