programmeringsspråket Python kan stödja HTML 5 webbplatser som använder biblioteket " html5lib . " Detta bibliotek kan du skriva Python- skript som parse HTML 5 sidor med en trädstruktur . Trädstrukturer är hierarkiska vyer av webbsidor element . Åtkomst delar av webbsidan sker med hjälp av ett träd rullator . Trädet Walker " promenader " längs anslutningar trädnoder , och kan korsa hela trädet . Du kan använda Python med ' html5lib " att öppna, visa och skriva ut en HTML 5: s webbplats . Saker du behöver
Python 3.2 programmeringsspråk med html5lib modul
Visa fler instruktioner
1
Öppna IDLE textredigerare i Program Files ( eller Program för Macintosh ) i python katalogen . En tom källkod fil öppnar
2
Importera " html5lib " modulen genom att skriva följande uttalanden på toppen av källkoden filen : .
Import html5lib
från html5lib import treebuilders , treewalkers , serializer
import urllib2
3
Skapa en ny HTML 5 -tolk , som du använder för att läsa ett HTML- webbplats . Deklarera en ny parser genom att skriva följande :
parser = html5lib.HTMLParser ( )
4
Öppna en webbplats genom att skicka sitt namn i urllib2.urlopen funktionen . Till exempel , om du vill öppna " www.website_adddress.com , " skriver följande : .
URL = urllib2.urlopen ( " http://www.website_address.com " ) läste ( )
5
Passera hemsidan i HTML 5 -tolken att få ett träd representation . Spara denna representation i en variabel som heter " tree " genom att skriva följande uttalande :
tree = parser.parse ( URL )
6
Skapa ett träd walker så här :
treeWalker = treewalkers.getTreeWalker ( " dom " )
7
Gå igenom trädet med trädet walker . Trädet rullator kommer tillbaka en ström av information som det upptäcker i HTML 5 hemsida . Att gå igenom trädet , skriver följande :
stream = treeWalker ( träd )
8
Serialisera strömmen så att du enkelt kan mata dem till konsolen . Du kan serialisera strömmen med hjälp av följande två påståenden :
seriella = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False ) katalog
utgång = serial.serialize ( stream )
9
iterera genom serialized utgången av strömmen så här :
för element i produktionen :
10
indrag raden omedelbart efter det tidigare uttalandet och skriv en utskriftsfunktion , som detta :
print (element )
11
Kör programmet genom att trycka på F5 . Manuset kommer att öppna och sedan tolka ett HTML 5 webbsida . Skriptet serialiserar sedan trädstrukturen på sidan och matar dem till konsolen . Utgången kommer att variera beroende på vald webbsida , men kan se ut ungefär så här :
< /head >
Välkommen till en webbsida !
< /body>
< /html >