skrapning och tolkning är två närbesläktade webbplats datautvinning praxis . Den mer generella , parsning , hänvisar till att uppgifterna bryts ned i sina beståndsdelar . När mitt - lärare i engelska bad dig diagram meningar , var du tolka orden i dessa meningar för sina ordklasser . Skrapning mer specifikt avser analysera webbsidor för vissa typer av uppgifter , i det här fallet , adresser . Programmeringsspråket Python och den " BeautifulSoup " förlängning tillåter användaren att skrapa och tolka webbplatser i några få rader kod . Saker du behöver
Python 2.6 eller högre
BeautifulSoup 3.2
Visa fler instruktioner
1
Installera BeautifulSoup genom att ladda ner den senaste versionen från crummy mjukvara och packa /packa upp filen. Öppna ett terminalfönster och skriv följande kommando : My - iMac : ~ me $ python Downloads/BeautifulSoup-3.2.0/python setup.py install
Detta berättar Pythontolk att köra skriptet BeautifulSoup installationen som kan hittas i BeautfulSoup mapp , som ligger i mappen Hämtade filer
2
Type python vid prompten , slå tillbaka och import BeautifulSoup : . My - iMac : ~ me $ python >>> import BeautifulSoup Addera 3
Kör följande skript för att öppna en webbsida och skriva några Universal Resource Locator ( webb-adresser ) du kan hitta i en sida : >>> import urllib2 >> ; > sidan = urllib2.urlopen ( " http://www.THE webbadressen som du vill skrapa HÄR " ) >>> soppa = BeautifulSoup ( sida ) >>> soup.findAll ( ' a ' ) >>> print soup.strip ( ) >>> printThis skript kommer att öppna en webbsida , tolka html , söka efter taggen där webbadresser är inbäddade , bort taggarna och lämna text .