Python är ett open - source , objektorienterat programmeringsspråk optimerad för att skapa dynamiska webbapplikationer . Vid programmering i Python , kan du behöva separera HTML-formatering från Python-kod . Till exempel kan en användare ange en webbsida i ett datafält , som kräver att du kan ta ut de HTML-taggar för att lagra textdata . För att ta bort HTML-taggar från en sträng , använda den inbyggda i Python Regular Expression -modul , " Regex . " Instruktioner
1
Öppna din Python redaktör .
2
ladda Regular Expression -modulen genom att skriva följande :
import re
3
Definiera en funktion för att ta bort alla HTML-taggar . Till exempel , skriver du följande :
def delete_html ( data) :
4
Separera HTML-koden element med hjälp av " re.compile " -funktion för att sammanställa de mönster för reguljära uttryck till ett objekt som du kan använda för mönstermatchning . Fortsatt exempel , skriver du detta :
htmlPattern = re.compile ( r ' < . ? * > ' ) Katalog
I detta exempel , berättar " re.compile " attribut Python att söka efter strängen " ' < .. > " som betyder början och slutet HTML-taggar .
qualifier " . * ? " berättar Python att matcha bara taggarna . Utan kvalet , returnerar Python strängen "
underrubrik < /h2 > "; med kvalet , Python avkastning " . Och < /h2 > "
5
ersätta en plats för alla HTML-kod med hjälp av " sub " -funktion . Fortsatt exempel , skriver du följande :
retur htmlPattern.sub ( ' ' , uppgifter ) katalog
I detta fall ersätter Python remsor ut HTML-koden och det med ett tomt utrymme . Vid denna punkt , beroende på hur du vill strukturera data , kan du använda strängen " strip " -funktion för att ta bort tomma utrymmen eller använda reguljära uttryck , såsom " \\ s + , " för att ta bort extra blanksteg .
Addera ditt