Analysera XML är en utmaning för den som vill bli text analysator grund XML : s töjbarhet . XML formatering konventioner är hierarkiska i naturen , vilket innebär att vissa taggar dominerar andra taggar . Regular Expressions ( regexes ) identifiera XML text mönster - ett reguljärt uttryck för att matcha XML-taggar kommer att matcha allt inuti XML-taggar < > , men kommer inte visa den hierarkiska organisationen av dessa taggar . Det är möjligt att skilja denna taggstruktur från texten med hjälp av programmeringsspråket Python och Natural Language Toolkit paketet , som inkluderar reguljära uttryck och texthantering och kan visa XML- taggar och deras organisation . Instruktioner
1
Öppna ett terminalfönster och skriv in kommandot " python - v " vid prompten för att kontrollera förekomsten och version av Python på din dator . Gå till nltk hemsida och hämta nltk installationspaket lämplig för ditt operativsystem . Kontrollera att nltk är korrekt installerad genom att skriva kommandot " >>> import nltk " på Python -prompten .
2
Type " >>> nltk.download ( ) " till öppna ett fönster . Välj raden märkt " all " och klicka på knappen Hämta . Detta kommer att ladda ner ett antal texter för nltk att arbeta med , bland dem Shakespeares " Köpmannen i Venedig " formaterad med speciella XML-taggar för pjäser . Addera 3
Import av Köpmannen i Venedig taggad i XML med följande kommando vid Python prompten :
>>> merchant_file = nltk.data.find ( ' korpusar /Shakespeare /merchant.xml ' ) katalog
Tilldela filen en variabel så att du kan manipulera den med Python -kommandon : .
>>> raw = open ( merchant_file ) läste ( ) katalog
Bara för att vara säker på att det är det , ange följande kommando för att visa de första 168 tecknen : .
>>> print raw [ 0:168 ]
Du kommer att se XML header taggar och de speciella XML- taggar play
4
Ange följande kommando på Python -prompten :
>>> från nltk.etree.ElementTree import elementtree
och tryck på " Retur " och sedan skriv följande på Python -prompten : .
>>> köpman = elementtree ( ) parse ( merchant_file ) katalog
parse kommandot tillåter användaren att visa XML-taggar och deras innehåll . Att bygga en hierarkisk vy över ordentligt nästlade XML-taggar , skriv in följande kommando vid Python prompten :
>>> merchant.getchildren ( ) katalog
Detta kommer att visa all särskild XML spela taggar i deras hierarkiska ordning . Utgången av detta kommando bör se ut så här :
[ , , , , < , Element ACT vid 22cc0f8 > , , , , ]