Dator
 |  Startsida |  Hårdvara |  Nätverk |  Programmering |  Programvara |  Felsökning |  System |   
Programmering
  • C /C + + -programmering
  • Computer Programspråk
  • Delphi Programmering
  • Java Programming
  • JavaScript programmering
  • PHP /MySQL Programmering
  • perl Programmering
  • python Programming
  • Ruby programmering
  • Visual Basics Programmering
  • * Dator Kunskap >> Programmering >> python Programming >> Content

    Hur: REGEX att tolka XML

    Analysera XML är en utmaning för den som vill bli text analysator grund XML : s töjbarhet . XML formatering konventioner är hierarkiska i naturen , vilket innebär att vissa taggar dominerar andra taggar . Regular Expressions ( regexes ) identifiera XML text mönster - ett reguljärt uttryck för att matcha XML-taggar kommer att matcha allt inuti XML-taggar < > , men kommer inte visa den hierarkiska organisationen av dessa taggar . Det är möjligt att skilja denna taggstruktur från texten med hjälp av programmeringsspråket Python och Natural Language Toolkit paketet , som inkluderar reguljära uttryck och texthantering och kan visa XML- taggar och deras organisation . Instruktioner
    1

    Öppna ett terminalfönster och skriv in kommandot " python - v " vid prompten för att kontrollera förekomsten och version av Python på din dator . Gå till nltk hemsida och hämta nltk installationspaket lämplig för ditt operativsystem . Kontrollera att nltk är korrekt installerad genom att skriva kommandot " >>> import nltk " på Python -prompten .
    2

    Type " >>> nltk.download ( ) " till öppna ett fönster . Välj raden märkt " all " och klicka på knappen Hämta . Detta kommer att ladda ner ett antal texter för nltk att arbeta med , bland dem Shakespeares " Köpmannen i Venedig " formaterad med speciella XML-taggar för pjäser . Addera 3

    Import av Köpmannen i Venedig taggad i XML med följande kommando vid Python prompten :

    >>> merchant_file = nltk.data.find ( ' korpusar /Shakespeare /merchant.xml ' ) katalog

    Tilldela filen en variabel så att du kan manipulera den med Python -kommandon : .

    >>> raw = open ( merchant_file ) läste ( ) katalog

    Bara för att vara säker på att det är det , ange följande kommando för att visa de första 168 tecknen : .

    >>> print raw [ 0:168 ]

    Du kommer att se XML header taggar och de speciella XML- taggar play

    4

    Ange följande kommando på Python -prompten :

    >>> från nltk.etree.ElementTree import elementtree

    och tryck på " Retur " och sedan skriv följande på Python -prompten : .

    >>> köpman = elementtree ( ) parse ( merchant_file ) katalog

    parse kommandot tillåter användaren att visa XML-taggar och deras innehåll . Att bygga en hierarkisk vy över ordentligt nästlade XML-taggar , skriv in följande kommando vid Python prompten :

    >>> merchant.getchildren ( ) katalog

    Detta kommer att visa all särskild XML spela taggar i deras hierarkiska ordning . Utgången av detta kommando bör se ut så här :

    [ , , , , < , Element ACT vid 22cc0f8 > , , , , ]


    Tidigare:

    nästa:
    relaterade artiklar
    ·IDLE Python Tutorial
    ·Hur Split varje bokstav String i Python
    ·Hur hittar medelvärdet av en lista i Python
    ·Python Structures
    ·Närmaste heltal funktion i Python
    ·Hur får man ett filnamn Inuti en Python Script
    ·Python funktioner med en Ordbok
    ·Hur Slice en lista i Python
    ·Hur till Aktivera en knapp med wxPython
    ·Hur man upptäcker substantiv i Python
    Utvalda artiklarna
    ·Hur man skapar ett API med en församling kod
    ·Hur berätta vilken sida som hänger i Apache
    ·Hur Automatisera ett mail via Telnet
    ·Hur vill kolla löpnummer i PHP
    ·Hur man skapar ett installationsprogram med VB6 Studio
    ·Hur man kombinerar en Lista med ett träd View
    ·PHP för att skicka e-post om MySQL fel
    ·Hur att hitta ett annat talsystem Port Använda Java
    ·Hur man skapar en tagg i PHP
    ·Hur man använder funktionen Shell i VBA
    Copyright © Dator Kunskap http://www.dator.xyz