[Python] XML Parsen

von Rene K. (xdraconix)

10.06.2023 00:25

Lesenswert?

•

Ich habe eine Datei in folgendem XML Format vorliegen:

<ADUReport>
  <MetaProperty id="ADU Version" value="5.30.6.0 2022-01-05"/>
  <MetaProperty id="Diagnostic Module Version" value="5.30.6.0 2022-01-05"/>
  <MetaProperty id="Time Generated" value="Friday June 09, 2023 5:02:03PM"/>
  <Device deviceType="Controller" id="AC:2799134361" mName="Mew Controller">
    <Errors>
      <Message id="1" value="undef Error"/>
      <Message id="2" value="undef Error"/>
    </Errors>
    <MetaStructure id="Identify Controller" size="1024">
      <MetaProperty id="Serial" value="123456"/>
      <MetaProperty id="Port" value="2"/>
    </MetaStructure>
    <MetaStructure id="Assigned Hardware size="1024">
      <MetaProperty id="lun 1" value="0x01">
      <MetaProperty id="lun 2" value="0x02">
    </MetaStructure>
  </Device>
</ADUReport>


Wie kann ich da am dümmsten durch die einzelnen MetaStructures bei 
Device parsen?

Aktuell habe ich:

from xml.dom import minidom
p1 = minidom.parse("ADUReport.xml")
tagname= p1.getElementsByTagName('Device')
for x in tagname:
  if x.attributes['deviceType'].value == "Controller":
    print(x.attributes['id'].value)
    tagchild = x.getElementsByTagName('MetaStructure')
    for y in tagchild:
      if y.attributes['id'].value == "Identify Controller":
        print(y.attributes['value'].value)


Das kann ja so irgendwie nicht richtig sein. Mit firstChild komme ich 
auch nicht weiter, da gibt er mir keine Daten zurück. Kann man das nicht 
irgendwie in ein Array parsen damit ich leichteren Zugriff darauf habe?

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Uwe B. (boerge)

10.06.2023 02:20

Lesenswert?

•

▲
▼

Rene K. schrieb:
> Mit firstChild komme ich
> auch nicht weiter, da gibt er mir keine Daten zurück.

...wer ist firstChild bzw./oder "er"?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Rolf M. (rmagnus)

10.06.2023 07:59

Lesenswert?

•

▲
▼

Rene K. schrieb:
> for y in tagchild:
>       if y.attributes['id'].value == "Identify Controller":
>         print(y.attributes['value'].value)
>
> Das kann ja so irgendwie nicht richtig sein.

Ist es nicht. y hat kein Attribut 'value'. Ich würde vorschlagen, etwas 
aussagekräftigere Namen als x und y zu verwenden.

Rene K. schrieb:
> Kann man das nicht irgendwie in ein Array parsen damit ich leichteren
> Zugriff darauf habe?

Du meinst so wie du es in den Ebenen darüber schon machst? Warum sollte 
das nicht gehen?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Rene K. (xdraconix)

10.06.2023 10:54

Lesenswert?

•

▲
▼

Rolf M. schrieb:
> Ist es nicht. y hat kein Attribut 'value'. Ich würde vorschlagen, etwas
> aussagekräftigere Namen als x und y zu verwenden.

Ja das war nur ein Test, wegen der Variablen. Und, das war nur ein 
Ausschnitt aus der XML Datei, das original ist ca. 2MB groß.

Rolf M. schrieb:
> Du meinst so wie du es in den Ebenen darüber schon machst? Warum sollte
> das nicht gehen?

Da es sich um viele weitere Ebenen nach unten verschachtelt. 
Stellenweise bis zu 7 Ebenen. Da wird der Code, die Schleifen und die 
Abfragen schon extrem unübersichtlich.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Rolf M. (rmagnus)

10.06.2023 12:23

Lesenswert?

•

▲
▼

Rene K. schrieb:
> Da es sich um viele weitere Ebenen nach unten verschachtelt.
> Stellenweise bis zu 7 Ebenen. Da wird der Code, die Schleifen und die
> Abfragen schon extrem unübersichtlich.

So ist das bei XML öfter mal. Du musst ja nicht alles in einer einzigen 
Funktion bearbeiten, sondern kannst das auf mehrere Funktionen 
verteilen. So bleibt jede für sich gesehen übersichtlich.
So hast du dann beispielsweise eine Funktion extractMetaProperties, der 
du dein Element übergibst, und die dann über alle MetaProperty-Elemente 
darin iteriert und dir die daraus extrahierten Daten als Python-Objekt 
oder Liste zurückgibt.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Rene K. (xdraconix)

11.06.2023 00:48

Lesenswert?

•

▲
▼

Super, ja das mit den einzelnen Funktionen ist natürlich so ne Sache wie 
mit den Bäumen und den Wald. :-D

Ich habe es nun wie folgt, und kann sie so auch relativ leicht parsen, 
ich kann mir ja dann auch die üblichen Verdächtigen in eine Separate 
Funktion übergeben. z.b. string GetDirectVal(Device, MetaStructure, 
MetaProperty). Das mache ich aber heute nimmer :-D

from xml.dom import minidom
XMLOut = minidom.parse("ADUReport.xml")
#    -> MetaStructure
#           -> MetaProperty
#                  -> MetaPropertyStructure
#                         -> MetaStructure (without ID)
#                                -> MetaProperty (multi)
# ----------------- Sub Functions
def GetDevice(Parent, deviceName):
  device = []
  SubDevice = Parent.getElementsByTagName('Device')
  for x in SubDevice:
    if x.hasAttribute('deviceType'):
      if x.attributes['deviceType'].value == deviceName:
        device.append(x)
  return device
def GetMetaStructure(Parent, MSName):
  MetaStructure = []
  SubMetaStructure = Parent.getElementsByTagName('MetaStructure')
  for x in SubMetaStructure:
    if x.hasAttribute('id'):
      if x.attributes['id'].value == MSName:
        MetaStructure.append(x)
  return MetaStructure
def GetMetaProperty(Parent, MPName):
  MetaProperty = []
  SubMetaProperty = Parent.getElementsByTagName('MetaProperty')
  for x in SubMetaProperty:
    if x.hasAttribute('id'):
      if x.attributes['id'].value == MPName:
        MetaProperty.append(x)
  return MetaProperty
def GetValue(arr, value):
  return arr.attributes[value].value
# |----------------- Sub Functions
for Device in GetDevice(XMLOut, "PhysicalDrive"):
  TextToPrint = GetValue(Device,"marketingName") + " - ID: " + GetValue(Device,"id")
  for MetaStructure in GetMetaStructure(Device, "Physical Drive Status"):
    for MetaProperty in GetMetaProperty(MetaStructure, "Drive Serial Number"):
      TextToPrint = TextToPrint + " - SN: " + GetValue(MetaProperty,"value")
      print(TextToPrint)


Bekomme ich dann folgende Ausgabe:

root@node-1:~/hddoverview# python3 test.py
Physical Drive (4 TB SAS HDD) 2I:1 - ID: AC:2799134361,PD:0 - SN: Z1ZA22C5
Physical Drive (4 TB SAS HDD) 2I:2 - ID: AC:2799134361,PD:1 - SN: Z1ZA23TW
Physical Drive (1.2 TB SAS HDD) 1I:1 - ID: AC:1715036241,PD:0 - SN: 001415DGSPLF        KZHGSPLF
Physical Drive (1.2 TB SAS HDD) 1I:2 - ID: AC:1715036241,PD:1 - SN: 001351DUTS6E        KZGUTS6E
Physical Drive (1.2 TB SAS HDD) 1I:4 - ID: AC:1715036241,PD:3 - SN: 001415DGTK7F        KZHGTK7F
Physical Drive (1.2 TB SAS HDD) 2I:5 - ID: AC:1715036241,PD:4 - SN: 001351DUVYKE        KZGUVYKE
Physical Drive (1.2 TB SAS HDD) 2I:7 - ID: AC:1715036241,PD:6 - SN: 001415DEX3PF        KZHEX3PF


Ich danke euch schonmal vielmals für die hilfreichen Denkanstöße, das 
hilft mir schon erheblichst weiter. :-D

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Ein T. (ein_typ)

11.06.2023 09:33

Lesenswert?

•

▲
▼

Rene K. schrieb:
> Super, ja das mit den einzelnen Funktionen ist natürlich so ne Sache wie
> mit den Bäumen und den Wald. :-D

Das Modul bs4 [1,2] wird zwar meistens zum Parsen und 
Auseinanderpflücken von HTML benutzt, kommt aber auch mit XML prima klar 
und hat den Vorteil, daß es dort sehr leistungsfähige Suchfunktionen für 
die Inhalte gibt.

[1] https://pypi.org/project/beautifulsoup4/
[2] https://www.crummy.com/software/BeautifulSoup/

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Oliver (imonbln)

12.06.2023 09:58

Lesenswert?

•

▲
▼

Traditionell wird auch gerne das etree Element in Python verwendet, 
unter der Annahme, dass dein XML den Name "bla.xml" hat, sollte 
folgender Code dir ein Hinweis geben, wie man xml parsen könnte.

import xml.etree.ElementTree as ET
def show_child(xnode):
    for item in xnode:
        print(item.tag, item.attrib)
        show_child(item)
def show_by_xpath(xnode, path):
    for item in xnode.findall(path):
        print(item.tag, item.attrib)
def main():
    tree = ET.parse('bla.xml')
    root = tree.getroot()
    show_child(root)
    input("by xpath all errors (press Return)")
    show_by_xpath(root, "./Device/Errors/Message")
if __name__ == "__main__":
    main()

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Ein T. (ein_typ)

12.06.2023 10:21

Lesenswert?

•

▲
▼

Oliver schrieb:
> Traditionell wird auch gerne das etree Element in Python verwendet,
> unter der Annahme, dass dein XML den Name "bla.xml" hat,

Schick... aber mein Vorschlag wäre:

from argparse import ArgumentParser
import xml.etree.ElementTree as ET
def main():
    parser = ArgumentParser(description='...')
    parser.add_argument('filename', help='file to parse')
    args = parser.parse_args()
    tree = ET.parse(args.filename)
    # ...
if __name__ == "__main__":
    main()

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Oliver (imonbln)

12.06.2023 17:32

Lesenswert?

•

▲
▼

Ein T. schrieb:
> Schick... aber mein Vorschlag wäre:

Auch fein, aber das Beispiel ist auf das Wesentliche reduziert. Es fehlt 
auch noch ein wenig Fehlerbehandlung, wenn die Datei nicht da ist oder 
nicht erwarteten Inhalt hat.

Ein T. schrieb:
> from argparse import ArgumentParser
> import xml.etree.ElementTree as ET

Wenn man pedantisch ist, könnte man hier anmerken, dass es gelebte 
Praxis ist, erst Import und dann from zu verwenden, aber das ist nicht 
durch Pep8 abgedeckt, sondern mehr sowas wie ein Gentlemans-Agreement 
unter Entwicklern und daher keine wirkliche Kritik.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Ein T. (ein_typ)

14.06.2023 12:29

Lesenswert?

•

▲
▼

Oliver schrieb:
> Auch fein, aber das Beispiel ist auf das Wesentliche reduziert. Es fehlt
> auch noch ein wenig Fehlerbehandlung, wenn die Datei nicht da ist oder
> nicht erwarteten Inhalt hat.

Dann gibt es eine Exception, und das Programm steigt mit Fehlermeldung 
und Traceback aus...

> Wenn man pedantisch ist, könnte man hier anmerken, dass es gelebte
> Praxis ist, erst Import und dann from zu verwenden, aber das ist nicht
> durch Pep8 abgedeckt, sondern mehr sowas wie ein Gentlemans-Agreement
> unter Entwicklern und daher keine wirkliche Kritik.

Ja, manche Entwickler halten das so, und ich auch -- allerdings mit 
einer anderen Regel: bei mir wird zuerst aus den Standardmodulen 
inkludiert, die Python mitliefert, danach wird aus externen Modulen 
inkludiert, die etwa mit pip oder Poetry installiert wurden, zuletzt 
kommen dann Includes aus meinen eigenen, selbstimplementierten Modulen. 
Die Include-Blöcke werden dabei mit Leerzeilen getrennt, so daß man 
sofort und auf den ersten Blick sieht, woher welcher Import stammt. 
Innerhalb der Blöcke befolge ich dann die genannte Regel, plus 
natürlich: niemals "from bla import *".

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Christian M. (likeme)

14.06.2023 12:32

Lesenswert?

•

▲
▼

Was ist Parsen? Frage für mich, der jetzt keine Ahnung hat...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Xanthippos (xanthippos)

14.06.2023 12:39

Lesenswert?

•

▲
▼

> Wie kann ich da am dümmsten durch die einzelnen MetaStructures bei
> Device parsen?

Bei XML musst du nicht unbedingt DOM nehmen. Gibt auch Libraries wie 
xmltodict, die normale Python Objekte liefern. Aber schon alleine dass 
es dutzende davon gibt, zeigt - die sind auch nicht wesentlich besser 
als DOM.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Heinz B. (Firma: Privat) (hbrill)

14.06.2023 12:55

Lesenswert?

•

▲
▼

Christian M. schrieb:
> Was ist Parsen? Frage für mich, der jetzt keine Ahnung hat...

Parsen = auseinander dröseln und auf Korrektheit prüfen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: [Python] XML Parsen

von Xanthippos (xanthippos)

14.06.2023 12:55

Lesenswert?

•

▲
▼

> Was ist Parsen?

Mathematiker haben da eine klare Definition.

Scannen ist, wenn du ein Wort oder ein Zeichen nach dem anderen 
abarbeiten kannst.

Parsen ist, wenn du Rekursion brauchst. Wenn du z.B. zuerst alle 
<MetaProperty> Elemente parsen musst, bevor du das 
<ADUReport>...</ADUReport> abarbeiten kannst

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: PC-Programmierung [Python] XML Parsen