Forum: PC-Programmierung html in text umwandeln python


Announcement: there is an English version of this forum on EmbDev.net. Posts you create there will be displayed on Mikrocontroller.net and EmbDev.net.
von jens (Gast)


Lesenswert?

Hallo,
ich versuche gerade mit python eine html seite zu lesen (ohne 
zusätzliche Installation).
1
url = "https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Fallzahlen.html"
2
html = urllib.request.urlopen(url)
3
text = html.readlines()
damit habe ihc den text, aber als html objekt.
Ich kann jetzt mir zwar zeile für zeile durchgehen, aber keinen string 
durchsuchen.
 a bytes-like object is required, not 'str'
wie kann ich die Zeile in einem Text umwwandeln?

Ziel ist es zeile für zeile durchgehen, überprüfen ob ein string 
enthalten ist und dann einen part auslesen.

von Walter T. (nicolas)


Lesenswert?

Mit html.read() bekommst Du ein Objekt, bei dem in obj.text der 
komplette Text steht.

Mehr Spaß macht das allerdings mit BeautifulSoup, weil man dann direkt 
innerhalb der HTML-Struktur suchen kann, z.B. auch nach DIVs mit 
bestimmten Attributen.

von Eric (Gast)


Lesenswert?

Sowas in der Art?
1
from bs4 import BeautifulSoup
2
from bs4.element import Comment
3
import urllib.request
4
5
6
def tag_visible(element):
7
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
8
        return False
9
    if isinstance(element, Comment):
10
        return False
11
    return True
12
13
14
def text_from_html(body):
15
    soup = BeautifulSoup(body, 'html.parser')
16
    texts = soup.findAll(text=True)
17
    visible_texts = filter(tag_visible, texts)  
18
    return u" ".join(t.strip() for t in visible_texts)
19
20
html = urllib.request.urlopen('http://www.mikrocontroller.net').read()
21
print(text_from_html(html))

von 100Ω W. (tr0ll) Benutzerseite


Lesenswert?


Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.