Forum: PC-Programmierung html in text umwandeln python


von jens (Gast)


Lesenswert?

Hallo,
ich versuche gerade mit python eine html seite zu lesen (ohne 
zusätzliche Installation).
1
url = "https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Fallzahlen.html"
2
html = urllib.request.urlopen(url)
3
text = html.readlines()
damit habe ihc den text, aber als html objekt.
Ich kann jetzt mir zwar zeile für zeile durchgehen, aber keinen string 
durchsuchen.
 a bytes-like object is required, not 'str'
wie kann ich die Zeile in einem Text umwwandeln?

Ziel ist es zeile für zeile durchgehen, überprüfen ob ein string 
enthalten ist und dann einen part auslesen.

von Walter T. (nicolas)


Lesenswert?

Mit html.read() bekommst Du ein Objekt, bei dem in obj.text der 
komplette Text steht.

Mehr Spaß macht das allerdings mit BeautifulSoup, weil man dann direkt 
innerhalb der HTML-Struktur suchen kann, z.B. auch nach DIVs mit 
bestimmten Attributen.

von Eric (Gast)


Lesenswert?

Sowas in der Art?
1
from bs4 import BeautifulSoup
2
from bs4.element import Comment
3
import urllib.request
4
5
6
def tag_visible(element):
7
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
8
        return False
9
    if isinstance(element, Comment):
10
        return False
11
    return True
12
13
14
def text_from_html(body):
15
    soup = BeautifulSoup(body, 'html.parser')
16
    texts = soup.findAll(text=True)
17
    visible_texts = filter(tag_visible, texts)  
18
    return u" ".join(t.strip() for t in visible_texts)
19
20
html = urllib.request.urlopen('http://www.mikrocontroller.net').read()
21
print(text_from_html(html))

von 100Ω W. (tr0ll) Benutzerseite


Lesenswert?


Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.