Forum: PC-Programmierung Python Beautifulsoup abschneiden

von Mark (Gast)

27.03.2017 17:59

Lesenswert?

•

Hi,

ich versuche mich gerade an Beautifulsoup.

So ein bischen klappt das. Ein Ergebnis habe ich schon, allerdings 
möchte ich das Ergebnis jetzt "kürzen" und nur einen Teil davon 
verwenden um damit Rechnen zu können.

result1 = soup.find_all("li", {"class":["lvprice", "bold"]})
for result_back_one in result1:
   one = result_back.get_text().strip()
   print (one)


In der Printausgabe bekomme ich nun ein Ergebnis mit Zeilenumbruch.

EUR 10,61
(EUR 1,06/100 g)

Wie kann ich das jetzt so abschneiden, dass ich ausschließlich mit den 
daten arbeite die vor dem Zeilenumbruch sind?

Also ich möchte Quasi, dass ich nur mit

EUR 10,61

weiterarbeiten kann.

Oder eine Klasse zusätzlich komplett sperren kann

 <div class="ppu">(<b>EUR</b> 1,06/100 g)</div>

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Beautifulsoup abschneiden

von Stefan (Gast)

27.03.2017 18:26

Lesenswert?

•

▲
▼

Du solltest die zwei Teile deines Strings mithilfe von .split("\n") 
trennen können.
Oder noch besser, mit .splitlines()
Siehe auch folgendes in der Dokumentation:
https://docs.python.org/3.6/library/stdtypes.html#str.split

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Beautifulsoup abschneiden

von Mark (Gast)

28.03.2017 09:06

Lesenswert?

•

▲
▼

Ja, dass hatte ich so bereits versucht, dann nimmt er mir aber nur den 
Zeilenumbruch raus und die zweite Zeile ibleibt trotzdem erhalten.

result1 = soup.find_all("li", {"class":["lvprice", "bold"]})
for result_back_one in result1:
   one = result_back.get_text().strip().splitlines() #.split('\n') 
   print (one)

Ergebnis:

['EUR 10,61', '(EUR 1,06/kg)']

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Beautifulsoup abschneiden

von Markus (Gast)

28.03.2017 09:23

Lesenswert?

•

▲
▼

print one[0]
print one[1] ?

Ist bei BeautifulSoup immer etwas schwierig nachzuvollziehen, wenn man 
die zugrundeliegende Website nicht selbst zum Herumspielen parat hat.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Beautifulsoup abschneiden

von Mark (Gast)

28.03.2017 10:14

Lesenswert?

•

▲
▼

Die Seite ist kein Großes Geheimnis.

Für eine Marktsudie, suchen wir Durchschnittspreise gewisser Artikel 
heraus.

Da geht es sowohl um Soforkauf als auch Gebotene Angebote als Vergleich.
Also 2 verschieden Abfragen. Die jeweils über einen neuen Link gestartet 
werden.

Hier ein Beispiellink:
http://www.ebay.de/sch/i.html?Menge=5%2520L&_sacat=179496&_nkw=Motor%C3%B6l%2010w40&_dcat=179496

Mich interessieren hier nur die Dick geschriebenen Preise.

Bei Angeboten mit Liter oder kg Angaben bekomme ich immer Fehler mit dem 
Zusammenrechnen, da kg nicht gefloatet werden kann.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Beautifulsoup abschneiden

von Markus (Gast)

28.03.2017 11:10

Lesenswert?

•

▲
▼

Hast Du mal print one[1] ausprobiert?
Denn Dein Ergebnis
['EUR 10,61', '(EUR 1,06/kg)']
ist doch eine Liste oder nicht?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Beautifulsoup abschneiden

von Mark (Gast)

28.03.2017 15:51

Lesenswert?

•

▲
▼

Ja, habe ich. Ich hatte das dummerweise an der falschen Stelle getestet.

Mir stellt sich jetzt allerdings die Frage, warum ich in dieser Variante 
kein replace mehr verwenden kann.



Anbei mal das ganze script

import os
import threading
import codecs
import time
import select
import csv
import traceback
from bs4 import BeautifulSoup 
from urllib.request import urlopen
import re
import requests
soupDE = BeautifulSoup (urlopen("http://www.ebay.de/sch/i.html?Menge=5%2520L&_sacat=179496&_nkw=Motor%C3%B6l%2010w40&_dcat=179496"), "html.parser")
result1_de = soupDE.find_all("li", {"class":["lvprice"]})
for result_back_one_de in result1_de:
    try:
       one_de = result_back_one_de.get_text().strip().splitlines() 
       #one_new_de = [one_de.replace('EUR','')]
       print (one_de[0])
    except Exception:
        print (sys.exc_info())
        pass
#if list_price_de:
 #   avg_list_price_de = sum * 1.0 / len(list_price_de)
  #  print (avg_list_price_de)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Beautifulsoup abschneiden

von Markus (Gast)

28.03.2017 16:12

Lesenswert?

•

▲
▼

weil onede eine Liste ist, da könntest Du die Ersetzung zwar auf andere 
Weise durchführen, aber Du bist doch nur an einem Listenelement 
interessiert, dann sprich nur das an:

result1_de = soupDE.find_all("li", {"class":["lvprice"]})
for result_back_one_de in result1_de:
       one_de = result_back_one_de.get_text().strip().splitlines() 
       one_de_new = [one_de[0].replace('EUR','')]
       print (one_de_new)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Beautifulsoup abschneiden

von Tom (Gast)

28.03.2017 16:15

Lesenswert?

•

▲
▼

Das habe ich den Ebay-mit-beautiful-soup-Abschnorchlern schon öfter 
geantwortet²: Ein paar Basics lernen ist sogar bei Python nötig:

str.splitlines(): Return a list of the lines in the string....
                           ^^^^

Hausaufgabe:
1) Eine list von strings selbst erzeugen.
2) Hat eine list eine Methode replace()?
3) Auf das erste oder zweite Element der list zugreifen.
4) In diesem Element irgendwas replacen.

Dieses Gestochere führt nicht weiter.





² oder ist das immer noch der gleiche?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python Beautifulsoup abschneiden

von Markus (Gast)

28.03.2017 16:16

Lesenswert?

•

▲
▼

Übrigens kann es einfacher sein auf die von Ebay bereitgestellten Api's 
zurückzugreifen als die Website zu scrapen. Speziell mit der Api von 
ebay habe ich allerdings keine Erfahrung.

https://developer.ebay.com/
www.linux-magazin.de/Ausgaben/2012/12/E-Commerce-APIs
https://github.com/eBayDeveloper/eBay_APICall_CodeSamples

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net