Forum: PC-Programmierung Python sraping

von Seb (Gast)

01.08.2017 22:04

Lesenswert?

•

Hi,

ich versuche mich gerade etwas ans sraping heranzutasten.

Ich habe in einer URL folgenden Teil

< script>
//<! [CDATA[
var _app = _app || {};
_app.plugin_version = '1.4.0.0';
_app.store_locale = 'de_DE';
_app.store_url = 'http';
_app.product_id = '19613';
_app.product_store_view_id = '1';
</ script>


Dazu habe ich folgendes

                URL = BeautifulSoup (urlopen(link.rstrip()), "html.parser")
                result_product_id = URL.find_all("script")          
                #result_product_id = URL.find_all("script", {"_app": "product_id"})          
                print (result_product_id)


Ich möchte hier product_id ausgelesen bekommen. Also  19613

Wie würde das korrekt aussehen?

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python sraping

von Sheeva P. (sheevaplug)

01.08.2017 22:52

Lesenswert?

•

▲
▼

Seb schrieb:
> ich versuche mich gerade etwas ans sraping heranzutasten.

S c raping. ;-)

> Ich habe in einer URL folgenden Teil
>

> < script>
> _app.product_store_view_id = '1';
> </ script>

>
> Dazu habe ich folgendes
>

>                 URL = BeautifulSoup (urlopen(link.rstrip()),

>
> Ich möchte hier product_id ausgelesen bekommen. Also  19613

Das kannst Du mit BeautifulSoup knicken, fürchte ich. BS parst HTML und 
XML, aber kein JavaScript. Andererseits hast Du hier natürlich den 
Vorteil, daß das JavaScript einfach aufgebaut ist und Du mit Regular 
Expressions arbeiten kannst -- also den Inhalt des Script-Tags mit BS 
ausschneiden und dann eine RegEx darauf ansetzen. HTH, YMMV.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python sraping

von Kaj (Gast)

01.08.2017 23:17

Lesenswert?

•

▲
▼

Web Scraping with Python
https://www.amazon.de/Web-Scraping-Python-Comprehensive-Collection/dp/1491910291

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python sraping

von Soeren K. (srkeingast)

01.08.2017 23:39

Lesenswert?

•

▲
▼

Als Anfänger hab ich das sinngemäß so gemacht:

str = "_app.product_id = '19613';"
temp = str.split("_app.product_id = '");
print temp[1].split("'")[0];


Heute würde ich einfach einen regulären Ausdruck verwenden und als 
Kommentar anmerken dass es so nicht schön ist, aber ausreichend ist.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python sraping

von Sheeva P. (sheevaplug)

02.08.2017 01:11

Lesenswert?

•

▲
▼

Soeren K. schrieb:
> Als Anfänger hab ich das sinngemäß so gemacht:
>
>

> str = "_app.product_id = '19613';"
> temp = str.split("_app.product_id = '");
> print temp[1].split("'")[0];

>
> Heute würde ich einfach einen regulären Ausdruck verwenden und als
> Kommentar anmerken dass es so nicht schön ist, aber ausreichend ist.

RegExe sind extrem leistungsfähig und cool, aber leider relativ teuer. 
Daher würde ich es bei größeren Datenmengen vermutlich eher so machen:

str = "_app.product_id = '19613';"
print( str.split("'")[1] )


In diesem Anwendungsfall ist das aber Makulatur. Jede Applikation, die 
Daten aus dem Internet zieht und die dann per BeautifulSoup mit 
html.parser parst, verbringt ihre Zeit ohnehin vornehmlich damit, auf 
das Netzwerk zu warten. Deswegen bringt es in diesem Falle wohl auch 
nicht viel, statt html.parser den schnelleren Parser lxml zu benutzen. 
;-)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Python sraping

von Imonbln (Gast)

04.08.2017 12:37

Lesenswert?

•

▲
▼

ggf hilft dir Dieser Blogeintrag deine javascript Seite zu scrappen.

https://impythonist.wordpress.com/2015/01/06/ultimate-guide-for-scraping-javascript-rendered-web-pages/

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net