Page Scraper Beispiel Deskmodder Wiki

Ein neues Tutorial (ab PageScraper 3.xx) findet ihr auf dieser Seite: PageScraper - Eine Webseite auslesen und anzeigen

Dieses Tutorial wurde ursprünglich verfasst von Spewed.

Dieses Tutorial soll Euch zeigen wie man den PageScraper verwendet und wie man einfache Informationen aus einer Webseite auslesen kann! Als Beispiel wurde die Webseite "www.imdb.com" genommen, um zu zeigen wie man Informationen davon auszulesen kann.

Startet in Eurem Editor damit, einen Meter mit PageScraper anzulegen:

Add Plugin
Select Plugin: PageScraper.dll
Select Function to Run: GetWebpage
Klick "Configure" button

1. Fügt die Adresse der Webseite ein, die Ihr auslesen wollt.
2. Wenn Ihr dann auf "Download" klickt, zeigt Euch PageScraper den HTML Quellcode der Seite an.

3. Finde (CTRL + F oder Rechtsklick->Find) das Wort oder den Teil den Du auslesen möchtest. In unserem Beispiel ist das der Filmtitel "Illusionist"

Dann gehe horizontal an die ganz linke Seite des Quellcodes und finde eine passende Startposition. Ab dieser Startposition wird dann der PageScraper anfangen auszulesen und somit werden keine vielleicht unnötigen Infos davor, mit einbezogen. Dies ist zwar bei simplen Informationen oder einfachen Webseiten nicht unbedingt notwendig, aber ein sicherer Weg um ungewollte Informationen auszuschliessen.
4. Anhaken von "Set Starting Position..."
5. Copy/paste die ausgewählte Startposition in das Feld

Haken machen bei "%Match1" und benenne es wie immer Du das möchtest. Beschreibende Namen bezogen auf das was man ausliest, ist hier von Vorteil.
In unserem Beispiel "Title".

Finde dann nochmal das Wort oder den Teil den Du auslesen möchtest, wie unter Punkt 3. beschrieben und definiere in den Feldern 6. und 7. ("Found between") zwischen was genau ausgelesen werden soll. Manchmal ist es sehr leicht wie z.B. hier INFO DIE MAN MÖCHTE, aber wenn es sich um einen Link handelt oder um Informationen die sich andauernd ändern, muss man etwas Extratext mehr auslesen den man hinterher mit der Funktion "Modify" aus dem Ausleseverfahren wieder ausnehmen muss, um die richtigen Infos zu bekommen.

Okay, nun gehen wir die weiteren Punkte durch.
8. Anhaken von "Modify1"
9. Klicke den kleinen Pfeil, um eine "Modify"-Option anzuwählen. Wir benötigen nun die Option "Remain".

Wir wollen alles angezeigt bekommen nach diesem Zeichen ">", richtig?

Im "Output String" darunter gibt es 3 Fensterboxen. Ganz links findet Ihr vorgegebene Werte die Ihr dann in der mittleren Fensterbox verwenden könnt, um z.B. einen Zeilenumbruch erzwingen zu können, u.s.w. Dies hat den Vorteil das man seine Infos ordentlich organisieren kann, falls man eine Menge an Infos (%Matches) auslesen will. In der rechten Fensterbox seht Ihr dann das Endergebnis wie es aussieht mit allen verwendeten "Modify"-Optionen und möglichen Werten der linken Fensterbox, falls Ihr diese verwendet.
10. Wir haben oben %Match1 umbenannt in %Title und somit müssen wir es hier im mittleren Fenster auch so umbenennen, wenn wir wollen das die Informationen korrekt angezeigt werden.

Anhaken von "Return All Occurrences" gibt uns alle Informationen der Seite aus die wir in den Feldern 6. und 7. ("Found between") bestimmt haben.

Scrolle nun die rechte Fensterbox nach unter und sieh nach, ob sich vielleicht unerwünschte Informationen darin befinden.

"10th & Wolf" ist der zehnte und letzte Titel auf dieser Seite den wir angezeigt bekommen wollen und deshalb müssen wir nun dahinter eine "ending position" setzen. Ob es nun feste oder sich ändernde Informationen sind die wir auslesen, man muss sich den Quellcode der Seite schon etwas näher ansehen um eine brauchbare "ending position" zu verwenden, die in der Nähe unserer Informationen ist.

11. Anhaken von "Set Ending Position"
12. Copy/paste die ausgewählte Endeposition in das Feld

Klicke auf den Button "Advanced Options" um das Einstellungen-Fenster zu öffnen. Hier kann man dann den Intervall einstellen, wie oft PageScraper die Seite nach Updates checken soll. Voreinstellung ist 600 sek. = 10 min. Dann noch auf OK und fertig!
Hier sieht man dann die Informationen, die wir uns mit diesem Tutorial geholt haben:

((((( Strictly4me )))))

Page Scraper Beispiel

Korrekturhinweis?

Windows 11 Themen

Windows 10 Themen

Deskmodder.de unterstützen

Unsere Deskmodder.de News-App

Aktuelle Inhalte

Sonstiges

Werkzeuge