Page Scraper Beispiel

Aus Deskmodder Wiki
Version vom 28. Oktober 2011, 19:58 Uhr von Gumfuzi (Diskussion | Beiträge)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Die druckbare Version wird nicht mehr unterstützt und kann Darstellungsfehler aufweisen. Bitte aktualisiere deine Browser-Lesezeichen und verwende stattdessen die Standard-Druckfunktion des Browsers.


Ein neues Tutorial (ab PageScraper 3.xx) findet ihr auf dieser Seite: PageScraper - Eine Webseite auslesen und anzeigen
Dieses Tutorial wurde ursprünglich verfasst von Spewed.

...in englisch auf samurize.com


Dieses Tutorial soll Euch zeigen wie man den PageScraper verwendet und wie man einfache Informationen aus einer Webseite auslesen kann! Als Beispiel wurde die Webseite "www.imdb.com" genommen, um zu zeigen wie man Informationen davon auszulesen kann.


Startet in Eurem Editor damit, einen Meter mit PageScraper anzulegen:

  • Add Plugin
  • Select Plugin: PageScraper.dll
  • Select Function to Run: GetWebpage
  • Klick "Configure" button
Sghshsh10000000.png


1. Fügt die Adresse der Webseite ein, die Ihr auslesen wollt.
2. Wenn Ihr dann auf "Download" klickt, zeigt Euch PageScraper den HTML Quellcode der Seite an.

Fgjfjhgkjfg20000000.png


3. Finde (CTRL + F oder Rechtsklick->Find) das Wort oder den Teil den Du auslesen möchtest. In unserem Beispiel ist das der Filmtitel "Illusionist"

Cxcksjerz30000000.png


Dann gehe horizontal an die ganz linke Seite des Quellcodes und finde eine passende Startposition. Ab dieser Startposition wird dann der PageScraper anfangen auszulesen und somit werden keine vielleicht unnötigen Infos davor, mit einbezogen. Dies ist zwar bei simplen Informationen oder einfachen Webseiten nicht unbedingt notwendig, aber ein sicherer Weg um ungewollte Informationen auszuschliessen.
4. Anhaken von "Set Starting Position..."
5. Copy/paste die ausgewählte Startposition in das Feld

Sjhdgtezr40000000.png


Haken machen bei "%Match1" und benenne es wie immer Du das möchtest. Beschreibende Namen bezogen auf das was man ausliest, ist hier von Vorteil.
In unserem Beispiel "Title".

Fgjkhjklkgk50000000.png


Finde dann nochmal das Wort oder den Teil den Du auslesen möchtest, wie unter Punkt 3. beschrieben und definiere in den Feldern 6. und 7. ("Found between") zwischen was genau ausgelesen werden soll. Manchmal ist es sehr leicht wie z.B. hier INFO DIE MAN MÖCHTE, aber wenn es sich um einen Link handelt oder um Informationen die sich andauernd ändern, muss man etwas Extratext mehr auslesen den man hinterher mit der Funktion "Modify" aus dem Ausleseverfahren wieder ausnehmen muss, um die richtigen Infos zu bekommen.

Asdfiop60000000.png


Okay, nun gehen wir die weiteren Punkte durch.
8. Anhaken von "Modify1"
9. Klicke den kleinen Pfeil, um eine "Modify"-Option anzuwählen. Wir benötigen nun die Option "Remain".

Afxrewafd70000000.png


Wir wollen alles angezeigt bekommen nach diesem Zeichen ">", richtig?

Kgirzuremnchg80000000.png


Im "Output String" darunter gibt es 3 Fensterboxen. Ganz links findet Ihr vorgegebene Werte die Ihr dann in der mittleren Fensterbox verwenden könnt, um z.B. einen Zeilenumbruch erzwingen zu können, u.s.w. Dies hat den Vorteil das man seine Infos ordentlich organisieren kann, falls man eine Menge an Infos (%Matches) auslesen will. In der rechten Fensterbox seht Ihr dann das Endergebnis wie es aussieht mit allen verwendeten "Modify"-Optionen und möglichen Werten der linken Fensterbox, falls Ihr diese verwendet.
10. Wir haben oben %Match1 umbenannt in %Title und somit müssen wir es hier im mittleren Fenster auch so umbenennen, wenn wir wollen das die Informationen korrekt angezeigt werden.

Gdhdzetbdg90000000.png


Anhaken von "Return All Occurrences" gibt uns alle Informationen der Seite aus die wir in den Feldern 6. und 7. ("Found between") bestimmt haben.

Xvsgsddhdujr10000001.png


Scrolle nun die rechte Fensterbox nach unter und sieh nach, ob sich vielleicht unerwünschte Informationen darin befinden.

Gshszeten11000000.png


"10th & Wolf" ist der zehnte und letzte Titel auf dieser Seite den wir angezeigt bekommen wollen und deshalb müssen wir nun dahinter eine "ending position" setzen. Ob es nun feste oder sich ändernde Informationen sind die wir auslesen, man muss sich den Quellcode der Seite schon etwas näher ansehen um eine brauchbare "ending position" zu verwenden, die in der Nähe unserer Informationen ist.

Sfsrgfeghtuh12000000.png


11. Anhaken von "Set Ending Position"
12. Copy/paste die ausgewählte Endeposition in das Feld

Hdksiemjencg13000000.png


Klicke auf den Button "Advanced Options" um das Einstellungen-Fenster zu öffnen. Hier kann man dann den Intervall einstellen, wie oft PageScraper die Seite nach Updates checken soll. Voreinstellung ist 600 sek. = 10 min. Dann noch auf OK und fertig!
Hier sieht man dann die Informationen, die wir uns mit diesem Tutorial geholt haben:

Sgstwehgsbshsj14000000.png


((((( Strictly4me )))))