Εκμάθηση του Chrome Web Scraper από τον Semalt Expert

Εάν χρησιμοποιείτε το Google Chrome, υπάρχει μια επέκταση για το πρόγραμμα περιήγησής σας, η οποία μπορεί να σας βοηθήσει να ξύσετε ιστοσελίδες. Είναι γνωστό ως "Scrapper" και μπορεί να χρησιμοποιηθεί χωρίς προβλήματα. Το Scrapper θα βοηθήσει στην απόσπαση ενός περιεχομένου ιστότοπου και στη μεταφόρτωση των αποτελεσμάτων στα έγγραφα της Google.

Πώς να απορρίψετε έναν ιστότοπο χρησιμοποιώντας επέκταση Scraper;

1. Επιλέξτε Chrome Web Store στο Google Chrome.

2. Στις επεκτάσεις, πραγματοποιήστε αναζήτηση για "Scrapper".

3. Το πρώτο αποτέλεσμα αναζήτησης είναι η επέκταση που είναι γνωστή ως "Scrapper".

4. Επιλέξτε το κουμπί που αναφέρεται ως "Προσθήκη στο Chrome".

5. Επιστρέψτε στη λίστα βουλευτών του Ηνωμένου Βασιλείου.

6. Κάντε κλικ στον παρακάτω σύνδεσμο .

7. Τώρα αναζητήστε ένα MP και βεβαιωθείτε ότι η καταχώρηση έχει επισημανθεί

8. Κάντε δεξί κλικ για να επιλέξετε την επιλογή "Ξύστε παρόμοιο ...".

9. Η κονσόλα για το scrapper θα εμφανιστεί σε άλλο παράθυρο.

10. Προβάλετε το αποκομμένο περιεχόμενο στην κονσόλα ξύστρας.

11. Για να διασφαλίσετε ότι το περιεχόμενο αποθηκεύεται ως υπολογιστικό φύλλο Google, επιλέξτε "Αποθήκευση στα Έγγραφα Google ..."

Εκτεταμένη απόξεση

Πριν τηρήσετε αυτήν τη συνταγή, είναι χρήσιμο να κατανοήσετε τα βασικά του HTML. Για παράδειγμα, μπορείτε να διαβάσετε μια σύντομη εισαγωγή στο HTML μέσω αυτού του συνδέσμου

Ας υποθέσουμε ότι ενδιαφερόμαστε για όλες τις ταινίες που πρωταγωνίστηκαν η Ασία Αργεντό, μια διάσημη Ιταλίδα ηθοποιός.

1. Υπάρχει ένα πολύ λεπτομερές αρχείο ηθοποιών στο IMDB. Ο ιστότοπος Asia Argento είναι: http://www.imdb.com/name/nm0000782/;

2. Εδώ, μπορείτε να δείτε όλους τους ρόλους που έπαιξε η ηθοποιός. Ας αρχίσουμε να διαγράφουμε τις πληροφορίες που μας ενδιαφέρουν.

3. Προσπαθήστε να το ξύσετε με τον τρόπο που περιγράφηκε παραπάνω.

4. Θα δείτε ότι η λίστα είναι λίγο παραμορφωμένη. Αυτό οφείλεται στο γεγονός ότι η λίστα εδώ μπορεί να δομηθεί διαφορετικά.

5. Προχωρήστε στην κονσόλα ξύστρας. Επάνω αριστερά, θα δείτε το μικρό κουτί που λέει XPath.

6. Το Xpath είναι ένα είδος γλώσσας ερωτήματος που λειτουργεί για XML και HTML.

7. Το XPath μπορεί να βοηθήσει στον εντοπισμό των τμημάτων της σελίδας που σας ενδιαφέρει. Το επόμενο πράγμα είναι να βρείτε ένα κατάλληλο στοιχείο και να γράψετε το XPath για αυτό.

8. Τώρα ας τακτοποιήσουμε το τραπέζι μας.

9. Θα δείτε ότι το υπάρχον XPath μας, το οποίο έχει όλα τα απαραίτητα δεδομένα είναι "// div [3] / div [3] / div [2] / div";

10. Το XPath ενημερώνει το Σύστημα για να δει το έγγραφο HTML και να επιλέξει το τρίτο στοιχείο, μετά το δεύτερο στοιχείο και μετά όλα αυτά.

11. Όμως, θα θέλαμε να διαχωρίσουμε τα δεδομένα μας.

12. Χρησιμοποιήστε την ενότητα στηλών στην κονσόλα για το scrapper για να το κάνετε αυτό.

13. Ας βρούμε πρώτα τον τίτλο μας ЂњвЂњ Χρησιμοποιήστε το στοιχείο Επιθεώρηση για να δείτε τον τίτλο.

14. Ελέγξτε τον τίτλο μέσα σε μια ετικέτα. Προσθέστε την ετικέτα στο XPath.

15. Η έκφραση φαίνεται να λειτουργεί σωστά, γι 'αυτό κάντε την πρώτη μας στήλη.

16. Στην ενότητα "Στήλες", αντικαταστήστε το όνομα της πρώτης στήλης σε "τίτλο".

17. Προσθέστε το XPath σε αυτό.

18. Στην ενότητα της στήλης, τα XPath είναι σχετικά και αυτό σημαίνει ότι το "./b" θα επιλέξει το στοιχείο <b>

19. Στο XPath για τη στήλη τίτλου, προσθέστε το "./b" και επιλέξτε "scrape".

20. Τώρα ας συνεχίσουμε για ένα χρόνο. Χρόνια μπορούν να βρεθούν μέσα σε ένα διάστημα?

21. Δημιουργήστε μια νέα στήλη επιλέγοντας το μικρό συν δίπλα στη στήλη για τον τίτλο σας.

22. Χρησιμοποιώντας το XPath "./span" δημιουργήστε μια στήλη για το "έτος".

23. Κάντε κλικ στο scrape και δείτε πώς προστέθηκε το έτος.

24. Έγινε!