Πώς να χρησιμοποιήσετε το εργαλείο "Ngram Viewer" στο Google Books

Ένα Ngram, επίσης κοινώς αποκαλούμενο N-gram, είναι μια στατιστική ανάλυση του περιεχομένου κειμένου ή ομιλίας για να βρει n (ένα αριθμό) κάποιου είδους αντικειμένου στο κείμενο. Θα μπορούσε να είναι όλα τα είδη των πραγμάτων, όπως φωνήματα, προθέματα, φράσεις ή γράμματα. Αν και το N-gram είναι κάπως ασαφές έξω από τον ερευνητή, χρησιμοποιείται πραγματικά σε διάφορους τομείς και έχει πολλές συνέπειες για τους ανθρώπους που κάνουν προγράμματα ηλεκτρονικών υπολογιστών που καταλαβαίνουν και ανταποκρίνονται με τη φυσική ομιλούμενη γλώσσα. Αυτό, με λίγα λόγια, θα ήταν το ενδιαφέρον της Google για την ιδέα.

Στην περίπτωση του Google Books Ngram Viewer, το κείμενο που θα αναλυθεί προέρχεται από το τεράστιο όγκο βιβλίων που έχει σαρώσει η Google από δημόσιες βιβλιοθήκες για να συμπληρώσει τη μηχανή αναζήτησης των Βιβλίων Google . Για το Google Books Ngram Viewer, αναφέρονται στο κείμενο που πρόκειται να αναζητήσετε ως "corpus." Το έμβλημα στο πρόγραμμα προβολής του Ngram χωρίζεται από τη γλώσσα, αν και μπορείτε να αναλύσετε ξεχωριστά τη βρετανική και την αμερικανική αγγλική γλώσσα ή να τα βγάλετε μαζί. Καταλήγει να είναι πολύ ενδιαφέρουσα να αλλάζετε από τη βρετανική προς την αμερικανική χρήση των όρων και να δείτε τα charts αλλάζουν.

Πώς λειτουργεί το Ngram

  1. Μεταβείτε στο Google Books Ngram Viewer στη διεύθυνση books.google.com/ngrams.
  2. Στα αντικείμενα γίνεται διάκριση πεζών-κεφαλαίων, σε αντίθεση με τις αναζητήσεις στο Google στο Web, οπότε βεβαιωθείτε ότι χρησιμοποιείτε σωστά τα ουσιαστικά ονόματα.
  3. Πληκτρολογήστε οποιαδήποτε φράση ή φράσεις που θέλετε να αναλύσετε. Βεβαιωθείτε ότι έχετε διαχωρίσει κάθε φράση με κόμμα. Η Google προτείνει "Albert Einstein, Sherlock Holmes, Frankenstein" για να ξεκινήσετε.
  4. Στη συνέχεια, πληκτρολογήστε ένα εύρος ημερομηνιών. Η προεπιλογή είναι 1800-2000, αλλά υπάρχουν πιο πρόσφατα βιβλία (το 2011 ήταν το πιο πρόσφατο που αναγράφεται στην τεκμηρίωση της Google, αλλά αυτό μπορεί να έχει αλλάξει.)
  5. Επιλέξτε ένα σώμα. Μπορείτε να αναζητήσετε κείμενα ξένων γλωσσών ή αγγλικά και, επιπλέον των τυποποιημένων επιλογών, μπορείτε να παρατηρήσετε στο κάτω μέρος πράγματα όπως "Αγγλικά (2009) ή American American (2009)". Αυτά είναι παλαιότερα σωματίδια που έχει ενημερωθεί από την Google, αλλά μπορεί να έχετε κάποιο λόγο να κάνετε συγκρίσεις με παλιά σύνολα δεδομένων. Οι περισσότεροι χρήστες μπορούν να τις αγνοήσουν και να επικεντρωθούν στα πιο πρόσφατα σωματίδια.
  6. Ρυθμίστε το επίπεδο εξομάλυνσης. Η εξομάλυνση αναφέρεται στο πόσο ομαλό είναι το γράφημα στο τέλος. Η πιο ακριβής αναπαράσταση θα ήταν ένα επίπεδο εξομάλυνσης 0, αλλά αυτό μπορεί να είναι δύσκολο να διαβαστεί. Η προεπιλογή είναι ρυθμισμένη στο 3. Στις περισσότερες περιπτώσεις, δεν χρειάζεται να προσαρμόσετε αυτό.
  1. Πατήστε το κουμπί Αναζήτηση παρτίδων βιβλίων . (Μπορείτε επίσης να πατήσετε απλά το πλήκτρο Enter στη γραμμή αναζήτησης).

Τι εμφανίζεται το Ngram;

Το Βιβλίο Google Ngram Viewer θα εξάγει ένα γράφημα που αντιπροσωπεύει τη χρήση μιας συγκεκριμένης φράσης στα βιβλία μέσα στο χρόνο. Εάν έχετε εισαγάγει περισσότερες από μία λέξεις ή φράσεις, θα δείτε γραμμές με κωδικό χρώματος για να αντιπαρατεθούν οι διαφορετικοί όροι αναζήτησης. Αυτό είναι αρκετά παρόμοιο με το Google Trends , μόνο η αναζήτηση καλύπτει μεγαλύτερο χρονικό διάστημα.

Εδώ είναι ένα παράδειγμα πραγματικής ζωής. Ήμασταν περίεργοι για τις πίτες από ξύδι πρόσφατα. Αναφέρονται στο Μικρό Σώμα της Laura Ingalls Wilder στη σειρά Prairie , αλλά ποτέ δεν το είχαμε ακούσει. Χρησιμοποιήσαμε για πρώτη φορά την αναζήτηση στο Web της Google για να μάθετε περισσότερα σχετικά με τις πίτες από ξύδι. Προφανώς, θεωρούνται μέρος της αμερικανικής νότιας κουζίνας και είναι πραγματικά κατασκευασμένα από ξύδι. Επιστρέφουν σε περιόδους που δεν έχουν όλοι πρόσβαση σε φρέσκα προϊόντα ανά πάσα στιγμή του χρόνου. Είναι όλη αυτή η ιστορία;

Αναζητήσαμε το Google Ngram Viewer και υπάρχουν μερικές αναφορές για την πίτα τόσο στις αρχές όσο και στα τέλη του 1800, πολλές αναφορές στη δεκαετία του 1940 και ένας αυξανόμενος αριθμός αναφερθέντων πρόσφατα (ίσως κάποια νοσταλγία πίτας). πρόβλημα με τα δεδομένα σε επίπεδο εξομάλυνσης 3. Υπάρχει ένα οροπέδιο πάνω από τις αναφορές στο 1800s. Σίγουρα δεν υπήρχε ένας ίσος αριθμός αναφορών για μια συγκεκριμένη πίτα κάθε χρόνο για πέντε χρόνια; Αυτό που συμβαίνει είναι ότι επειδή δεν υπάρχουν πολλά βιβλία που έχουν δημοσιευτεί εκείνη τη στιγμή και επειδή τα δεδομένα μας έχουν ρυθμιστεί να εξομαλύνουν, παραμορφώνουν την εικόνα. Πιθανότατα υπήρχε ένα βιβλίο που αναφέρθηκε σε ξύδι πίτα, και πήρε μόλις μέσος όρος για να αποφευχθεί μια ακίδα. Ρυθμίζοντας την εξομάλυνση στο 0, μπορούμε να δούμε ότι αυτό συμβαίνει ακριβώς. Τα ακίδα κέντρα στο 1869, και υπάρχει μια άλλη ακίδα το 1897 και το 1900.

Κανείς δεν μιλούσε για τις πίτες ξυδιού τον υπόλοιπο χρόνο; Μάλλον μιλούσαν για τις πίτες. Υπήρχαν πιθανές συνταγές που επιπλέουν σε όλη τη χώρα. Απλώς δεν έγραψαν για τα βιβλία, και αυτός είναι ο περιορισμός αυτών των αναζητήσεων του Ngram.

Προηγμένες αναζητήσεις Ngram

Θυμηθείτε πώς είπαμε ότι το Ngrams θα μπορούσε να αποτελείται από κάθε είδους διαφορετικές αναζητήσεις κειμένου; Η Google σάς επιτρέπει να δοκιμάσετε αρκετά με το πρόγραμμα προβολής Ngram. Εάν θέλετε να ψάξετε για ψάρι το ρήμα αντί για ψάρια το ουσιαστικό, μπορείτε να το κάνετε χρησιμοποιώντας ετικέτες. Σε αυτή την περίπτωση, θα πρέπει να αναζητήσετε "fish_VERB"

Η Google παρέχει μια πλήρη λίστα εντολών που μπορείτε να χρησιμοποιήσετε και άλλες προηγμένες τεκμηρίωσης στον ιστότοπό τους.