Search Engines - PageRank

Στην παρούσα εργασία, παρουσιάζω συνοπτικά τον τρόπο που λειτουργούν οι μηχανές αναζήτησης. Που βασίζεται ο αλγόριθμός τους, με ποια κριτήρια διαμορφώνεται η σειρά των αποτελεσμάτων, αλλά και θέματα που προκύπτουν για την αξιοπιστία, την ποικιλία και την αμεροληψία των αποτελεσμάτων των αναζητήσεων. Η εργασία επικεντρώνεται στην μέθοδο PageRank.

Το ίντερνετ στις μέρες μας περιέχει τεράστιο όγκο πληροφοριών, που καθημερινά είναι χρήσιμη στον καθένα από εμάς (για προσωπική χρήση), αλλά και στις εταιρείες που υπάρχουν (για εμπορικό σκοπό). Ωστόσο χωρίς τις μηχανές αναζήτησης, δε θα ήταν δυνατό κάποιος να έχει πρόσβαση σε όλη αυτήν την πληροφορία άμεσα, όποτε είναι αναγκαίο.

Ο καθένας από εμάς, χρησιμοποιεί τουλάχιστον μια φορά την ημέρα μια μηχανή αναζήτησης για να βρει κάποια πληροφορία που χρειάζεται. Από το ξεκίνημα του Παγκόσμιου Ιστού, έως και σήμερα, η φύση των μηχανών αναζήτησης έχει αλλάξει ριζικά, καθώς πρέπει να προσαρμόζεται στον εκθετικά αυξανόμενο αριθμό σελίδων, ώστε να είναι γρήγορες, αποδοτικές και αξιόπιστες.

Τι είναι μια μηχανή αναζήτησης

Μια μηχανή αναζήτησης είναι ένα πρόγραμμα σχεδιασμένο για να ανιχνεύει πληροφορίες από τον Παγκόσμιο Ιστό σύμφωνα με τις ανάγκες των χρηστών που καθορίζονται με κάποιες λέξεις κλειδιά. Τυπικά, η ανίχνευση αυτή, γίνεται μέσω μιας βάσης δεδομένων που περιέχει όλες τις διευθύνσεις που υπάρχουν στον Παγκόσμιο ιστό, και παρουσιάζοντας τελικά στο αποτέλεσμα της αναζήτησης όλες εκείνες τις διευθύνσεις που περιέχουν τις πληροφορίες που αναζητεί ο χρήστης. Τα κριτήρια με τα οποία προκύπτουν τα αποτελέσματα της αναζήτησης, είναι αυτά που θα μας απασχολήσουν παρακάτω.

Ιστορική αναδρομή

Στα πρώτα βήματα του Παγκόσμιου ιστού, όλες οι σελίδες ήταν καταγεγραμμένες σε ένα ευρετήριο, οπότε το να αναζητήσει κανείς μια πληροφορία ήταν σχετικά εύκολη υπόθεση. Όσο όμως περνούσαν τα χρόνια, το ίντερνετ εξελισσόταν όλο και περισσότερο και οι χρήστες πολλαπλασιάζονταν εκθετικά, τόσο οι απαιτήσεις των χρηστών όσο και ο όγκος της διαθέσιμης πληροφορίας, "ανάγκασε" τους προγραμματιστές να αλλάξουν τον τρόπο λειτουργίας των μηχανών αναζήτησης, προσαρμόζοντάς τις στη νέα τάξη πραγμάτων.

Πλέον, το να υπάρχει απλώς ένα ευρετήριο με όλες τις σελίδες δεν είναι αρκετό, επειδή δε θα ήταν δυνατόν οι χρήστες να ψάχνουν σε όλες τις σελίδες των αποτελεσμάτων για να βρουν την πληροφορία που αναζητούν. Ο μέσος χρήστης, συνήθως ψάχνει την πληροφορία που θέλει στις πρώτες δεκάδες αποτελεσμάτων, οπότε αυτό που έπρεπε να γίνει είναι να μπει με κάποιο τρόπο ένα ακόμη κριτήριο στις αναζητήσεις το οποίο θα κατέτασσε τις ιστοσελίδες από αυτήν που ταιριάζει καλύτερα στις λέξεις κλειδιά, και φτάνοντας μέχρι αυτήν που ταιριάζει λιγότερο.

Έγινε λοιπόν χρήση κάποιων κριτηρίων με τα οποία θα γινόταν μια ιεράρχηση στις σελίδες που εμφανίζονται στα αποτελέσματα των αναζητήσεων, ώστε να εμφανίζονται πρώτα οι πιο σημαντικές. Τα κριτήρια αυτά, αρχικά έλεγχαν μόνο τη σχέση των ιστοσελίδων με τις λέξεις-κλειδιά της αναζήτησης (π.χ. πόσες φορές εμφανίζεται κάθε λέξη κλειδί σε μια ιστοσελίδα). Για να μην δίνεται προβάδισμα σε σελίδες μεγάλης έκτασης, γινόταν και μια κανονικοποίηση ως προς την έκταση της κάθε σελίδας, κάνοντας τα κριτήρια αυτά πιο αντικειμενικά. Αργότερα, προστέθηκε στα κριτήρια ιεράρχησης και η αναζήτηση στο αν και σε ποιο μέρος του υπερκειμένου (HTML κώδικα) της σελίδας εμφανίζονται οι λέξεις κλειδιά. Μια επέκταση του παραπάνω κριτηρίου ήταν και η μέθοδος HITS (Hypertext Induced Topic Search). Η μέθοδος αυτή αποτελούσε μια ανάλυση των ιστοσελίδων όσον αφορά τους υπερσυνδέσμους. Παρακάτω αναφέρω λίγο πιο αναλυτικά την βασική ιδέα του αλγόριθμου.

Όλες οι παραπάνω μέθοδοι/κριτήρια όμως, παρήγαγαν αποτελέσματα εξαρτώμενα από τις λέξεις-κλειδιά, πράγμα το οποίο σημαίνει ότι κάποιοι επιτήδειοι μπορούσαν να "προωθήσουν" τις ιστοσελίδες τους εκμεταλλευόμενοι τον τρόπο λειτουργίας των μηχανών αναζήτησης, με "κατάλληλες τεχνικές" κατά τη δημιουργία του κώδικα των ιστοσελίδων και του περιεχομένου τους. Έτσι ανακαλύφθηκε και χρησιμοποιήθηκε το PageRank από την Google. Μια μέθοδος αξιολόγησης ιστοσελίδων βάσει των υπερσυνδέσμων, χωρίς όμως να φέρει αποτελέσματα εξαρτώμενα από το ερώτημα της αναζήτησης. Αναζητώντας δηλαδή έναν "βαθμό" για κάθε ιστοσελίδα, ανεξάρτητα από το ερώτημα της αναζήτησης.
Αργότερα, χρησιμοποιήθηκε ένας ακόμη αλγόριθμος, ο SALSA, που συνδύαζε και τη μέθοδο του HITS και τη μέθοδο του PageRank.

Για περισσότερες λεπτομέρειες όσον αφορά τη Google στο χώρο αυτό, μπορείτε να ακολουθήσετε κάποιον από τους παρακάτω συνδέσμους:

Timeline of Google Search

Η Ιστορία των μηχανών αναζήτησης