Οι Μηχανές Αναζήτησης, το PageRank και ζητήματα που ανακύπτουν από τα κριτήρια ανάκτησης της πληροφορίας με απλά λόγια

ΗΥ474 - Τεχνολογία Πολυμέσων

Διδάσκων: Γ. Τζιρίτας
Άνοιξη 2018

Ον/μο: Κωνσταντίνος Ψαρουλάκης
Email: psar@csd.uoc.gr
ΑΜ: 1082





Τμήμα Επιστήμης Υπολογιστών
Πανεπιστήμιου Κρήτης





Εισαγωγή


Στην παρούσα εργασία, παρουσιάζω συνοπτικά τον τρόπο που λειτουργούν οι μηχανές αναζήτησης. Που βασίζεται ο αλγόριθμός τους, με ποια κριτήρια διαμορφώνεται η σειρά των αποτελεσμάτων, αλλά και θέματα που προκύπτουν για την αξιοπιστία, την ποικιλία και την αμεροληψία των αποτελεσμάτων των αναζητήσεων. Η εργασία επικεντρώνεται στην μέθοδο PageRank.

Το ίντερνετ στις μέρες μας περιέχει τεράστιο όγκο πληροφοριών, που καθημερινά είναι χρήσιμη στον καθένα από εμάς (για προσωπική χρήση), αλλά και στις εταιρείες που υπάρχουν (για εμπορικό σκοπό). Ωστόσο χωρίς τις μηχανές αναζήτησης, δε θα ήταν δυνατό κάποιος να έχει πρόσβαση σε όλη αυτήν την πληροφορία άμεσα, όποτε είναι αναγκαίο.

Ο καθένας από εμάς, χρησιμοποιεί τουλάχιστον μια φορά την ημέρα μια μηχανή αναζήτησης για να βρει κάποια πληροφορία που χρειάζεται. Από το ξεκίνημα του Παγκόσμιου Ιστού, έως και σήμερα, η φύση των μηχανών αναζήτησης έχει αλλάξει ριζικά, καθώς πρέπει να προσαρμόζεται στον εκθετικά αυξανόμενο αριθμό σελίδων, ώστε να είναι γρήγορες, αποδοτικές και αξιόπιστες.



Λέξεις-κλειδιά: Μηχανές αναζήτησης; Google; PageRank; HITS; Ανάκτηση πληροφορίας; Search Engine Marketing; Βελτιστοποίηση Μηχανών Αναζήτησης;


Τι είναι μια μηχανή αναζήτησης

Μια μηχανή αναζήτησης είναι ένα πρόγραμμα σχεδιασμένο για να ανιχνεύει πληροφορίες από τον Παγκόσμιο Ιστό σύμφωνα με τις ανάγκες των χρηστών που καθορίζονται με κάποιες λέξεις κλειδιά. Τυπικά, η ανίχνευση αυτή, γίνεται μέσω μιας βάσης δεδομένων που περιέχει όλες τις διευθύνσεις που υπάρχουν στον Παγκόσμιο ιστό, και παρουσιάζοντας τελικά στο αποτέλεσμα της αναζήτησης όλες εκείνες τις διευθύνσεις που περιέχουν τις πληροφορίες που αναζητεί ο χρήστης. Τα κριτήρια με τα οποία προκύπτουν τα αποτελέσματα της αναζήτησης, είναι αυτά που θα μας απασχολήσουν παρακάτω.


Ιστορική αναδρομή

Στα πρώτα βήματα του Παγκόσμιου ιστού, όλες οι σελίδες ήταν καταγεγραμμένες σε ένα ευρετήριο, οπότε το να αναζητήσει κανείς μια πληροφορία ήταν σχετικά εύκολη υπόθεση. Όσο όμως περνούσαν τα χρόνια, το ίντερνετ εξελισσόταν όλο και περισσότερο και οι χρήστες πολλαπλασιάζονταν εκθετικά, τόσο οι απαιτήσεις των χρηστών όσο και ο όγκος της διαθέσιμης πληροφορίας, "ανάγκασε" τους προγραμματιστές να αλλάξουν τον τρόπο λειτουργίας των μηχανών αναζήτησης, προσαρμόζοντάς τις στη νέα τάξη πραγμάτων.

Πλέον, το να υπάρχει απλώς ένα ευρετήριο με όλες τις σελίδες δεν είναι αρκετό, επειδή δε θα ήταν δυνατόν οι χρήστες να ψάχνουν σε όλες τις σελίδες των αποτελεσμάτων για να βρουν την πληροφορία που αναζητούν. Ο μέσος χρήστης, συνήθως ψάχνει την πληροφορία που θέλει στις πρώτες δεκάδες αποτελεσμάτων, οπότε αυτό που έπρεπε να γίνει είναι να μπει με κάποιο τρόπο ένα ακόμη κριτήριο στις αναζητήσεις το οποίο θα κατέτασσε τις ιστοσελίδες από αυτήν που ταιριάζει καλύτερα στις λέξεις κλειδιά, και φτάνοντας μέχρι αυτήν που ταιριάζει λιγότερο.

Έγινε λοιπόν χρήση κάποιων κριτηρίων με τα οποία θα γινόταν μια ιεράρχηση στις σελίδες που εμφανίζονται στα αποτελέσματα των αναζητήσεων, ώστε να εμφανίζονται πρώτα οι πιο σημαντικές. Τα κριτήρια αυτά, αρχικά έλεγχαν μόνο τη σχέση των ιστοσελίδων με τις λέξεις-κλειδιά της αναζήτησης (π.χ. πόσες φορές εμφανίζεται κάθε λέξη κλειδί σε μια ιστοσελίδα). Για να μην δίνεται προβάδισμα σε σελίδες μεγάλης έκτασης, γινόταν και μια κανονικοποίηση ως προς την έκταση της κάθε σελίδας, κάνοντας τα κριτήρια αυτά πιο αντικειμενικά. Αργότερα, προστέθηκε στα κριτήρια ιεράρχησης και η αναζήτηση στο αν και σε ποιο μέρος του υπερκειμένου (HTML κώδικα) της σελίδας εμφανίζονται οι λέξεις κλειδιά. Μια επέκταση του παραπάνω κριτηρίου ήταν και η μέθοδος HITS (Hypertext Induced Topic Search). Η μέθοδος αυτή αποτελούσε μια ανάλυση των ιστοσελίδων όσον αφορά τους υπερσυνδέσμους. Παρακάτω αναφέρω λίγο πιο αναλυτικά την βασική ιδέα του αλγόριθμου.

Όλες οι παραπάνω μέθοδοι/κριτήρια όμως, παρήγαγαν αποτελέσματα εξαρτώμενα από τις λέξεις-κλειδιά, πράγμα το οποίο σημαίνει ότι κάποιοι επιτήδειοι μπορούσαν να "προωθήσουν" τις ιστοσελίδες τους εκμεταλλευόμενοι τον τρόπο λειτουργίας των μηχανών αναζήτησης, με "κατάλληλες τεχνικές" κατά τη δημιουργία του κώδικα των ιστοσελίδων και του περιεχομένου τους. Έτσι ανακαλύφθηκε και χρησιμοποιήθηκε το PageRank από την Google. Μια μέθοδος αξιολόγησης ιστοσελίδων βάσει των υπερσυνδέσμων, χωρίς όμως να φέρει αποτελέσματα εξαρτώμενα από το ερώτημα της αναζήτησης. Αναζητώντας δηλαδή έναν "βαθμό" για κάθε ιστοσελίδα, ανεξάρτητα από το ερώτημα της αναζήτησης.
Αργότερα, χρησιμοποιήθηκε ένας ακόμη αλγόριθμος, ο SALSA, που συνδύαζε και τη μέθοδο του HITS και τη μέθοδο του PageRank.

Για περισσότερες λεπτομέρειες όσον αφορά τη Google στο χώρο αυτό, μπορείτε να ακολουθήσετε κάποιον από τους παρακάτω συνδέσμους:

  • Timeline of Google Search

  • Η Ιστορία των μηχανών αναζήτησης



  • Κριτήρια αναζήτησης και ιεράρχησης της πληροφορίας (επιγραμματικά)

    Με βάση τις λέξεις-κλειδιά:

  • Συχνότητα εμφάνισης λέξης-κλειδιού
  • Σημείο εμφάνισης λέξης κλειδιού (Τίτλος, κείμενο, άλλο σημείο μέσα στην ιστοσελίδα γενικότερα.)
  • Metadata - Πληροφορίες στον HTML κώδικα της σελίδας. Δίνεται μεγαλύτερο βάρος όταν οι λέξεις βρίσκονται:
    • στον τίτλο (Το κείμενο που φαίνεται στο παράθυρο του περιηγητή - Ορίζεται στο υπερκείμενο της σελίδας)
    • στην κύρια επικεφαλίδα της σελίδας
    • σε οποιαδήποτε επικεφαλίδα πέραν της κύριας
    • στην πρώτη παράγραφο
    • στις ρητές λέξεις-κλειδιά που δηλώνονται (κρυφές στους χρήστες)
    • στην περιγραφή της σελίδας (κρυφή στους χρήστες)

  • Με βάση την ανάδραση των χρηστών στον αλγόριθμο:
    Καθώς ο χρήστης ψάχνει/βρίσκει αποτελέσματα μέσω των μηχανών αναζήτησης, πολλές φορές γίνονται κάποιες μετρήσεις για τη βελτίωση του αλγορίθμου. Αυτή η μελέτη της συμπεριφοράς του χρήστη, λέγεται σιωπηρή-έμμεση ανάδραση του χρήστη με το σύστημα, και μπορεί να επηρεάσει τη σειρά των αποτελεσμάτων. Οι μετρήσεις αυτές περιλαμβάνουν:

  • Ποιες σελίδες από τα αποτελέσματα έχουν τα περισσότερα κλικς
  • Χρόνος παραμονής σε κάποια ιστοσελίδα
  • Πως αναδιαμορφώνεται το ερώτημα που τίθεται από τον χρήστη, για να καταφέρει να βρει ακριβώς αυτό που ψάχνει
    (Fox et al. 2005; Kelly & Teevan 2003; Kelly 2005; Joachims et al. 2007; Radlinski et al. 2008)

  • Με βάση το PageRank (που θα αναλύσουμε παρακάτω).


    Τι είναι το PageRank

    Σχ.1 - Αναπαράσταση του διαδικτύου
    ως γράφο.

    Το PageRank (μτφ. Βαθμολογία σελίδας), αποτελεί έναν τρόπο βαθμολόγησης της ποιότητας για κάθε ιστοσελίδα. Συγκεκριμένα, βασίζεται στους υπερσυνδέσμους που οδηγούν από τη μια ιστοσελίδα σε κάποια άλλη και μπορούμε να πούμε ότι είναι μια αντικειμενική μέτρηση της σπουδαιότητας των παραπομπών μιας ιστοσελίδας, καθώς μοιάζει πολύ με τον τρόπο που οι άνθρωποι κρίνουν την σπουδαιότητα κάποιας παραπομπής. Δηλαδή εάν καμία σελίδα δε δείχνει σε μια συγκεκριμένη σελίδα, τότε εκείνη η σελίδα χωρίς εισερχόμενους υπερσυνδέσμους έχει χαμηλό PageRank. Αντίστροφα, σελίδες που έχουν πολλούς εισερχόμενους υπερσυνδέσμους ή λίγους από σελίδες με υψηλό PageRank, έχουν υψηλό PageRank.

    Είναι λοιπόν λογικό ότι με τη χρήση του PageRank, οι χρήστες είναι ικανοποιημένοι με τη σειρά που βλέπουν τις ιστοσελίδες στα αποτελέσματα των αναζητήσεών τους, καθώς κατά κάποιο τρόπο η ιδέα της μεθόδου αυτής, "συμφωνεί" με την ανθρώπινη κρίση στην πλειοψηφία των περιπτώσεων.



    Πως λειτουργεί το PageRank

    Μέχρι τώρα, δεν έχουμε μιλήσει για τον τρόπο που πραγματικά λειτουργεί αυτή η βαθμολόγηση των ιστοσελίδων, εν ονόματι PageRank. Ας ξεκινήσω την ανάλυση με δύο χαρακτηριστικούς παραλληλισμούς του αλγορίθμου του PageRank, όπως αναφέρονται στην εργασία "The Anatomy of a Large-Scale Hypertextual Web Search Engine" των Sergey Brin and Lawrence Page.

    Υποθέστε ότι δίνουμε σε έναν "τυχαίο χρήστη" του διαδικτύου μια ιστοσελίδα με τυχαίο τρόπο και πατάει συνεχώς σε συνδέσμους, χωρίς να πατάει "Πίσω", και τελικά βαριέται και πληκτρολογεί μια νέα σελίδα από την οποία ξεκινάει την ίδια διαδικασία. Η πιθανότητα λοιπόν αυτός ο τυχαίος χρήστης να επισκεφθεί κάποια σελίδα, ονομάζεται PageRank της σελίδας αυτής.

    Μια δεύτερη προσέγγιση είναι να θεωρήσουμε ότι μια σελίδα έχει υψηλό PageRank εάν πολλές σελίδες έχουν υπερσυνδέσμους προς αυτήν, ή εάν σελίδες με υψηλό PageRank έχουν υπερσυνδέσμους προς αυτήν.

    Σχ.2 - Παράδειγμα γράφου με ιστοσελίδες
    και τις αντίστοιχες τιμές του PageRank τους.

    Ας το δούμε σε λίγο μεγαλύτερο βάθος. Το PageRank εξαρτάται από τρεις βασικούς παράγοντες:

  • Τον αριθμό των εισερχόμενων υπερσυνδέσμων
  • Τον αριθμό τον εξερχόμενων υπερσυνδέσμων (ή αλλιώς ροπή υπερσυνδέσμων)
  • Το PageRank των συνδεδεμένων σελίδων

  • Για να υπολογιστεί το PageRank καταρχάς έχει δημιουργηθεί ένας γράφος του οποίου κόμβοι είναι όλες οι διαθέσιμες ιστοσελίδες στον ιστό, και οι ακμές όλοι οι σύνδεσμοι που δείχνουν από μια σελίδα στην άλλη και αντίστροφα. Μελετάμε ουσιαστικά δηλαδή το το γράφο του συνολικού διαδικτύου τοπολογικά. Για κάθε σύνδεσμο που υπάρχει από μια σελίδα προς μια άλλη, υπάρχει και μια προσανατολισμένη ακμή.

    Με τη λογική που περιέγραψα παραπάνω, θέτουμε ίση την πιθανότητα να βρεθούμε σε οποιαδήποτε ιστοσελίδα και με μια επαναληπτική διαδικασία καταλήγουμε στο βαθμό PageRank κάθε ιστοσελίδας. (Σαν να ξεκινάμε δηλαδή από έναν τυχαίο κόμβο, και μετά μέσω ενός τυχαίου περιπάτου, να υπολογίζουμε την πιθανότητα να βρεθούμε σε κάποια συγκεκριμένη ιστοσελίδα.)



    Προβλήματα - και πως αποφεύγονται

    Με τον αλγόριθμο για τον υπολογισμό του PageRank, μπορείτε να σκεφτείτε δύο ενδεχόμενα τα οποία δημιουργούσαν πρόβλημα στη υλοποίηση της ιδέας της μεθόδου.

  • Το πρώτο είναι το ενδεχόμενο να φτάσει ο αλγόριθμος σε μια σελίδα-αδιέξοδο, που δεν έχει κανέναν υπερσύνδεσμο προς άλλη σελίδα, "εγκλωβίζοντας" τελικά τον χρήστη εκεί. Αυτό γίνεται γιατί όπως είπαμε ο χρήστης ξεκινώντας από μια σελίδα, κάνει κλικς μεταβαίνοντας σε άλλες σελίδες. Άν όμως μια σελίδα δεν έχει κανέναν υπερσύνδεσμο, προφανώς δεν μπορεί να ξεφύγει από εκεί ο χρήστης με κάποιο κλικ.

    Λύση: Στην αρχική έκφραση της μεθόδου του PageRank γίνεται η υπόθεση ότι ο χρήστης μεταπηδά σε μια τυχαία επιλεγμένη σελίδα. (Μαθηματική ερμηνεία αυτού: Μια ιστοσελίδα-αδιέξοδο, αναπαριστάται σε μορφή πίνακα με μια γραμμή με μηδενικά. Γίνεται λοιπόν αντικατάσταση εκείνης της γραμμής με ένα διάνυσμα με τιμές ομοιόμορφης κατανομής πιθανότητας, δηλαδή ένα διάνυσμα μήκους n, με στοιχεία ίσα με 1/n, όπου n ο αριθμός όλων των ιστοσελίδων.)

  • Το δεύτερο είναι το ενδεχόμενο ο χρήστης να εγκλωβιστεί ανάμεσα σε ένα μικρό σύνολο σελίδων - ένα υπογράφημα του συνολικού, στο οποίο δεν υπάρχουν εξερχόμενοι υπερσύνδεσμοι προς το υπόλοιπο γράφημα. Ως αποτέλεσμα, ο χρήστης "περιπλανιέται" μόνο μέσα σε αυτές τις λίγες σελίδες που ανήκουν στο υπογράφημα και συνδέονται μεταξύ τους, χωρίς να μπορεί να "ξεφύγει".

    Λύση:Στον τύπο που έχουμε μέχρι τώρα για το PageRank προστίθεται μια παράμετρος d, η οποία εκφράζει την πιθανότητα ο χρήστης να μεταβεί σε οποιαδήποτε τυχαία ιστοσελίδα, μέσω της γραμμής διεύθυνσης του περιηγητή, σε οποιοδήποτε βήμα του αλγορίθμου. Δηλαδή δίνονται δύο επιλογές στον χρήστη: είτε να μεταβεί σε επόμενη ιστοσελίδα μέσω κάποιου υπερσυνδέσμου είτε μέσω της γραμμής διεύθυνσης επιλέγοντας κάποια άλλη διεύθυνση.
    Ως ορολογία, η παράμετρος d αυτή, ονομάζεται dumping factor(μτφ. παράγοντας "εγκατάλειψης" σελίδας).
  • Έτσι δεν υπάρχει άλλη προβληματική περίπτωση και μπορεί πλέον να υπολογιστεί για κάθε ιστοσελίδα ένας μοναδικός βαθμός PageRank.


    Ανακάλυψη ή επέκταση ήδη υπάρχουσας ιδέας;

    Σχ.3 - Ιστορία του PageRank

    Το PageRank είναι μια θεμελιώδης έννοια στην οποία βασίστηκε η Google για την επιτυχημένη μηχανή αναζήτησής της. Ωστόσο η ιδέα προϋπήρχε σε παλιότερες τεχνικές στους τομείς της ανάκτησης πληροφορίας από τον ιστό, στη βιβλιομετρία, την κοινωνιομετρία και την οικονομετρία.


  • Στον αλγόριθμο HITS στο διαδίκτυο (Μέθοδος βαθμολόγησης ιστοσελίδων, από τον Kleinberg)
    O HITS αναλύει τις σελίδες ως authorities (Σελίδες με πολλούς εισερχόμενους υπερσυνδέσμους)και hubs(σελίδες με πολλούς εξερχόμενους υπερσυνδέσμους).
    Αναφέρεται λοιπόν ότι: "Οι καλές authorities δείχνονται από καλά hubs και τα καλά hubs δείχνουν σε καλές authorities."

  • Στην βιβλιομετρία: "Ένα επιστημονικό περιοδικό ασκεί επιρροή εάν γίνεται αναφορά σε αυτό από άλλα περιοδικά που ασκούν επιρροή."

  • Στην κοινωνιομετρία: "Ένα άτομο έχει κύρος, εάν επιδοκιμάζεται/εγκρίνεται από διάσημους ανθρώπους."

  • Στην οικονομετρία σύμφωνα με την ανάλυση εισροών-εκροών του Wassily Leontief. Στην ανάλυση αυτή, η οικονομία μιας χώρας χωρίζεται σε κάποιον αριθμό από τομείς, τις βιομηχανίες, καθεμιά από τις οποίες αποτελείται από επιχειρήσεις που παράγουν παρόμοια προϊόντα. Υποστηρίζεται λοιπόν ότι κάθε βιομηχανία απαιτεί συγκεκριμένα έσοδα ώστε να παράξει μια μονάδα του προϊόντος της, και πουλάει τα προϊόντα της σε άλλες βιομηχανίες για να καλύψει τις ανάγκες της σε υλικά. Ο στόχος είναι να βρουν τιμές για κάθε μονάδα παραγόμενου προϊόντος από κάθε βιομηχανία ώστε να εξασφαλίζεται η επαναληψιμότητα της οικονομίας.
    Το σημείο στο οποίο υπάρχει ομοιότητα με τον αλγόριθμο του PageRank είναι λίγο βαθύτερα από την παραπάνω πρόταση. Έγκειται στο ότι καλά αμειβόμενες βιομηχανίες (δηλαδή με υψηλά συνολικά έσοδα) είναι εκείνες που λαμβάνουν σημαντικές εισροές από άλλες υψηλά αμειβόμενες βιομηχανίες.

  • Πιο...μαθηματική ερμηνεία του PageRank

    Εξετάζοντας τον αλγόριθμο του PageRank (και τις αντίστοιχες παραπάνω ιδέες) από μια πιο μαθηματική σκοπιά, έχουμε το παρακάτω μοντέλο:

    Υποθέτουμε ότι έχουμε τις σελίδες T1, T2, ..., Tn οι οποίες γνωρίζουμε ότι έχουν εξερχόμενους υπερσυνδέσμους προς την σελίδα Α. Η παράμετρος α, είναι το dumping factor (μτφ.παράγοντας εγκατάλειψης) και παίρνει τιμές μεταξύ 0 και 1. Συνήθως έχει την τιμή 0.85, το οποίο διαισθητικά σημαίνει ότι περίπου μετά απο 5 κλικς, ο τυχαίος χρήστης επιλέγει μια τυχαία ιστοσελίδα. Τέλος, ως C(A) ορίζουμε τον αριθμό τον εξερχομένων υπερσυνδέσμων από την σελίδα Α πρός άλλε σελίδες, και ως PR(A) το PageRank της σελίδας Α. Προκύπτει λοιπόν η παρακάτω εξίσωση για το μοντέλο που μόλις περιγράψαμε:

    PR(A) = (1-α) + α (PR(T1)C(T1) + ... + PR(Tn)C(Tn))

    Και εάν στην αρχική μορφή συμπεριλάβουμε και έναν πίνακα μεταφοράς E(transportation matrix) που περιέχει διανύσματα που αντιστοιχούν στην ομοιόμορφη κατανομή πιθανότητας (στοιχεία με τιμή 1/n) για την αποφυγή της περίπτωσης να πέσουμε σε σελίδα-αδιέξοδο, αλλά και τον παράγοντα εγκατάλειψης της σελίδας α(dumping factor), προκύπτει τελικά ο εξής πίνακας επανάληψης(αποκαλούμενος Google matrix) για τη μέθοδο:

    Ο υπολογισμός του PageRank του A (PR(A)) γίνεται με έναν επαναληπτικό αλγόριθμο ο οποίος συγκλίνει στο ιδιοδιάνυσμα με το μεγαλύτερο μέτρο, του κανονικοποιημένου πίνακα των υπερσυνδέσμων του διαδικτύου. Τα στοιχεία ai, j του πίνακα αυτού έχουν τιμή, όσο είναι και το πλήθος των υπερσυνδέσμων από τη σελίδα i στη σελίδα j. Η ύπαρξη και μοναδικότητα της λύσης του αλγορίθμου αποδεικνύεται μαθηματικά. (Εάν ενδιαφέρεστε για την απόδειξη αυτή, μπορείτε να δείτε περαιτέρω στο δεύτερο pdf σε σειρά που επισυνάπτεται στις πηγές.)


    Μπορείτε να δείτε και το παρακάτω βίντεο σε περίπτωση που κάτι δεν σας έγινε αντιληπτό:


    Όσον αφορά τον τρόπο που αντιμετωπίστηκαν τα προβλήματα με τα ανεξάρτητα υπογραφήματα και τις ιστοσελίδες-αδιέξοδα που ανέφερα και παραπάνω, τα παρακάτω βίντεο εξηγούν αναλυτικά ποια είναι τα προβλήματα (1ο βίντεο) και πως αυτά διαμορφώνουν τον μαθηματικό τύπο της μεθόδου:

    Ποια είναι τα προβλήματα;


    Πως είναι ο τελικός τύπος της μεθόδου;

    Για περισσότερες λεπτομέρειες και βαθύτερη μαθηματική ανάλυση και λύση του τύπου της μεθόδου PageRank, ακολουθήστε τον σύνδεσμο:
    The Mathematics Behind Google’s PageRank, Ilse Ipsen (Joint work with Rebecca Wills), Department of Mathematics North Carolina State University, Raleigh, USA


    Ηθικά ζητήματα που ανακύπτουν

    Εισάγοντας αυτά τα κριτήρια για την ιεράρχηση των αποτελεσμάτων στις μηχανές αναζήτησης, τίθενται θέματα αμεροληψίας και ηθικής. Πώς μπορούμε να ξέρουμε ότι η ιεραρχία των αποτελεσμάτων δεν ευνοεί κάποιες σελίδες και καταρρακώνει άλλες με τα κριτήρια που χρησιμοποιούμε εάν δεν γνωρίζουμε στην πραγματικότητα τίποτα για τον τρόπο που λειτουργούν οι μηχανές αναζήτησης; Για το λόγο αυτό, σε κάθε μηχανή αναζήτησης υπάρχει πλέον ένας βαθμός διαφάνειας όσον αφορά τον τρόπο με τον οποίο ιεραρχεί τα αποτελέσματα, ώστε να μπορούν οι χρήστες να εμπιστευτούν τα αποτελέσματα και κατ επέκταση να χρησιμοποιήσουν την εκάστοτε μηχανή αναζήτησης.

    Ωστόσο εάν ολόκληρος ο αλγόριθμος ήταν δημοσιευμένος και προσβάσιμος από τον καθένα, θα υπήρχε ένα μεγάλο ρίσκο για το σύστημα, αφού θα μπορούσαν να εκμεταλλευτούν τα χαρακτηριστικά ή/και τις αδυναμίες του συστήματος για σπαμ και κακόβουλες επιθέσεις.

    Πέραν όμως της διαφάνειας των αλγορίθμων των μηχανών αναζήτησης, οι χρήστες μπορούν με τη σειρά τους να κρίνουν την λειτουργία μιας μηχανής αναζήτησης με πολλούς τρόπους. Ελέγχοντας:
    -Πως μεταβάλλονται τα αποτελέσματα για ένα συγκεκριμένο ερώτημα με το πέρασμα του χρόνου,
    -Eαν οι πηγές των αποτελεσμάτων είναι περιορισμένες σε ένα συγκεκριμένο "κύκλο" σελίδων,
    -Εάν τα αποτελέσματα είναι εμπορευματοποιημένα, είτε έχοντας και διαφημίσεις ανακατεμένες με τα αποτελέσματα είτε προωθώντας κάποιες συγκεκριμένες ιστοσελίδες/εταιρείες (για να έχει μεγαλύτερα έσοδα η μηχανή αναζήτησης),
    είτε με προσωπικά κριτήρια που θεωρεί ο κάθε χρήστης σημαντικά για τα αποτελέσματα των αναζητήσεών του.

    Λίγοι είναι οι χρήστες όμως που πραγματικά ενδιαφέρονται γι' αυτό το θέμα. Συνήθως εάν είναι ευχαριστημένοι από μια μηχανή αναζήτησης δεν χρησιμοποιούν κάποια άλλη, και αντίστροφα, εκτός από ένα ποσοστό περί του 60% των χρηστών που χρησιμοποιούν περισσότερες από μια μηχανές αναζήτησης.(Fallows 2008)


    Βελτιστοποίηση των μηχανών αναζήτησης

    Η βελτίωση των μηχανών αναζήτησης αποτελεί ένα πολύ σημαντικό ερευνητικό αντικείμενο. Η βελτίωση μπορεί να γίνει σε πολλά επίπεδα, αφού όπως είδαμε οι μηχανές αναζήτησης είναι πολύπλοκες στον τρόπο που δουλεύουν και συνυπολογίζουν πολλούς παράγοντες για την εύρεση και την ιεράρχηση των αποτελεσμάτων. Ωστόσο γίνονται συνεχώς μελέτες ώστε να βελτιωθεί ακόμη περισσότερο η ιεραρχία των αποτελεσμάτων και κατ' επέκταση η ικανοποίηση των χρηστών. Βελτιώσεις μπορεί να γίνουν:

  • Στο χρόνο εύρεσης των αποτελεσμάτων
  • Στον χώρο (μνήμη) που δεσμεύεται κατά τις εκτελέσεις των αλγορίθμων και των αναζητήσεων
  • Στην ανεύρεση σχετικών αποτελεσμάτων αναλόγως το ερώτημα που έχει τεθεί
  • Στην ιεράρχηση των αποτελεσμάτων που εμφανίζονται στο χρήστη
  • Για όλα αυτά χρειάζονται πολύπλευρες έρευνες, τόσο για τη βελτίωση των αλγορίθμων σε χρονική και χωρική πολυπλοκότητα (ελαχιστοποίηση του χρόνου εκτέλεσής τους και της μνήμης που δεσμεύουν) όσο και για τη βελτίωση των μοντέλων που χρησιμοποιούνται για την ιεράρχηση και την εύρεση των πληροφοριών μελετώντας τη συμπεριφορά του χρήστη.

    Στις μέρες μας υπάρχουν πολλές μηχανές αναζήτησης και έχει δημιουργηθεί αφενός ανταγωνισμός μεταξύ των μηχανών αναζήτησης για τον αριθμό χρηστών που προσελκύουν και αφετέρου μια νέα μορφή internet marketing που ουσιαστικά πρόκειται για marketing στο οποίο χρησιμοποιείται η προώθηση μέσω μηχανών αναζήτησης. Έτσι, μια άλλη έννοια της βελτιστοποίησης για τις μηχανές αναζήτησης, είναι η εύρεση τρόπων να βγάζουν περισσότερα χρήματα μέσω διαφημίσεων και ιστοσελίδων που προωθούν, χωρίς όμως να μεροληπτούν όσον αφορά τα αποτελέσματα των αναζητήσεων που ζητά ο χρήστης.


    Επίλογος

    Οι μηχανές αναζήτησης είναι πλέον ένα αναπόσπαστο εργαλείο της καθημερινότητας μας. Εξυπηρετεί τους χρήστες για κάθε ανάγκη που έχουν στην εύρεση πληροφοριών. Είτε για καθημερινά θέματα, είτε για επαγγελματικά. Ωστόσο μέσα στο πλήθος τόσων ιστοσελίδων που υπάρχουν στο διαδίκτυο σήμερα είναι δύσκολο τόσο το να βρεθούν τα επιθυμητά αποτελέσματα όσο και ιεραρχηθούν με "σωστή" σειρά (κατά την κρίση των χρηστών). Έχει γίνει μεγάλη πρόοδος σε αυτό το κομμάτι και έχουν ανακαλυφθεί διάφορα εργαλεία και μέθοδοι για την ανεύρεση και την ιεράρχηση των πληροφοριών. Βέβαια συνεχίζονται να γίνονται έρευνες με στόχο τη βελτιστοποίηση των μηχανών αναζήτησης, και μέσω όλων αυτών τον ερευνών ανακύπτουν και ηθικά θέματα περί προσωπικών δεδομένων (σε περιπτώσεις όπου λαμβάνονται στοιχεία από την πλοήγηση των χρηστών), περί ακεραιότητας και αξιοπιστίας των μηχανών αναζήτησης έναντι της εμπορευματοποίησης τους, και άλλα πολλά. Τα παραπάνω ήταν μια μικρή εισαγωγή σε αυτόν τον "κόσμο" των μηχανών αναζήτησης και σε ένα παράδειγμα μεθόδου βαθμολόγησης σελίδων, το PageRank, που χρησιμοποιείται από την Google, ωστόσο υπάρχουν ακόμη πολλά για να μάθει κανείς στον τομέα αυτό. Ελπίζω η παρουσίαση αυτή να ήταν μόνο η αρχή.


    Κωνσταντίνος Ψαρουλάκης




    Πηγές

  • Brin S., and Page L., The anatomy of a large scale hypertextual web search engine, Computer Networks and ISDN Systems, Vol. 30, pp.107-117, 1998.

  • Franceschet M., PageRank: standing on the shoulders of giants, Comm. ACM, Vol. 54, No. 6, pp. 92-101, June 2011.

  • Granka L., The Politics of Search: A Decade Retrospective, The Information Society, Vol. 26, No.5, pp. 364–374, 2010.

  • Berman, Ron and Katona, Zsolt, The Role of Search Engine Optimization in Search Marketing (November 6, 2012). Available at SSRN: https://ssrn.com/abstract=1745644 or https://ssrn.com/abstract=1745644

  • Δ. Κατσαρός, Διαφάνειες από το μάθημα Εύρεση & ∆ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Διάλεξη 14η, Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & Δικτύων, Πανεπιστήμιο Θεσσαλίας


  • WebpageIcon: Icon made by Freepik from www.flaticon.com is licensed by CC 3.0 BY
    PageRank Image: CC BY-SA 2.5, Link