z-logo
open-access-imgOpen Access
Proximity problems for high-dimensional data
Author(s) -
Ιωάννης Ψαρρός
Publication year - 2021
Language(s) - French
Resource type - Dissertations/theses
DOI - 10.12681/eadd/45950
Subject(s) - hausdorff space , dynamic time warping , combinatorics , hamming distance , computer science , mathematics , artificial intelligence
Η εύρεση όμοιων αντικειμένων είναι ένα γενικό υπολογιστικό πρόβλημα που χρησιμεύει ως υπορουτίνα για πολλά προβλήματα μηχανικής μάθησης όπως η συσταδοποίηση. Με την πρόσφατη αύξηση της διαθεσιμότητας πολύπλοκων συνόλων δεδομένων, αυξήθηκε η ανάγκη για την ανάλυση δεδομένων υψηλών διαστάσεων. Παρομοίως, παρατηρείται αύξηση ενδιαφέροντος στις δομές δεδομένων για επεξεργασία καμπυλών, λόγω της αυξανόμενης διαθεσιμότητας και ποιότητας των δεδομένων τροχιάς από τα κινητά τηλέφωνα, τους αισθητήρες GPS, την τεχνολογία RFID και την ανάλυση βίντεο. Σε αυτή τη διατριβή, ερευνάμε προβλήματα εγγύτητας για διανύσματα μεγάλης διάστασης και πολυγωνικές καμπύλες. Ο φυσικός τρόπος μέτρησης της ανομοιότητας μεταξύ δύο διανυσμάτων είναι η αποτίμηση μιας συνάρτησης νόρμας για τη διανυσματική διαφορά των δύο διανυσμάτων. Δημοφιλή παραδείγματα τέτοιων συναρτήσεων απόστασης είναι η Ευκλείδεια απόσταση και η απόσταση Μανχάταν. Παρομοίως, υπάρχουν αρκετές καλά μελετημένες συναρτήσεις απόστασης για πολυγωνικές καμπύλες, με κύριο παράδειγμα την απόσταση Fréchet. Το βασικό πρόβλημα, και για τους δύο τύπους δεδομένων, είναι το πρόβλημα αναζήτησης του κοντινότερου γείτονα. Δεδομένου ενός συνόλου αντικειμένων P , στοχεύουμε σε μια δομή δεδομένων που υποστηρίζει ερωτήματα κοντινότερου γείτονα. Ένα νέο αντικείμενο q δίνεται και η δομή δεδομένων επιστρέφει το ομοιότερο αντικείμενο από το P . Όταν η πολυπλοκότητα των δεδομένων είναι υψηλή, μια λύση με ακρίβεια είναι σπάνια αποδοτική. Αυτό οδήγησε τους ερευνητές στον πιο εύκολο στόχο του σχεδιασμού προσεγγιστικών λύσεων. Το μεγαλύτερο μέρος αυτής της εργασίας είναι αφιερωμένο στο πρόβλημα του προσεγγιστικού κοντινότερου γείτονα και στο πρόβλημα του προσεγγιστικού κοντινού γείτονα: δεδομένου ενός συνόλου αντικειμένων P και μιας παραμέτρου ακτίνας r, η δομή δεδομένων επιστρέφει ένα αντικείμενο στο P (εφόσον υπάρχει) το οποίο είναι κατά προσέγγιση σε απόσταση r από κάποιο αντικείμενο ερώτησης q. Ένα άλλο βασικό ερώτημα είναι αυτό του υπολογισμού ενός υποσυνόλου καλών εκπροσώπων για ένα σύνολο δεδομένων. Αυτό το υποσύνολο παρέχει συχνά επαρκείς πληροφορίες για κάποιο υπολογιστικό πρόβλημα και επομένως απλοποιεί πιθανώς τις υπάρχουσες λύσεις. Τέλος, μελετάμε τους χώρους εύρους για πολυγωνικές καμπύλες: φράσουμε τη διάσταση Vapnik-Chervonenkis για εύρη που ορίζονται από συναρτήσεις απόστασης για καμπύλες. Τα αποτελέσματα αυτά έχουν άμεσες συνέπειες σε προβλήματα μέτρησης εύρους και στην εκτίμηση πυκνότητας. Η διατριβή έχει δομηθεί ως εξής. Εισάγουμε έναν νέο ορισμό εμβυθίσεων “χαμηλής ποιότητας” για μετρικούς χώρους. Απαιτεί ότι, για κάποιο σημείο ερωτήματος q, υπάρχει ένας προσεγγιστικός κοντινότερος γείτονας μεταξύ των προ-εικόνων των k > 1 προσεγγιστικών κοντινότερων γειτόνων στο χώρο προορισμού. Εστιάζοντας σε Ευκλείδειους χώρους, χρησιμοποιούμε τυχαίες προβολές à la Johnson Lindenstrauss προκειμένου να ανάγουμε το αρχικό πρόβλημα σε ένα πρόβλημα όπου η διάσταση του χώρου είναι αντιστρόφως ανάλογη του k. Αυτό οδηγεί σε απλές δομές δεδομένων, οι οποίες είναι αποδοτικές ως προς τον απαιτούμενο χώρο αποθήκευσης και υποστηρίζουν ερωτήματα σε υπογραμμικό χρόνο. Χρησιμοποιώντας ιδιότητες συγκεκριμένων συναρτήσεων LSH, εκμεταλλευόμαστε μια παρόμοια απεικόνιση στον χώρο Hamming. Το πρωταρχικό μας κίνητρο είναι το πρόβλημα πλησιέστερου γείτονα στον μετρικό χώρο l1, για σημεία με χαμηλή εγγενή διάσταση. Η διάσταση διπλασιασμού είναι μια καθιερωμένη έννοια εγγενούς διάστασης των σημείων. Εμβυθίσεις που διατηρούν τον κοντινότερο γείτονα υπάρχουν τόσο για l2 όσο και για l1 μετρικές, καθώς και για υποσύνολα του l2 με χαμηλή διάσταση διπλασιασμού. Προτείνουμε μια τεχνική μείωσης διάστασης που διατηρεί τον κοντινό γείτονα για υποσύνολα του l1 με χαμηλή διάσταση διπλασιασμού. Τα r-δίκτυα προσφέρουν ένα ισχυρό εργαλείο στην υπολογιστική και τη μετρική γεωμετρία, δεδομένου ότι χρησιμεύουν ως υποσύνολο καλών αντιπροσώπων: όλα τα σημεία βρίσκονται σε απόσταση r από κάποιο σημείο του r-δικτύου και όλα τα κέντρα του r-δικτύου είναι σε απόσταση τουλάχιστον r μεταξύ τους. Εστιάζουμε σε χώρους μεγάλης διαστάσεως και παρουσιάζουμε έναν νέο πιθανοτικό αλγόριθμο ο οποίος υπολογίζει αποτελεσματικά προσεγγιστικά r-δίκτυα σε Ευκλείδειους χώρους. Ο αλγόριθμός μας ακολουθεί μια πρόσφατη προσέγγιση του Valiant για τη αναγωγή του προβλήματος στην αποτίμηση πολλαπλών σημείων πολυωνύμων.Προτείνουμε απλές και αποτελεσματικές δομές δεδομένων, βασισμένες σε τυχαίες προβολές, για μια έννοια της απόστασης μεταξύ διακριτοποιημένων καμπυλών, η οποία γενικεύει την διακριτή απόσταση Fréchet και την απόσταση Dynamic Time Warping. Προσφέρουμε τις πρώτες δομές δεδομένων για την εύρεση του κοντινότερου γείτονα με αυθαίρετα καλό συντελεστή προσέγγισης, με ταυτόχρονη αύξηση του χώρου σε σχέση με τις υπάρχουσες μεθόδους. Προτείνουμε δομές δεδομένων, βασισμένες σε τυχαίες διαμερίσεις του χώρου, για την διακριτή απόσταση Fréchet όταν καμπύλες επερώτησης είναι μικρού μήκους. Οι δομές δεδομένων είναι ιδιαίτερα αποτελεσματικές όταν τα ερωτήματα είναι πολύ μικρότερα από τις πολυγωνικές καμπύλες που ανήκουν στο σύνολο δεδομένων. Επίσης, μελετάμε το πρόβλημα για αυθαίρετους μετρικούς χώρους με χαμηλή διάσταση διπλασιασμού. Η διάσταση Vapnik-Chervonenkis παρέχει μια έννοια πολυπλοκότητας για συστήματα συνόλων ή εύρους. Αναλύουμε συστήματα εύρους όπου το βασικό σύνολο είναι ένα σύνολο πολυγωνικών καμπυλών στον Ευκλείδειο χώρο και εύρη είναι μετρικές μπάλες που ορίζονται από συναρτήσεις αποστάσεων για καμπύλες, όπως η απόσταση Fréchet και η απόσταση Hausdorff. Ακολουθούν άμεσες συνέπειες εφαρμόζοντας γνωστά αποτελέσματα δειγματοληψίας.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here