
Υπολογιστική μελέτη της δομής και της οργάνωσης των συντηρημένων μη εκφραζομένων στοιχείων (CNE) στα ευκαρυώτικα γονιδιώματα ως εργαλείο διερεύνησης της πιθανής λειτουργίας και της εξελικτικής δυναμικής τους
Author(s) -
Δημήτριος Πολυχρονόπουλος
Publication year - 2021
Language(s) - English
Resource type - Dissertations/theses
DOI - 10.12681/eadd/44031
Subject(s) - computer science
Η αλληλούχηση και συγκριτική ανάλυση πολλών γονιδιωμάτων θηλαστικών κατέδειξε ότι τουλάχιστον ένα 5.5% του ανθρώπινου γονιδιώματος βρίσκεται κάτω από επιλεκτική πίεση κατά την εξελικτική πορεία του. Από αυτό, το 1.5% εκτιμάται ότι κωδικοποιεί πολυπεπτιδικές αλυσίδες ενώ το 3.5% φαίνεται πως παίζει ρυθμιστικό ρόλο. Εν τούτοις, ο βαθμός κατανόησής μας για τους ρόλους που επιτελεί μεγάλο μέρος του συντηρημένου DNA που δεν κωδικοποιεί πρωτεΐνες ποικίλει. Μία από τις σημαντικότερες ανακαλύψεις που προέκυψαν από την ολική στοίχιση γονιδιωμάτων θηλαστικών ήταν η ταυτοποίηση εκατοντάδων «υπερσυντηρημένων»στοιχείων (UltraConserved Elements, UCE) μήκους άνω των 200 bp τα οποία δείχνουν απόλυτη(100%) συντηρητικότητα μεταξύ των γονιδιωμάτων του ανθρώπου, του ποντικού και του αρουραίου. Ένα στα τέσσερα από αυτά τα στοιχεία επικαλύπτουν μερικώς γνωστά γονίδια που κωδικοποιούν πρωτεΐνες. Παρόλα αυτά, τόσο υψηλό βαθμό συντηρητικότητας (100%) δεν αναμένουμε ούτε για εξώνια γονιδίων, λόγω του εκφυλισμού του γενετικού κώδικα. Από τότε που ανακαλύφθηκαν τα UCE έγιναν προσπάθειες για τον εντοπισμό συντηρημένων στοιχείων σε ολικές στοιχίσεις γονιδιωμάτων δύο ή περισσοτέρων ειδών, με κριτήριο χαμηλότερο κατώφλι ομοιότητας και διαφορετικά κατώφλια ελάχιστου μήκους της συντηρημένης ακολουθίας. Επιπλέον, χρησιμοποιήθηκε ως κριτήριο αποκλεισμού στοιχείων, η παρουσία τους μέσα σε γονίδια που κωδικοποιούν πρωτεΐνες. Στην παρούσα διατριβή χρησιμοποιούμε συγκεντρωτικά τον όρο Συντηρημένα Μη Εκφραζόμενα Στοιχεία (Conserved Noncoding Elements, CNE) παρά το γεγονός ότι στη βιβλιογραφία αναφέρονται και ως UCEs, UCNEs, HCNEs, LCNEs, CNGs,κλπ. Όταν αναφερόμαστε σε μια συγκεκριμένη τάξη στοιχείων τότε χρησιμοποιούμε την εκάστοτε ονομασία.Τα CNE δεν είναι καινοτομία των σπονδυλωτών γιατί ανάλογα στοιχεία ανιχνεύονται και στα γονιδιώματα ασπονδύλων, καθώς και φυτών μέσω στοιχίσεων μεταξύ μελών της εκάστοτε ταξινομικής ομάδας. Εντούτοις, στο σχετικά πρόσφατο εξελικτικό παρελθόν των γονιδιωμάτων των σπονδυλωτών, το μέσο μήκος και ο βαθμός συντηρητικότητας των CNE παρατηρούνται να έλαβαν μεγαλύτερες τιμές, σχετικά με τις άλλες ταξινομικές ομάδες, ενώ οι ρόλοι που φαίνεται ότι απέκτησαν είναι ιδιαίτερα σημαντικοί.Τα CNE φαίνεται πως δεν κατανέμονται τυχαία στο ανθρώπινο και σε άλλα γονιδίωματα. Mάλιστα, κατά ένα ποσοστό, συναθροίζονται κοντά σε γονίδια που εμπλέκονται στη ρύθμιση της μεταγραφής ή/και γενικότερα, στην ανάπτυξη. Χρησιμοποιώντας ανάλυση μικροσυστοιχιών έγινε γνωστό ότι ένα μεγάλο ποσοστό μη κωδικοποιούντων UCE εμφανίζουν ιστοειδικά επίπεδα έκφρασης (σε επίπεδο λειτουργικού RNA), ενώ απορρυθμίζονται σε ορισμένα είδη καρκίνου. Οι γονιδιακές έρημοι είναι συνήθως εμπλουτισμένες σε CNE ενώ, στα γονιδιώματα θηλαστικών, η πλειοψηφία αυτών των στοιχείων ευρίσκεται σε μεγάλες αποστάσεις από τα πλησιέστερα γονίδια. Έχει δημοσιευτεί πληθώρα μελετών που προτείνουν ότι τα CNE βρίσκονται όντως υπό επιλεκτική πίεση κατά την εξέλιξή τους και δεν αποτελούν σημεία με χαμηλότερο ρυθμό μεταλλάξεων (mutational cold spots). Παρά ταύτα, λίγα είναι γνωστά για το ποιά είναι η λειτουργία τους σε κυτταρικό επίπεδο. Μελέτες δείχνουν ότι ενδεχομένως δρουν ως ρυθμιστές της μεταγραφής, δηλαδή ως ενισχυτές ή μονωτές, ωστόσο τα περισσότερα (με μία εξαίρεση) invivo πειράματα σε ποντίκια, όπου γίνεται αφαίρεση κάποιων από αυτά τα στοιχεία, δε δίνουν κάποιο ορατό φαινοτυπικό αντίκτυπο, κάνοντας ακόμα πιο πολύπλοκη την όποια ερμηνεία βιοχημικών και υπολογιστικών πειραμάτων. Έχει επίσης διατυπωθεί μια εναλλακτική υπόθεση,σύμφωνα με την οποία τα CNE μεταφέρονται οριζόντια μεταξύ γενεών και συσσωρεύονται κατά τη μακρά εξελικτική πορεία. Σε μια μελέτη, επιπλέον, προτάθηκε ότι κάποια CNE ενδεχομένως δρουν ως περιοχές πρόσδεσης στον πυρηνικό φάκελο (Matrix Attachment Regions, MARs) διαδραματίζοντας το ρόλο αλληλουχιών που ρυθμίζουν την αρχιτεκτονική της χρωματίνης μέσω εξειδικευμένης πρόσδεσης συγκεκριμένων πρωτεϊνών. Τα CNE έχει αναφερθεί, μάλιστα, ότι εμπλέκονται στη φαινοτυπική ποικιλομορφία και σε ποικιλία ασθενειών κυρίως σχετιζόμενων με αναπτυξιακές διαδικασίες. Στην παρούσα διατριβή επιχειρήσαμε να αναλύσουμε την χωροταξική οργάνωση των Συντηρημένων Μη Εκφραζομένων Στοιχείων (CNE) σε γονιδιώματα σπονδυλωτών και ασπόνδυλων, με σκοπό να διαπιστώσουμε αν μπορούμε να εξάγουμε κάποια συμπεράσματα για το πώς εξελίχθησαν αυτές οι αλληλουχίες με βάση την κατανομή τους στα χρωμοσώματα. Διαπιστώσαμε ότι οι αποστάσεις αυτών ακολουθούν κατανομές τύπου νόμου δύναμης σε μια ποικιλία γονιδιωμάτων. Τέτοιου τύπου κατανομές συνδέονται με συσχετίσεις μακράς εμβέλειας και μορφοκλασματικότητα (έννοιες που έχουν προταθεί για τη στερεοδιαμόρφωση της δομής της χρωματίνης του πυρήνα) και φαίνεται ότι απαντώνται πολύ συχνά στο γονιδίωμα, όπως προκύπτει από τη μελέτη διαφόρων στοιχείων του, σε πληθώρα οργανισμών. Δεδομένου ότι τα CNE σχετίζονται χωρικά με γονίδια, ειδικά με αυτά που ρυθμίζουν αναπτυξιακές διαδικασίες,επιβεβαιώσαμε ότι ένα πρότυπο νόμου δύναμης διατηρείται ανεξάρτητα από το εάν συμπεριληφθούν στοιχεία που βρίσκονται εντός ή εκτός γονιδίων. Όσο πιο «αρχαία» είναι αυτά τα στοιχεία τόσο πιο εκτεταμένες γραμμικότητες δίνουν σε διπλή λογαριθμική κλίμακα, δηλαδή τόσο πιο πολύ συμβάλουν στις παρατηρούμενες κατανομές. Προτείναμε ένα εξελικτικό μοντέλο για την κατανόηση αυτών των ευρημάτων που περιλαμβάνει γεγονότα τμηματικών διπλασιασμών ή διπλασιασμών ολόκληρου του γονιδιώματος και απαλοιφές των περισσοτέρων από τα διπλασιασμένα CNE. Προσομοιώσεις που πραγματοποιήσαμε αναπαράγουν τα κύρια χαρακτηριστικά των παρατηρουμένων κατανομών μεγέθους. Με βάση τα παραπάνω ευρήματα, προχωρήσαμε και σε έναν άλλο τύπο ανάλυσης της χρωμοσωμικής κατανομής των CNE, με χρήση μεθόδων κλιμάκωσης εντροπίας Shannon(Shannon entropy scaling) και εγκιβωτισμού (box counting) που έχουν αναπτυχθεί στο εργαστήριο. Οι συγκεκριμένες μέθοδοι κάνουν εκτίμηση των χαρακτηριστικώνμορφοκλασματικότητας σε ένα σύνολο δεδομένων και έχουν χρησιμοποιηθεί για τη μελέτη της κατανομής άλλων στοιχείων του γονιδιώματος, όπως είναι οι κωδικοποιούσες αλληλουχίες και τα μεταθετά στοιχεία. Ενδείκνυνται για τη μελέτη της κατανομής των CNE ειδικότερα, διότι τα τελευταία έχει προταθεί μέσω πειραμάτων 3C (Chromosome Conformation Capture) ότι αλληλεπιδρούν μεταξύ τους και συνεπώς ενέχονται πιθανόν σε συσχετίσεις μακράς εμβέλειας. Παρατηρήσαμε ενδιαφέροντα πρότυπα κατανομής, χαρακτηριστικά των διαφόρων κλάσεωνCNE, που διαφοροποιούνται σύμφωνα με το εξελικτικό βάθος συντηρητικότητας των εκάστοτε στοιχείων. Τα CNE παρουσιάζουν ενδιαφέρουσες ιδιότητες σύστασης και γι’αυτό επιχειρήσαμε να δούμε αν μπορούν να κατηγοριοποιηθούν με βάση αυτές τους τις ιδιότητες. Πιο συγκεκριμένα είναι γενικά αλληλουχίες πλούσιες σε A+T ενώ περιβάλλονται από περιοχές χαμηλού Α+Τ. Προσπαθήσαμε, λοιπόν, να ταξινομήσουμε στοιχεία που βρίσκονται υπό επιλεκτική πίεση(εξώνια και CNE) με δύο μεθόδους μηχανικής μάθησης: «Γραφήματα Ν-γραμμάτων» (N-GramGraphs, NGGs) και «Ανάλυση κ-μερών» (Logic Alignment Free, LAF). Διαπιστώσαμε ότι και με τις δύο μεθόδους, που για πρώτη φορά εφαρμόστηκαν στα πλαίσια ανάλυσης γονιδιωματικών δεδομένων, είναι εφικτή η κλασμάτωση αλληλουχιών του γονιδιώματος (CNE, εξώνια) σε διαφορετικές κατηγορίες μεταξύ γονιδιωμάτων ή εντός του ίδιου γονιδιώματος.Χρησιμοποιήσαμε στις αναλύσεις / συγκρίσεις μας κατάλληλες αναπληρωματικές αλληλουχίες που απομονώνονταν από το εκάστοτε γονιδίωμα έτσι ώστε να έχουν ίδιο μήκος και ποσοστόGC% με τις υπό μελέτη αλληλουχίες μας (CNE / εξώνια). Συγκρίναμε τα αποτελέσματα ταξινόμησης που πήραμε και από τις δύο μεθόδους με μια άλλη ευρέως διαδεδομένη προσέγγιση διαχωρισμού ολόκληρων γονιδιωμάτων που αναφέρεται ως «Γονιδιωματικές Υπογραφές»(Genomic Signatures, GS). Η μελέτη μας αυτή ήταν η πρώτη εφαρμογή των «Γονιδιωματικών Υπογραφών» στην κατάταξη μικρών βιολογικών αλληλουχιών μεγέθους 95% και έως 100%) μεταξύ στοιχίσεων γονιδιωμάτων ανθρώπου / κοτόπουλου φαίνεται πως συνιστούν μια διακριτή κατηγορία υπερσυντηρημένων στοιχείων που επιτελεί λειτουργίες που μένει να ανακαλυφθούν. Το εντυπωσιακό αυτό ποσοστό συντηρητικότητας είναι ακόμα μεγαλύτερο από αυτό που παρατηρείται στα εξώνια(συγκρίνοντας τους δύο αυτούς οργανισμούς, άνθρωπο - κοτόπουλο), ενώ δεν είναι γνωστή κάποια λειτουργία στη φύση, που να απαιτεί τόσο υψηλό βαθμό ομοιότητας σε επίπεδο αλληλουχίας.