16 Δεκέμβριος 2017

Η Ancestry.com βασίζεται στην μεγάλη διαθεσιμότητα της MapR για να λειτουργεί τον αγωγό πληροφοριών DNA συνεχώς και αδιάκοπα

Η εταιρεία

Η Ancestry.com, η μεγαλύτερη ιστοσελίδα αναζήτησης πληροφοριών για οικογενειακά δέντρα, χρησιμοποιεί το machine learning και άλλες τεχνικές στατιστικής για να παρέχει υπηρεσίες όπως πληροφορίες για την καταγωγή μας και ακολουθίες DNA στους χρήστες της.

Η πρόκληση


Σύμφωνα με τον διευθύνοντα σύμβουλο τεχνολογίας, Scott Sorensen, η Ancestry.com έχει πάνω από 12 δισεκατομμύρια αρχεία που είναι μέρος της αποθήκης δεδομένων της, χωρητικότητας 10 PB (ή 10 εκατομμύρια GB). Αν αναζητάτε τον «Τζον Σμιθ», ανέφερε, θα σας βρει περίπου 80 εκατομμύρια αποτελέσματα για το «Σμιθ» και άλλα 4 εκατομμύρια για το «Τζον Σμιθ», αλλά εσείς ενδιαφέρεστε μόνο για τα 4 εκατομμύρια από αυτά. Για την Ancestry.com, τα δεδομένα τους είναι η στρατηγική τους. Όπως εξηγεί ο Sorensen, υπάρχουν πέντε θεμελιώδεις τρόποι να γίνει χρήση των δεδομένων για ενίσχυση της εμπειρίας των πελατών. Αυτά συμπεριλαμβάνουν:

- Με περισσότερες από 30.000 συλλογές αρχείων που περιλαμβάνουν γεννήσεις, θανάτους, άλλα δημογραφικά στοιχεία, στρατιωτικά και μεταναστευτικά στοιχεία, ψάχνουν σε αυτά τα δεδομένα χρησιμοποιώντας λειτουργίες στη συμπεριφορά αναζήτησης για να δουν τι ακριβώς ζητούν οι παραπάνω από 2 εκατομμύρια εγγεγραμμένοι χρήστες ή οι δεκάδες εκατομμύρια απλοί χρήστες. Για παράδειγμα, μόνο κάποιοι χρήστες θα ενδιαφέρονταν για τα νέα δημογραφικά στοιχεία του Μεξικού.

- Ψάχνουν στα δεδομένα τους για να παρέχουν τη σωστή κατεύθυνση ανάπτυξης προϊόντος στην ομάδα που ασχολείται με το προϊόν. Η ανάλυση της συμπεριφοράς αναζήτησης μπορεί να μας δείξει που μπορεί να έχει κολλήσει ένα εγγεγραμμένος χρήστης ή που έχει αφήσει την υπηρεσία, και έτσι να δημιουργηθεί νέο περιεχόμενο.

- Βασίζονται σε αποθήκες big data για να αναπτύξουν νέες στατιστικές προσεγγίσεις σε αλγοριθμική ανάπτυξη, όπως η σύνδεση των στοιχείων και η σχετικότητα των αλγορίθμων με την αναζήτηση. Σήμερα, ο τεράστιος αριθμός των ευρημάτων καθορίζεται από τα στοιχεία της Ancestry.com που συνδέονται μεταξύ τους στρατηγικά, αλλά και από την προηγούμενη συμπεριφορά αναζήτησης (π. χ. ο Charles ‘Westman’ είναι το ίδιο πρόσωπο με τον Charles ‘Westmont’). Δύο χρόνια πριν, η πλειοψηφία των ευρημάτων βασιζόταν σε απλή αναζήτηση από τους χρήστες μόνο.

- Αναπτυγμένα δεδομένα από εγκληματολογικά κέντρα χρησιμοποιούνται στα δεδομένα για λόγους ασφαλείας για να είναι σίγουροι για την ορθή χρήση των δεδομένων.

- Η γονοτύπηση του DNA για την παροχή πληροφοριών για την γενετική γενεαλογία είναι μια νέα επιστήμη. Οι πελάτες τοποθετούν σάλιο σε ένα σωληνάριο, το στέλνουν στη Ancestry.com, και γίνονται έπειτα μοριακά τεστ και αναλύσεις μέσω υπολογιστή για να προβλεφθεί η καταγωγή, η εθνικότητα και να εντοπιστούν συγγενείς στην βάση δεδομένων. Για κάθε πελάτη της Ancestry.com που στέλνει DNA, 700.000 πολυμορφισμοί μονού νουκλεοτιδίου (δηλαδή διάφορες περιοχές του  DNA) μετρώνται και αναλύονται, οδηγώντας σε 10 εκατομμύρια προβλέψεις για πιθανά ξαδέρφια.

Η λύση της MapR

Ένα μέρος των δεδομένων της Ancestry.com περνά από τρία συμπλέγματα χρησιμοποιώντας την MapR, όπως την κατανομή Hadoop. Το ένα σύμπλεγμα είναι για τον εντοπισμό των DNA που ταιριάζουν, το άλλο, που μόλις κατασκευάστηκε, είναι για την έρευνα σε δεδομένα. Η παράλληλη μαζική κατανεμημένη επεξεργασία είναι απαραίτητη για να ερευνηθούν τα 10 ΡΒ δεδομένων και οι τεράστιες ποσότητες δεδομένων DNA. Η Ancestry.com έχει κάποιες δουλειές και θέλει να λειτουργεί τον αγωγό πληροφοριών για το DNA συνεχώς χωρίς διακοπές, για αυτό χρειάζεται μεγάλη διαθεσιμότητα. Η μεγάλη διαθεσιμότητα λοιπόν της MapR έδωσε τη δυνατότητα στην εταιρεία να λειτουργεί διαφορετικές δυνατότητες στο ίδιο σύμπλεγμα. Είναι επίσης ικανοποιημένοι με την αποδοτικότητα του MapR, και με την ικανότητα να γίνονται όλα γρήγορα στο γραφικό περιβάλλον του χρήστη και υπό τις ρυθμίσεις του πελάτη.