Η Pinterest δεν είναι κρατική υπηρεσία πληροφοριών, αλλά αυτοχαρακτηρίζεται ως «εικονικό εργαλείο ανακαλύψεων», και έχει αναπτυχθεί ως συλλέκτης πολλών πληροφοριών. Όπως το Twitter, το Facebook, το Google, και άλλοι κολοσσοί του διαδικτύου, έτσι και το Pinterest έχει αναπτύξει έξυπνα συστήματα για την αποθήκευση δεδομένων, αλλά και ένα εργαλείο για να έχουν πρόσβαση οι υπάλληλοί της σε αυτά.

Σε ένα μπλογκ σήμερα, ο κατασκευαστής δεδομένων της Pinterest, Mohammad Shahangian, έριξε άπλετο φως στην «πλατφόρμα self-serve» που αυτός και οι συνάδελφοί του δημιούργησαν για την πρόσβαση σε δεδομένα στα συμπλέγματα Hadoop της Pinterest, που βρίσκονται στο δημόσιο cloud της Amazon Web Services.

Το σύστημα αποθήκευσης «μας επιτρέπει να τοποθετούμε το πιο σχετικό και πρόσφατο περιεχόμενο στους χρήστες μας μέσω διάφορων επιλογών όπως τα σχετικά Pins, η κατευθυνόμενη αναζήτηση και η προσπέλαση εικόνων», έγραψε ο Shahangian. «Δίνει επίσης την δυνατότητα καθημερινών μετρήσεων και μας επιτρέπει να αναλύουμε και να πειραματιζόμαστε με κάθε αλλαγή που αφορά τους χρήστες».

Αλλά αυτό το εργαλείο της ομάδας είναι κάτι πολύ περισσότερο από μιας ευρέως χρησιμοποιούμενη τεχνολογία Hadoop ανοιχτού κώδικα για την αποθήκευση και ανάλυση διάφορων ειδών δεδομένων. Είναι το είδος που άλλες εταιρίες θα ήθελαν να δοκιμάσουν, έτσι ώστε πολλοί υπάλληλοι σε πολλά τμήματα να μπορούν να χρησιμοποιούν δεδομένα για να βελτιώσουν τα προϊόντα τους και να λαμβάνουν καλύτερες αποφάσεις. Αυτή η σκέψη έχει αποκτήσει ισχύ καθώς startups όπως οι Platfora και Trifacta κέρδισαν χρηματοδότηση ενώ προσπαθούν να απλοποιήσουν διάφορα επίπεδα ανάλυσης δεδομένων Hadoop.

Χάρη στις προσπάθειες του Shahangian και της ομάδας του, διάφοροι στο Pinterest μπορούν να δημιουργήσουν συμπλέγματα Hadoop για διαφορετικές χρήσεις. Με αυτόν τον τρόπο αξιόλογοι επιστήμονες δεδομένων της Pinterest μπορούν να εμβαθύνουν σε άλλα θέματα εκτός από τα λαμβάνουν δεδομένα από το Hadoop για τους συνεργάτες τους.

Και αν αναρωτιέστε πόσα δεδομένα έχει η Pinterest, η εταιρία λαμβάνει καθημερινά 20 ΤΒ νέων δεδομένων, και σχεδόν 10 ΡΒ βρίσκονται ήδη για μόνιμη αποθήκευση στο S3 της Amazon.

Και η μόδα τώρα είναι οι Pinners να επεξεργάζονται όλο και περισσότερα δεδομένα στο Hadoop.