Πώς τα big data αλλάζουν το πώς μελετάμε τις γλώσσες

07/08/2014 | |

Τα Big data εμπλουτίζουν τον τομέα των γλωσσών, αλλά η πρόσβαση δεδομένων πρέπει να ανοίξει περισσότερο ακαδημαϊκά για να ελέγχονται οι αριθμοί σωστά.Μιλούν οι γυναίκες περισσότερο από τους άντρες; Πώς ποικίλει ο τρόπος ομιλίας ανάλογα

τοφύλο και την ηλικία; Έχουν γίνει οι προτάσεις στα επίσημα γραπτά αγγλικά μικρότερες και απλούστερες τα τελευταία εκατό χρόνια;

Χρησιμοποιώντας ψηφιακές πηγές, μπορούμε να λάβουμε απαντήσεις σε ερωτήσεις όπως αυτές σε λίγα μόνο λεπτά.Από γλωσσολογική άποψη, τα άπειρα ψηφιακά αρχεία κειμένων και λόγων, με τις τεχνικές ανάλυσης και τους ανέξοδους υπολογισμούς, φαίνονται σαν ένα θαυμάσιο νέο επιστημονικό εργαλείο, αντίστοιχο του τηλεσκοπίου και του μικροσκοπίου του 17^ου αιώνα. Μπορούμε να μελετούμε τώρα τις γλωσσολογικές εκφάνσεις στον τόπο, χρόνο και πολιτιστικό συγκείμενο, σε μια κλίμακα 3-6 μεγαλύτερου μεγέθους από ότι στο παρελθόν, και με περισσότερες λεπτομέρειες επίσης.

Βέβαια, οι παρατηρήσεις μας μπορεί να μην είναι αληθινές ή γενικές, επειδή βασίζονται στην καταμέτρηση αντικειμένων σε συγκεκριμένες βάσεις δεδομένων με συγκεκριμένα χαρακτηριστικά. Το ίδιο πρόβλημα ισχύει όμως ακόμη περισσότερο για τις απαντήσεις που παίρνουμε με οποιαδήποτε άλλη μέθοδο. Και όσο έχουμε δεδομένα από μια ποικιλία διαφορετικών καταστάσεων - από προσωπικές συζητήσεις και συνεντεύξεις στα ΜΜΕ μέχρι συζητήσεις σε σχολικές αίθουσες κτλ – είναι εύκολο να δει κανείς πόσο γενικά είναι τα αποτελέσματά μας.

Τουλάχιστον είναι εύκολο αν τα ψηφιακά δεδομένα είναι προσβάσιμα. Ευτυχώς, έχουμε τώρα πρόσβαση σε πολλά σχετικά γλωσσολογικά δεδομένα. Αυτό εν μέρει γίνεται επειδή πολλές από τις επικοινωνίες μας γίνονται μέσω συσκευών. Αλλά γίνεται επίσης λόγω βάσεων γλωσσολογικών δεδομένων που έχουν διαμοιραστεί, που παίζουν σημαντικό ρόλο στην έρευνα πίσω από την τεχνολογία και την επιστήμη της γλωσσολογίας.

Αυτό έχει οδηγήσει σε διάφορες σημαντικές επιπτώσεις στην επιστήμη και τις ανθρωπιστικές επιστήμες. Το πιο σημαντικό είναι ότι τώρα έχουμε τους αλγόριθμους για την αυτόματη ανάλυση κειμένου και λόγου, αλγόριθμοι που μπορούν να εφαρμοστούν σε ακόμη μεγαλύτερα ψηφιακά αρχεία που αναδύονται τώρα. Άλλο ένα σημαντικό αποτέλεσμα είναι η αξία της επαναλήψιμης έρευνας στα προσβάσιμα δεδομένα.

Όταν οι βάσεις δεδομένων αναζήτησης είναι έτοιμες, θα υπάρχει περισσότερη αναζήτηση επειδή τα όρια εισόδου είναι χαμηλότερα. Όταν οι βάσεις δεδομένων αναζήτησης έχουν διαμοιραστεί, η αναζήτηση είναι καλύτερη, γιατί τα αποτελέσματα μπορούν να αναπαραχθούν, και οι αλγόριθμοι και οι θεωρίες μπορούν να συγκριθούν. Επιπλέον, βάσεις δεδομένων που έχουν διαμοιραστεί είναι συνήθως μεγαλύτερες και πιο ακριβές από όσο θα μπορούσε να αντέξει ένας ερευνητής. Και όταν οι βάσεις δεδομένων συνδέονται με σωστές ερωτήσεις αναζήτησης, ο όλος τομέας γίνεται καλύτερος, γιατί οι άνθρωποι εργάζονται σε «κοινές εργασίες», δημιουργούν μια κοινότητα πρακτικής μέσα στην οποία οι ιδέες και τα εργαλεία κυκλοφορούν γρηγορότερα.

Μπορούμε να ονομάσουμε αυτή τη διαδικασία ως αναμόρφωση δεδομένων, επειδή δίνει έμφαση στη διάδοση της πρόσβασης χωρίς μεσάζοντα σε πρωταρχικό υλικό που είναι αναγκαίο για τον εντοπισμό της αλήθειας. Πιο γνωστά ονόματα για την τάση αυτή είναι τα ανοιχτά δεδομένα και οι αναπαραγώγιμες κινήσεις αναζήτησης. Με οποιοδήποτε όνομα, αυτή η τάση αυξάνει τα ψηφιακά δεδομένα, στα οποία έχουν πρόσβαση πάρα πολλοί ερευνητές σε όλον τον κόσμο.