culturome, culturomics

nickel · Dec 19, 2010

Με έχει συνεπάρει αυτή η υπόθεση με την μετατροπή των Google books σε σώμα κειμένων, κάτι που θα γινόταν αργά ή γρήγορα, απλώς δεν ξέραμε ποια θα ήταν η συγκεκριμένη εφαρμογή. Όπως θα αντιληφθήκατε από την αναφορά που έχει ήδη γίνει εδώ, η αξιοποίηση του τεράστιου σώματος κειμένων από τα σκαναρισμένα βιβλία του Google έδωσε τώρα μια ανάλυση του πολιτιστικού γονιδιώματος ορισμένων γλωσσών, με πρώτη και κύρια την αγγλική. Ήδη έχουν γραφτεί αρκετά για το θέμα και θα γραφτούν περισσότερα. Ενδιαφέρον έχει το άρθρο στην εφημερίδα Guardian:
http://www.guardian.co.uk/science/2010/dec/16/google-tool-english-cultural-trends

Το αποτέλεσμα μπορείτε να το δοκιμάσετε εδώ:
http://ngrams.googlelabs.com/

Είμαι βέβαιος ότι οι λεξικογράφοι του OED και των άλλων μεγάλων λεξικών έχουν ήδη κατεβάσει από εδώ τις λεξικές μονάδες και προσπαθούν να καταλάβουν αν καλώς δεν περιλαμβάνουν στα λεξικά τους τις μισές λέξεις της αγγλικής γλώσσας (το deletable κακώς λείπει —μέχρι και ο ορθογράφος του Firefox το ξέρει— και, με την ευκαιρία, ας προσθέσουν και το undeletable — και τα δύο υπάρχουν στις μνήμες της Microsoft):

In their initial analysis of the database, the team found that around 8,500 new words enter the English language every year and the lexicon grew by 70% between 1950 and 2000. But most of these words do not appear in dictionaries. "We estimated that 52% of the English lexicon – the majority of words used in English books – consist of lexical 'dark matter' undocumented in standard references."

Στην εποχή μας ισχύει ακόμα περισσότερο το Sic transit gloria mundi:

"People are getting more famous than ever before," wrote the researchers, "but are being forgotten more rapidly than ever."

Διαβάζω επίσης:

This refinement of the database would be possible, he said, but there is a problem for most of the works published in the 20th century because they are still in copyright.

Θα έπρεπε με νόμο, όπως κάθε εκδότης καταθέτει αντίτυπα ενός βιβλίου του στην Εθνική Βιβλιοθήκη, να καταθέτει και ένα ποσοστό 10% από το ψηφιακό περιεχόμενο του βιβλίου του σε κάποιο κέντρο ερευνών. Έτσι και με τα Γκουγκλοβιβλία: αν υπάρχει το σύνολο των βιβλίων του περασμένου αιώνα σε ψηφιακή μορφή και μπορούμε να χρησιμοποιήσουμε το 10% για έρευνα, τα αποτελέσματα θα είναι αξιόπιστα.

Θα επανέλθω και με άλλα ενδιαφέροντα σημεία της μελέτης, αλλά προς το παρόν θα ήθελα να δούμε την απόδοση των δύο όρων του τίτλου. Όπως έχουμε το genome > γονιδίωμα, αυτή η ψηφιακή καταγραφή του πολιτισμού μας μέσα από τα βιβλία ονομάστηκε culturome, δημιουργήθηκε επίθετο culturomic (π.χ. culturomic analysis) και:
«Culturomics is the application of high-throughput data collection and analysis to the study of human culture. Books are a beginning, but we must also incorporate newspapers (29), manuscripts (30), maps (31), artwork (32), and a myriad of other human creations (33, 34). Of course, many voices – already lost to time – lie forever beyond our reach».

Έχουμε πει ότι για τα -omics έχουμε την -ωματική (αφού πρώτα έχουμε το -ωμα για το -ome). Πείτε λοιπόν πού καταλήγουμε για την απόδοση αυτών των όρων. Πολιτίσμωμα; Πολιτισμωματική;

daeman · Dec 19, 2010

Πάλι καλά που (σχεδόν) γλιτώσαμε το γένωμα για το genome και το λένε πια οι περισσότεροι γονιδίωμα και τη γενωμική/γενομική για το genomics, τη γονιδιωματική.
Ωστόσο, για να είμαι ειλικρινής, στα δικά μου αυτιά τουλάχιστον, το πολιτίσμωμα δεν κάθεται και πολύ καλά (το πείσμωμα δεν είναι μακριά) και η πολιτισμωματική δεν έχει καλύτερη θέση*. Αλλά δεν έχω να προτείνω καλύτερο, εκτός αν συνθέσουμε με βάση την κουλτούρα, που όμως έχει βεβαρημένο παρελθόν (ιδίως η βαριά

.

-Κουλτούρωμα;
-Άσε καλύτερα, είναι βαρύ για βραδινό.

*-Ν' αρχίσω να το λέω, μπας και το συνηθίσω, γιατρέ;
-Ναι, παιδί μου, δεκάκις πριν από κάθε γεύμα και πεντάκις προ της κατακλίσεως.

drsiebenmal · Dec 19, 2010

Αν πρέπει να φτιάξουμε τέτοιους όρους, θα πρότεινα να προσθέσουμε ένα -ι- από το πουθενά, που όμως συνδέει με το γονιδίωμα και κάνει πιο εύηχο το αποτέλεσμα: πολιτισμίωμα και πολιτισμιωματική.

Leximaniac · Dec 19, 2010

Δεν ξέρω αν θα πρέπει να απαντήσω εδώ ή στο άλλο νήμα που αναφέρεις Nickel αλλά ο Mark Davies έχει κάνει μια ενδιαφέρουσα σύγκριση του σώματος κειμένων του Google Books και του σώματος κειμένων COHA. Μπορείτε να δείτε όλο το άρθρο εδώ, εγώ απλά θα σας παραθέσω συνοπτικά τις «ελλείψεις» του Google Books (GB):

GB can't use wildcards to search for parts of words.
GB can't limit by part of speech.
As consequence of this last limitation GB can't look at change in grammar or construction.
GB can't find collocates of a word and hence can't provide insight into cultural & societal shifts.
GB can't search for concepts; just for strings of words.
GB is unaware of gender and how change spreads from one gender to another.
GB often thinks that a book is from a given decade when in fact it's not -- it's just talking about that decade

Βέβαια είναι φυσικό ο Mark Davies να ευλογεί τα γένια του (τόσο για το COHA όσο και το COCA) όπως επίσης είναι φυσικό να υπάρχουν ελλείψεις στην αρχή ενός τέτοιου έργου.

Δεν είναι όμως μόνο ο Davies που έχει κάποιες αμφιβολίες ή προβάλλει κάποιες ελλείψεις. Μπορείτε να δείτε στη σελίδα του Lousy Linguist μια περίληψη για όλα τα σχόλια που εμφανίστηκαν γιαυτό το έργο. Η σελίδα του "ngram roundup" βρίσκεται εδώ. Για να μην λέμε όμως μόνο τα αρνητικά, ο Geiffrey Nunberg της Chronicle αναφέρει ότι αυτό το εργαλείο μπορεί να βοηθήσει μαθητές/φοιτητές να δουν πώς η τεχνολογία μπορεί να μας δείξει πράγματα τα οποία δεν είχαμε καν φανταστεί. Όλο το άρθρο του μπορείτε να το βρείτε εδώ. Εγώ θα κρατήσω στα θετικά αυτό που λέει, δηλαδή, ότι

for some—especially students, I imagine—it will be a kind of gateway drug that leads to more-serious involvement in quantitative research.

Όπως και να 'χει είναι άλλο ένα σώμα κειμένων και όπως κάθε σώμα κειμένων έχει κάποιους περιορισμούς (στην συγκεκριμένη περίπτωση περιέχει μόνο βιβλία και όχι περιοδικά, διαφημίσεις κτλ κτλ). Παρά τις όποιες ελλείψεις/προβλήματα δεν παύει να είναι άλλο ένα καλό εργαλείο για τις όποιες αναζητήσεις μας :)

nickel · Dec 20, 2010

Ευχαριστούμε. Έγινε πιο σφαιρική έτσι η πληροφόρησή μας.

Συχνά βρίζω το Γκουγκλ, που με τα πειράματα του σε σχέση με τη μετάφραση από τη μια, τις διαφημιστικές σκοπιμότητές του από την άλλη, έχει αφήσει εγχειρήματα σαν το worldlingo να μαγαρίζουν τα όποια ευρήματα με τις μηχανικές τους μεταφράσεις. Ξέρουμε ωστόσο ότι η μηχανική μετάφραση είναι ένα τεράστιο πείραμα που, ακόμα κι αν φοβίζει τους επαγγελματίες μεταφραστές, δίνει κάποιες ευκολίες σήμερα και θα είναι μια ευλογία για την ανθρωπότητα μεθαύριο. Πολλές βελτιώσεις θα γίνουν στο χώρο της μηχανικής μετάφρασης και κάποια στιγμή θα δοθεί και στους γκρινιάρηδες η δυνατότητα να κάνουν αναζητήσεις χωρίς ευρήματα από μηχανικά μεταφρασμένες σελίδες.

Παράλληλα θα βελτιωθεί και η αναζήτηση εικόνων. Ξέρουμε ότι είναι ακόμα στα σπάργανα, ότι στις 10 εικόνες η μία είναι σχετική. Όμως, πόσο μεγάλη ευκολία! Και πόσο μεγαλύτερη όταν σιγά σιγά οι εικόνες φτάσουν να συνδεθούν με λέξεις-κλειδιά.

Έτσι και με τα Γκουγκλοβιβλία σαν σώμα κειμένων. Όποιος ξέρει δυο πράγματα για τα χαρακτηρισμένα σώματα κειμένων καταλαβαίνει ότι δεν μπορεί να χρησιμοποιήσει τη συλλογή των σκαναρισμένων βιβλίων του Γκουγκλ με τον ίδιο τρόπο που θα χρησιμοποιήσει μια επιστημονικά καταρτισμένη βάση.

Ένα πείραμα έγινε που γέμισε λίγες σελίδες στο Science και πολλές συζητήσεις στο διαδίκτυο. Ξέρουμε όμως ότι υπάρχουν τεράστιοι πόροι πίσω απ’ αυτά, είδαμε πού έφτασε το φαινόμενο Wikipedia, είδαμε στα Captcha να μας βάζουν να βοηθάμε στην αναγνώριση κειμένων, μεθαύριο θα σου δίνουν πρόταση από βιβλίο και σε ρωτάνε τι μέρος λόγου είναι το chicken στο chicken feed και όταν θα απαντάς θα μπορείς να διαβάσεις το άρθρο στην Times, η οποία θα εισπράττει από την Γκουγκλ χι δολάρια για κάθε 1000 αναγνωρίσεις που θα της κάνει, για να μπορεί η Γκουγκλ να πουλάει στους χρήστες της βελτιωμένα ευρήματα. Ή κάποιο άλλο τέτοιο πάρε-δώσε.

Ο κόσμος δεν συζήτησε το πείραμα επειδή το θεώρησε κάτι καλύτερο από τα επιστημονικά σώματα κειμένων, αλλά γιατί αντιλαμβανόταν ότι ανεβήκαμε άλλο ένα σκαλί σε μια σκάλα που δεν ξέρουμε πού ακριβώς μας πηγαίνει — πάντως μας πηγαίνει.

Costas · Dec 20, 2010

Στην πραγματικότητα, μετράνε και μελετάνε λέξεις, όχι κουλτούρα. Μήπως επομένως δεν είναι υποχρεωτικό να ακολουθήσουμε τη δική τους λέξη; Ο όρος που έφτιαξαν δεν αποδίδει τη δραστηριότητα αλλά τον απώτερο σκοπό που φαντάζονται ότι η δραστηριότητα μπορεί να υπηρετήσει, ανάμεσα σ' άλλους και μάλιστα λεξικογραφικούς όπως το λένε οι ίδιοι, σκοπός που μπορεί να αποδειχτεί και υπερβολικός στις φιλοδοξίες του. Για ποιο λόγο λοιπόν να πούμε κουλτούρωμα και όχι λεξιδίωμα (καουμπόικα από το γον-ιδίωμα) ή λεξιλογίωμα (από το λεξιλόγιο); Να επικεντρώσουμε δηλαδή στο μετρούμενο και όχι στις τελολογικές προβολές.

daeman · Dec 20, 2010

Ωραία, Κώστα, και το καουμπόικο και το λογίωμα!
Κι εγώ πολύ φιλόδοξο το βλέπω το όνομα. Ακόμα δεν το είδαμε, κουλτούρωμα το βγάλαμε...
Άμποτε και βλέπουμε.

Costas · Dec 20, 2010

nickel said:
Έχουμε πει ότι για τα -omics έχουμε την -ωματική (αφού πρώτα έχουμε το -ωμα για το -ome). Πείτε λοιπόν πού καταλήγουμε για την απόδοση αυτών των όρων. Πολιτίσμωμα; Πολιτισμωματική;

Μπορεί να εξεταστεί και η κατάληξη -ωμική αντί για -ωματική. Έβαλα ένα σχόλιο στο νήμα που αναφέρεις, nickel.

Marinos · Dec 20, 2010

Costas said:
Για ποιο λόγο λοιπόν να πούμε κουλτούρωμα και όχι λεξιδίωμα (καουμπόικα από το γον-ιδίωμα) ή λεξιλογίωμα (από το λεξιλόγιο);

Λεξιλογίωμα από τη Λεξιλογία.

Costas · Dec 20, 2010

Ναι, κι εγώ το σκέφτηκα αυτό, αλλά είπα να μην το γράψω. :)

Costas · Mar 7, 2012

culturomics

πολιτισμιωμική; πολιτισμιωματική; Γίνονται δεκτές προτάσεις!

SBE · Mar 8, 2012

Δεν πείθομαι με τις προτάσεις. Αλλά μια και πιο πάνω γίνεται αναφορά στο γονιδίωμα,
genome
"sum total of genes in a set," 1930, modeled on Ger. genom, coined 1920 by German botanist Hans Winkler, from gen "gene" + (chromos)om "chromosome."

Ίσως να πρέπει να σκεφτούμε πως θα λέγαμε γενικότερα και μερικές από τις άλλες λέξεις -ώματα (τερατώματα; )εδώ, όπως:

speechome
researchome
metalome
bibliome

drsiebenmal · Mar 8, 2012

Το τεράτωμα είναι αγκαζέ πάντως για το teratoma...

Costas · Mar 8, 2012

Καλά, στην αμνησία δεν παίζομαι! Μ' αρέσει που θέλω να μάθω και κινέζικα...

daeman · Mar 8, 2012

SBE said:
[...] Ίσως να πρέπει να σκεφτούμε πως θα λέγαμε γενικότερα και μερικές από τις άλλες λέξεις -ώματα (τερατώματα; )εδώ, όπως:

speechome
researchome
metalome
bibliome

Πολύ ωραία άσκηση! :up:
Πριν ασχοληθούμε σοβαρά με όλο τον κατάλογο
(όταν τελειώσει το πολυεργασίωμα που μ' έχει καθηλώσει αυτό τον καιρό και νιώθω ένα πνίγωμα), τα πρώτα δαιμανιώματα:

speechome: πιτσιπίτσωμα
researchome: ψαξίωμα
metallome: βιομεταλλιόντωμα
bibliome: βιοβιβλιογραφίωμα :blink:

Διάλεξες όμως εύκολα, SBE. Τα μεταφραγγουρώματα που βλέπω πιθανό να καταλήξουν σε γελοιώματα - αν δεν έχουν καταλήξει ήδη - είναι άλλα: Regulome, Organome, ORFeome, Mechanome, Kinome, Interactome, Ionome (απίθανο ανεμομάζωμα), Pharmacogenome (τι φαρμάκωμα είν' αυτό! σαν το ηχητικά σχετικό του), κι ελπίζω να μη δούμε εκτρώματα.

culturome, culturomics

nickel

Administrator

daeman

Administrator

drsiebenmal

HandyMod

Leximaniac

¥

nickel

Administrator

Costas

¥

daeman

Administrator

Costas

¥

Marinos

¥

Costas

¥

Costas

¥

SBE

¥

drsiebenmal

HandyMod

Costas

¥

daeman

Administrator