El fabuloso (y desconocido) mundo de Ngram

Teoría y práctica de la analítica cultural

Quantitative Analysis of Culture Using Millions of Digitized Books

Son nada mas y nada menos que 15 coautores convocados para redactar un escueto paper de 8 páginas publicado por la revista Science el 14 de enero de 2011. La mayoría de los autores son desconocidos para nosotros, con la excepción de dos, y lo mas llamativo es que uno de esos 15 no es una persona física sino un colectivo. Nos referimos a Peter Norvig y a Steven Pinker entre los conocidos y a The Google Books Team en el caso del grupo. El resto son Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Jon Orwant, Martin A. Nowak y Erez Lieberman Aiden. Hubo que juntar a todos esos cerebros (y seguramente a muchos mas asociados directa o indirectamente con ellos) para escribir esa breve nota “Quantitative Analysis of Culture Using Millions of Digitized Books“.

Pero así como hay libros de longitud insoportable que dicen poco y nada, a veces un paper puede convertirse en una bisagra que cambia la historia en dos. Google ya había tocado esta melodía cuando sus cofundadores publicaron The Anatomy of a Large-Scale Hypertextual Web Search Engine (1998) abriendo paso con el Pagerank a la base de datos de las intenciones de la humanidad. Una década mas tarde volvieron a mover el avispero, aunque tardamos casi 2 años en darnos cuenta.
Al sumergirnos en estas propuestas de análisis cuantitativo de la cultura ya no queda tiempo para el bostezo quejoso de que no hay mucho mas que decir acerca de la historia cultural de occidente en la era de la reproductibilidad técnica. Correlativamente la aparición en el horizonte de la hermeneútica analítica dejó de ser un desideratum y se convirtió en una herramienta tangible con capacidad de producir observaciones y de generar sorpresas en la evolución memética, a un nivel masivo antes inimaginado

Del close al distant reading

Nadie duda (especialmente quienes venimos bregando hace medio siglo en estos menesteres) que leer (e interpretar) colecciones muy pequeñas de obras tomadas del canon (el apotegma es El Canon Occidental de Harold Bloom) identifica en gran parte lo que entendemos por el modo de ser (la ontología) occidental.

Pero ese tipo de enfoques con lo idiosincrático que nos parecen, paradójicamente no miden los vaivenes culturales, la formación de hábitos y valores, la discriminación de influencias y de relaciones, en fin la pauta que conecta nuestra coproducción de cultura y de lenguaje.

Si bien hubo muchos intentos (desde mediados de los años 1950) de hacer un estudio cuantitativo de la cultura, los mismos se vieron frenados por la falta de información cuantitativa de base. Sin un corpus importante y nutrido, las intuiciones cuantitativas tenían pocas posibilidad de ir mas allá de lo previsible, lo descriptivo, lo inventariable a mano.

No fue por ello un cambio nada menor que Google llegara a un acuerdo con 40 importantes universidades del mundo para digitalizar una parte importante de todos los libros publicados a lo largo de la historia humana que son unos 129 millones. Y si bien en su primera versión Ngram apenas contaba con unos 5.200.000 de libros (4% del total histórico) ya en esa versión abreviada se podían retrodecir (predecir retrospectivamente) numerosas tendencias ocultas al ojo letrado del análisis en profundidad (hoy el corpus que usa la segunda versión de Ngram alcanza los 20 millones de libros, siendo los fácilmente legibles casi un 10% de todos los libros publicados en todas épocas)

¿Cómo se hizo?

No se trató tan solo de escanear y aplicar reconocimiento óptico de caracteres (OCR) a esa masa enorme de volúmenes, sino que también se ingresaron metadatos correspondientes al lugar y fecha de publicación. En la versión original el corpus obtenido almacenaba la imponente cantidad de 500.000 millones de palabras con una enorme preeminencia del inglés (casi un 70%) y cifras importantes de francés, castellano, alemán, chino, ruso y hebreo.

Las obras mas viejas datan de 1500 y ha habido un crecimiento exponencial de las palabras guardadas que pasaron de algunos centenares de miles de palabras y de pocos libros en 1500, hasta llegar a las 98 millones de palabras por año en 1800, las 1800 millones en 1900 y las 11.000 millones en el año 2000, mostrando inequívocamente la aceleración de la publicación de libros en papel hasta el cierre del milenio.

Obviamente este corpus no es como ironizaba la serie 007 de James Bond “for your (human) eyes only” ya que si quisiéramos tan solo leer las entradas del año 2000 a una velocidad de 200 palabras/min sin parar para comer o dormir, tardaríamos 80 años en hacerlo. Además (enrocando con la Big Data) la secuencia de letras de las publicaciones del año 2000 es mil veces mas larga que el genoma humano: en linea recta iría y volvería 10 veces a la luna que está a mas de 300.000 km.

El estudio tomó como unidad de análisis desde una palabra expresión de 1 n-grama hasta 5 y solo se incluyeron las que aparecían mas de 40 veces por año. El resultado de generar preguntas sumamente inteligentes al corpus nos brinda sorprendentemente una información muy rica acerca de la raíz lingüística de los cambios culturales, pero también mucho mas interesante para nosotros fue descubrir la forma cómo operan la memoria y el olvido, a través de los usos testimoniales de las palabras a manos de centenares de miles de autores que dejaron su huella en el último medio siglo en la construcción de la cultura occidental.

De paso se creó una nueva disciplina: la culturonomics y con la gentileza de los muchachos de Google apenas lanzada la plataforma ya contábamos con 2.000 millones de trayectorias culturómicas que se pueden explorar en www.culturomics.org y en ngrams.googlelabs.com.

 

De lexicógrafos y otros mineros de datos

Como un buen manual de casos y usos, el paper publicado en la revista Science trae un par de decenas de ejemplos donde Ngram ve lo invisible a los ojos desnudos y revela tendencias y evoluciones imposibles de relevar por mas análisis profundo y exhaustivo que se quiera hacer.

Asi nos anoticiamos de que el idioma inglés ha ido incorporando vocablos a una tasa sorprendente pasando de 544,000 en 1900, o 597,000 en 1950, llegando a la asombrosa cifra de 1,022,000 en 2000. Cada año el inglés adopta 8500 palabras lo que ha llevado a aumentar su cantidad un 70% durante los últimos 50 años. De paso nos enteramos de que los diccionarios mas usados contienen entre un tercio y un décimo de esa totalidad, algo comprensible por la tensión que hay entre alcance y el costo de la impresión en papel.

Como bien dicen los redactores del paper la culturomics puede ayudar a los lexicógrafos en dos direcciones, ya sea encontrando palabras de baja frecuencia no incluidas en los diccionarios, pero mucho mas importante aun mostrando tendencias de frecuencia para reducir la distancia entre cambios en el léxico y cambios en el diccionario. Además corpuses como estos son maravillosos para estudiar la evolución de la gramática y el extraño vaivén de la conjugación de los verbos irregulares en ingles.

Haciendo de la memoria una guardiana de los datos

Del mismo modo en que las personas olvidamos (a regañadientes muchas veces), las sociedades hacen lo propio. Y en Argentina y en América Latina tenemos mucho que enseñar al respecto. Aunque todos somos cronocéntricos y creemos que nuestra era es el ombligo de la historia, lo cierto es muchos años se anunciaron a sus contemporáneos sin mucha pompa ni gloria.

Usando Ngram nos enteramos asi de que “1951” un 1-gram tuvo muy poco prensa en los libros escritos en esa época, solo apareció en el horizonte de referencias un par de años antes, tuvo su pico de popularidad en ese mismo año 1951, se mantuvo en el calderero durante 3 años, y a los 15 años se perdió para siempre en el cielo del olvido. Lo mismo sucedió con la mayoría de los años intercalados en el intervalo entre 1875 y 1975.

Y aun asi no todos los años o los intervalos se recuerdan (u olvidan) igual. La amplitud de los grafos se amplia año a año y cada vez se hace mas foco en el presente. Mientras que “1880” declinó a la mitad de su valor en 1912 (tardó 32 años), 1973 se devaluó a la mitad de las referencias (en 1983) en solo 10 años.

Año a año vamos olvidando cada vez mas rápido nuestro pasado. Inversamente Ngram mostró que hay una asimilación cada vez mas rápida de lo nuevo, mientras que las invenciones importante del periodo 1800–1840 tardaron 66 años en volverse de uso masivo, las que ocurrieron entre 1880–1920 tardaron apenas 27 (aunque tenemos dudas de que esa cifra se pueda acelerar indefinidamente y hay muchos contraejemplos de que invenciones trascendentes como Internet, el transistor y las computadoras tardaron 30 años en volverse masivas).

Celebridades, ocupaciones, censura

La máquina de encontrar pautas que conecta ya se anunciaba en ese paper seminal. La gente

tiene sus años ( o minutos de fama) que es posible medir construyendo cohortes de los 50 personajes mas famosos del año entre 1800 to 1950. Conjugando distinciones y astutos recortes sabemos hoy que la edad pico de las celebridades ha sido la misma durante ese siglo y medio y se ubica en los 75 años.

Sin embargo la fama cada vez llega mas temprano y también crece mas rápidamente. La celebridad inicial bajó de los 43 a los 29 años con lo cual los pesonajes famosos actuales lo son mucho mas que sus predecesores, pero su tiempo de vigencia también bajó aceleredamente, pasando en el siglo XIX de los 120 a lo 71 años. Volverse famoso mas rápido tiene la consecuencia de que seremos olvidados también mas rápidamente.. Quid pro quo.

Con corpuses como éstos se pueden conseguir resultados muy desagregados. Así entre 1800 y 1920 (antes de la advenimiento de la TV) los actores se volvían famosos a los 30 años, los escritores una década mas tarde pero su estrella tenía mayor duración y mayor alcance, los politicos recién a los 50, y de tratarse de presidentes de USA terminarían convirtiéndose en los mas famosos del todos (¿hoy son Obama y el Papa argentino sus equivalentes?). Aunque tardaron, los fisicos y los biólogos consiguieron su hueco de fama, no así los matemáticos.

Uno de los ejemplos mas interesantes del articulo fue revelar con suma granularidad (algo que sabíamos por la manipulación de enciclopedias y la persecuciones a artistas, pero sin capacidad de dimensionamiuento) la censura (muchas veces seguida de muerte) a la que se sometió a los artistas judíos. Desde comparar las menciones a Marc Chagall en inglés y en alemán, o seguir la lista de los 450 artistas, escritores, politicos, historiadores y filósofos judios suprimidos durante el nazismo y su sustitución a manos de “artistas” nazis.

Tal como prometía el articulo al autobautizarse sosteniendo que estos análisis pertenecen a la nueva área de la Culturomics lo que buscó en estos dos años fue extender estos análisis para incorporar diarios, manuscritos, mapas, obras de arte y cualquier entidad que podamos englobar dentro de la etiqueta cultura humana.

Obviamente el registro fósil de la cultura no se autoexplica, y requiere de interpretaciones, marcos, comovisiones y sobretodo de fuertes hipótesis de correlación (o causalidad) que encuentran pautas que conectan detrás de esta información cuantitativa abismal. Linguistas, físicos, analistas textuales, historiadores cuantitativos y muchos mas estan aprendiendo a “minar” estos océanos de información para reconstruir nuestros gustos e ilusiones. Fantastica aventura en la que estan/estamos embarcados.

Bienvenidos al mundo de Ngram

Referencias

3 Responses to “El fabuloso (y desconocido) mundo de Ngram”

  1. Imperdibles (marzo 26th – marzo 27th) » Hipertextos [desde La Plata]

    […] El fabuloso (y desconocido) mundo de Ngram – Son nada mas y nada menos que 15 coautores convocados para redactar un escueto paper de 8 páginas publicado por la revista Science el 14 de enero de 2011. La mayoría de los autores son desconocidos para nosotros, con la excepción de dos, y lo mas llamativo es que uno de esos 15 no es una persona física sino un colectivo. Nos referimos a Peter Norvig y a Steven Pinker entre los conocidos y a The Google Books Team en el caso del grupo. El resto son Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Jon Orwant, Martin A. Nowak y Erez Lieberman Aiden. Hubo que juntar a todos esos cerebros (y seguramente a muchos mas asociados directa o indirectamente con ellos) para escribir esa breve nota “Quantitative Analysis of Culture Using Millions of Digitized Books“. […]

    Responder

Deja un comentario

 

Últimos artículos

Big Brain Project

Todos somos inventores*

Abrir la caja negra