La tecnología conocida como Big Data permite analizar una gran cantidad de materiales, desde libros clásicos hasta sitios web y redes sociales, para observar repeticiones e influencias. Un recorrido por los avances de la ciencia para el estudio de la literatura
Los genes son las unidades de construcción fundamentales de la biología, las palabras son la materia prima de las ideas./Revista Ñ |
Cualquier lista de principales novelistas del siglo XIX en
lengua inglesa incluiría seguramente a Charles Dickens, Thomas Hardy,
Herman Melville, Nathaniel Hawthorne y Mark Twain. Pero ninguno de ellos
aparece en los primeros lugares de los escritores más influyentes de su
época. En cambio, un estudio reciente ha encontrado que Jane Austen, la
autora de Orgullo y prejuicio , y Sir Walter Scott, el creador de
Ivanhoe , ejercieron el mayor efecto en otros autores, en cuanto a
estilo y temas.
Ambos fueron “el equivalente literario del Homo
erectus , o, si usted lo prefiere, Adán y Eva”, escribió Matthew L.
Jockers en una investigación publicada el año pasado. Basaba su
conclusión en el análisis de 3.592 obras publicadas desde 1780 a 1900.
Algo que implicó excavar un montón, y lo hizo una computadora.
El
estudio, que incluyó análisis gramatical y la compilación de miles de
novelas, arrojó otras observaciones impactantes. Por ejemplo, las obras
de Austen se agrupan estrechamente en cuanto a estilo y temática,
mientras que las de George Eliot (también conocida como Mary Ann Evans)
abarcan un rango más extenso, y se parecen más a los parámetros de los
escritores varones. Utilizando criterios similares, Harriet Beecher
Stowe, estaba veinte años adelante de su época, dijo Jockers, cuya
investigación va a ser publicada pronto en el libro Macroanalysis:
Digital Methods and Literary History [Macroanálisis: Métodos digitales e
historia literaria, University of Illinois Press].
Difícilmente
estos hallazgos sean la palabra final. En esta etapa, esta clase de
análisis digital es más que nada un signo cautivante de que la
tecnología Big Data –manipulación de grandes conjuntos de datos–
presiona firmemente por encima de la industria de Internet y la
investigación científica hacia campos aparentemente extraños como las
ciencias sociales y las humanidades. Las nuevas herramientas de
descubrimiento permiten una mirada fresca a la cultura, en gran medida
como el microscopio nos dio una visión más cercana de las sutilezas de
la vida y el telescopio abrió el camino a las galaxias remotas.
“Tradicionalmente,
la historia literaria se hacía estudiando un puñado de textos
comparativos”, dice Jockers, profesor asistente de inglés e investigador
del Centro de Investigaciones en Humanidades de la Universidad de
Nebraska. “Lo que hace esta tecnología es permitirte ver la imagen
general –el contexto en el que un escritor trabajaba– en una escala que
nunca antes vimos.” Jokers, de 46 años, personifica el avance digital
en humanidades. Obtuvo un doctorado en literatura inglesa de la
Universidad del Sur de Illinois, pero también lo fascinó la computación y
se convirtió en programador autodidacta. Antes de trasladarse a la
Universidad de Nebraska el año pasado, pasó más de una década en
Stanford, donde fue fundador del Laboratorio Literario de Stanford, que
está dedicado a la exploración digital de libros.
Hoy describe
las herramientas de su trabajo en términos familiares a los de un
ingeniero de software de Internet: algoritmos que utilizan técnicas de
análisis en red y machine learning (rama de la inteligencia artificial
relacionada con la construcción y estudio de sistemas que pueden
aprender de los datos). Sus modelos matemáticos han sido desarrollados
para identificar patrones de palabras y elementos temáticos en el texto
escrito. La cantidad y la fuerza de los vínculos entre las novelas
determinan la influencia, muy a la manera en que Google categoriza los
sitios web.
Es esta capacidad para obtener, medir y analizar
datos para enfoques significativos lo que constituye la potencialidad de
la tecnología Big Data. En humanidades y ciencias sociales, el flujo de
datos nuevos proviene de muchas fuentes que incluyen libros escaneados
en forma digital, sitios web, posteos de blog y comunicaciones de redes
sociales.
El área de expertise en sistemas centrados en datos
está creciendo rápido, dando lugar a un vocabulario nuevo. En ciencias
políticas, este análisis cuantitativo se denomina metodología política.
En historia encontramos la cliometría, que aplica la econometría a la
historia. En literatura, la estilometría es el estudio del estilo de
escritura de un autor, y en el presente se inclina fuertemente a la
computación y el análisis estadístico. Culturonomía es el término
paraguas utilizado para describir las investigaciones cuantitativas
rigurosas en ciencias sociales y humanidades.
“Algunos lo llaman
ciencia computarizada y otros lo llaman estadística, pero la esencia es
que estos métodos algorítmicos hoy forman parte cada vez más de todas
las disciplinas”, dice Gary King, director del Instituto para Ciencia
Social Cuantitativa de Harvard.
Los analistas de datos culturales
con frecuencia adaptan analogías biológicas para describir su trabajo.
Por ejemplo, a la presentación de su investigación Jockers la denominó
“Computarización y visualización del genoma literario del siglo XIX”.
Metáforas
biológicas de este tipo parecen aptas porque gran parte de la
investigación es un examen cuantitativo de palabras. Así como los genes
son las unidades de construcción fundamentales de la biología, las
palabras son la materia prima de las ideas.
“Lo crítico y
distintivo de la evolución humana son las ideas y cómo evolucionan”,
dice Jean-Baptiste Michel, becario postdoctoral de Harvard.
Michel
y otro investigador, Erez Lieberman Aiden, dirigieron un proyecto para
extraer datos del banco de libros conocido como Google Books y rastrear
el uso de palabras a lo largo del tiempo, comparar palabras relacionadas
e incluso representarlas gráficamente.
Google cooperó y produjo
el software para hacer gráficos abiertos al público. La versión inicial
del sitio de exploración cultural Google se lanzó a fines de 2010, en
base a más de cinco millones de libros, desde el año 1500 en adelante.
Al día de hoy, Google ha escaneado 20 millones de libros y el sitio se
utiliza cincuenta veces por minuto. Por ejemplo, si se escribe “mujeres”
en comparación con “hombres” se verá que durante siglos el número de
referencias a hombres empequeñeció el de mujeres. La transición se dio
en 1985, con las mujeres en ventaja desde entonces.
En material
publicado en 2011 en la revista Science, Michel y el equipo de
investigación abren la válvula de Google Books para descubrir qué rápido
se destiñe el pasado en los libros. Por ejemplo, las referencias a
“1880”, que ese año alcanzó un pico, cayeron a la mitad hacia 1912, en
un intervalo de 32 años. En contraste, “1973” declinó a la mitad su pico
máximo hacia 1983, apenas diez años más tarde. “Cada año que pasa
olvidamos más rápido nuestro pasado”, escribieron los autores.
Jon
Kleinberg, científico especializado en sistemas de la Universidad de
Cornell, y un grupo de investigadores abordaron la memoria colectiva
desde una perspectiva muy diferente.
El trabajo que realizaron,
publicado el año pasado, se centraba en qué hace que los diálogos de las
películas sean memorables. Las frases que perduran en la mente del
público son historias de éxito evolutivo, dice Kleinberg, comparando “la
robustez del lenguaje y la robustez de los organismos”.
Como
patrón, los investigadores usaron “citas memorables” seleccionadas de la
popular Base de Datos de Películas en Internet, o IMDB, y la cantidad
de veces que determinado diálogo de película en particular aparece en la
red. Después compararon esos diálogos memorables con los guiones
completos de las películas en las que aparecían: alrededor de mil
películas.
Para practicar sus algoritmos estadísticos en
estructuras de oraciones comunes, orden de palabras y palabras usadas
más extensamente, cargaron en sus computadoras un archivo inmenso de
artículos basados en cables de noticias. Las líneas memorables constaban
de palabras sorprendentes incorporadas a frases de estructura
ordinaria. “Podemos pensar que las citas memorables consisten en una
selección de palabras inusuales montadas sobre un andamiaje de modelos
comunes de categorías léxicas”, dicen.
Considérese la oración “
You had me at hello ” (más o menos, “Me atrapaste ya al decir hola”), de
la película Jerry Maguire . Básicamente, destaca Kleinberg, es la misma
secuencia de elementos del lenguaje que la común “ I met him in Boston ”
(“Me encontré con él...”, o “Lo conocí en Boston”). O considérese esta
línea de Apocalipsis now : “ I love the smell of napalm in the morning
.” (“Me encanta el olor del napalm a la mañana.”) Sólo una palabra
separa esa expresión de ésta: “ I love the smell of coffee in the
morning .” (“Me encanta el olor del café a la mañana.”) Esta clase de
análisis puede usarse para todo tipo de comunicaciones, incluida la
publicidad. De hecho, el grupo de Kleinberg también se fijó en los
eslóganes publicitarios. Estadísticamente, los más similares a las citas
memorables de películas incluían “ Quality never goes out of style ”
(La calidad nunca pasa de moda) para los jeans Levi’s, y “ Come to
Marlboro Country ” (Venga al país Marlboro) para los cigarrillos
Marlboro.
Pero los métodos algorítmicos no son una guía infalible
para el éxito en el mundo real. Un eslogan que no calzó bien dentro de
los parámetros estadísticos para frases memorables fue el de las pilas
Energizer “ It keeps going and going and going ” (“Siguen andando y
andando y andando”).
Las herramientas cuantitativas en humanidades
y ciencias sociales, como en otros campos, alcanzan su máximo poder
cuando las controla un ser humano inteligente. Se requieren expertos con
conocimientos profundos de determinados temas para formular las
preguntas adecuadas y para reconocer las limitaciones de los modelos
estadísticos.
“Siempre serán necesarios ambos”, dice Jockers, el
cuantificador literario. “Pero estamos en un momento ahora en el que hay
una aceptación mucho mayor de estos métodos que en el pasado. Llegará
un punto en el cual este tipo de análisis simplemente forme parte del
conjunto de herramientas de las humanidades, al igual que de cualquiera
otra disciplina.
(c) THE NEW YORK TIMES