lunes, 27 de mayo de 2013

El genoma literario

La tecnología conocida como Big Data permite analizar una gran cantidad de materiales, desde libros clásicos hasta sitios web y redes sociales, para observar repeticiones e influencias. Un recorrido por los avances de la ciencia para el estudio de la literatura

Los genes son las unidades de construcción fundamentales de la biología, las palabras son la materia prima de las ideas./Revista Ñ
 
Cualquier lista de principales novelistas del siglo XIX en lengua inglesa incluiría seguramente a Charles Dickens, Thomas Hardy, Herman Melville, Nathaniel Hawthorne y Mark Twain. Pero ninguno de ellos aparece en los primeros lugares de los escritores más influyentes de su época. En cambio, un estudio reciente ha encontrado que Jane Austen, la autora de Orgullo y prejuicio , y Sir Walter Scott, el creador de Ivanhoe , ejercieron el mayor efecto en otros autores, en cuanto a estilo y temas.
Ambos fueron “el equivalente literario del Homo erectus , o, si usted lo prefiere, Adán y Eva”, escribió Matthew L. Jockers en una investigación publicada el año pasado. Basaba su conclusión en el análisis de 3.592 obras publicadas desde 1780 a 1900. Algo que implicó excavar un montón, y lo hizo una computadora.
El estudio, que incluyó análisis gramatical y la compilación de miles de novelas, arrojó otras observaciones impactantes. Por ejemplo, las obras de Austen se agrupan estrechamente en cuanto a estilo y temática, mientras que las de George Eliot (también conocida como Mary Ann Evans) abarcan un rango más extenso, y se parecen más a los parámetros de los escritores varones. Utilizando criterios similares, Harriet Beecher Stowe, estaba veinte años adelante de su época, dijo Jockers, cuya investigación va a ser publicada pronto en el libro Macroanalysis: Digital Methods and Literary History [Macroanálisis: Métodos digitales e historia literaria, University of Illinois Press].
Difícilmente estos hallazgos sean la palabra final. En esta etapa, esta clase de análisis digital es más que nada un signo cautivante de que la tecnología Big Data –manipulación de grandes conjuntos de datos– presiona firmemente por encima de la industria de Internet y la investigación científica hacia campos aparentemente extraños como las ciencias sociales y las humanidades. Las nuevas herramientas de descubrimiento permiten una mirada fresca a la cultura, en gran medida como el microscopio nos dio una visión más cercana de las sutilezas de la vida y el telescopio abrió el camino a las galaxias remotas.
“Tradicionalmente, la historia literaria se hacía estudiando un puñado de textos comparativos”, dice Jockers, profesor asistente de inglés e investigador del Centro de Investigaciones en Humanidades de la Universidad de Nebraska. “Lo que hace esta tecnología es permitirte ver la imagen general –el contexto en el que un escritor trabajaba– en una escala que nunca antes vimos.” Jokers, de 46 años, personifica el avance digital en humanidades. Obtuvo un doctorado en literatura inglesa de la Universidad del Sur de Illinois, pero también lo fascinó la computación y se convirtió en programador autodidacta. Antes de trasladarse a la Universidad de Nebraska el año pasado, pasó más de una década en Stanford, donde fue fundador del Laboratorio Literario de Stanford, que está dedicado a la exploración digital de libros.
Hoy describe las herramientas de su trabajo en términos familiares a los de un ingeniero de software de Internet: algoritmos que utilizan técnicas de análisis en red y machine learning (rama de la inteligencia artificial relacionada con la construcción y estudio de sistemas que pueden aprender de los datos). Sus modelos matemáticos han sido desarrollados para identificar patrones de palabras y elementos temáticos en el texto escrito. La cantidad y la fuerza de los vínculos entre las novelas determinan la influencia, muy a la manera en que Google categoriza los sitios web.
Es esta capacidad para obtener, medir y analizar datos para enfoques significativos lo que constituye la potencialidad de la tecnología Big Data. En humanidades y ciencias sociales, el flujo de datos nuevos proviene de muchas fuentes que incluyen libros escaneados en forma digital, sitios web, posteos de blog y comunicaciones de redes sociales.
El área de expertise en sistemas centrados en datos está creciendo rápido, dando lugar a un vocabulario nuevo. En ciencias políticas, este análisis cuantitativo se denomina metodología política. En historia encontramos la cliometría, que aplica la econometría a la historia. En literatura, la estilometría es el estudio del estilo de escritura de un autor, y en el presente se inclina fuertemente a la computación y el análisis estadístico. Culturonomía es el término paraguas utilizado para describir las investigaciones cuantitativas rigurosas en ciencias sociales y humanidades.
“Algunos lo llaman ciencia computarizada y otros lo llaman estadística, pero la esencia es que estos métodos algorítmicos hoy forman parte cada vez más de todas las disciplinas”, dice Gary King, director del Instituto para Ciencia Social Cuantitativa de Harvard.
Los analistas de datos culturales con frecuencia adaptan analogías biológicas para describir su trabajo. Por ejemplo, a la presentación de su investigación Jockers la denominó “Computarización y visualización del genoma literario del siglo XIX”.
Metáforas biológicas de este tipo parecen aptas porque gran parte de la investigación es un examen cuantitativo de palabras. Así como los genes son las unidades de construcción fundamentales de la biología, las palabras son la materia prima de las ideas.
“Lo crítico y distintivo de la evolución humana son las ideas y cómo evolucionan”, dice Jean-Baptiste Michel, becario postdoctoral de Harvard.
Michel y otro investigador, Erez Lieberman Aiden, dirigieron un proyecto para extraer datos del banco de libros conocido como Google Books y rastrear el uso de palabras a lo largo del tiempo, comparar palabras relacionadas e incluso representarlas gráficamente.
Google cooperó y produjo el software para hacer gráficos abiertos al público. La versión inicial del sitio de exploración cultural Google se lanzó a fines de 2010, en base a más de cinco millones de libros, desde el año 1500 en adelante. Al día de hoy, Google ha escaneado 20 millones de libros y el sitio se utiliza cincuenta veces por minuto. Por ejemplo, si se escribe “mujeres” en comparación con “hombres” se verá que durante siglos el número de referencias a hombres empequeñeció el de mujeres. La transición se dio en 1985, con las mujeres en ventaja desde entonces.
En material publicado en 2011 en la revista Science, Michel y el equipo de investigación abren la válvula de Google Books para descubrir qué rápido se destiñe el pasado en los libros. Por ejemplo, las referencias a “1880”, que ese año alcanzó un pico, cayeron a la mitad hacia 1912, en un intervalo de 32 años. En contraste, “1973” declinó a la mitad su pico máximo hacia 1983, apenas diez años más tarde. “Cada año que pasa olvidamos más rápido nuestro pasado”, escribieron los autores.
Jon Kleinberg, científico especializado en sistemas de la Universidad de Cornell, y un grupo de investigadores abordaron la memoria colectiva desde una perspectiva muy diferente.
El trabajo que realizaron, publicado el año pasado, se centraba en qué hace que los diálogos de las películas sean memorables. Las frases que perduran en la mente del público son historias de éxito evolutivo, dice Kleinberg, comparando “la robustez del lenguaje y la robustez de los organismos”.
Como patrón, los investigadores usaron “citas memorables” seleccionadas de la popular Base de Datos de Películas en Internet, o IMDB, y la cantidad de veces que determinado diálogo de película en particular aparece en la red. Después compararon esos diálogos memorables con los guiones completos de las películas en las que aparecían: alrededor de mil películas.
Para practicar sus algoritmos estadísticos en estructuras de oraciones comunes, orden de palabras y palabras usadas más extensamente, cargaron en sus computadoras un archivo inmenso de artículos basados en cables de noticias. Las líneas memorables constaban de palabras sorprendentes incorporadas a frases de estructura ordinaria. “Podemos pensar que las citas memorables consisten en una selección de palabras inusuales montadas sobre un andamiaje de modelos comunes de categorías léxicas”, dicen.
Considérese la oración “ You had me at hello ” (más o menos, “Me atrapaste ya al decir hola”), de la película Jerry Maguire . Básicamente, destaca Kleinberg, es la misma secuencia de elementos del lenguaje que la común “ I met him in Boston ” (“Me encontré con él...”, o “Lo conocí en Boston”). O considérese esta línea de Apocalipsis now : “ I love the smell of napalm in the morning .” (“Me encanta el olor del napalm a la mañana.”) Sólo una palabra separa esa expresión de ésta: “ I love the smell of coffee in the morning .” (“Me encanta el olor del café a la mañana.”) Esta clase de análisis puede usarse para todo tipo de comunicaciones, incluida la publicidad. De hecho, el grupo de Kleinberg también se fijó en los eslóganes publicitarios. Estadísticamente, los más similares a las citas memorables de películas incluían “ Quality never goes out of style ” (La calidad nunca pasa de moda) para los jeans Levi’s, y “ Come to Marlboro Country ” (Venga al país Marlboro) para los cigarrillos Marlboro.
Pero los métodos algorítmicos no son una guía infalible para el éxito en el mundo real. Un eslogan que no calzó bien dentro de los parámetros estadísticos para frases memorables fue el de las pilas Energizer “ It keeps going and going and going ” (“Siguen andando y andando y andando”).
Las herramientas cuantitativas en humanidades y ciencias sociales, como en otros campos, alcanzan su máximo poder cuando las controla un ser humano inteligente. Se requieren expertos con conocimientos profundos de determinados temas para formular las preguntas adecuadas y para reconocer las limitaciones de los modelos estadísticos.
“Siempre serán necesarios ambos”, dice Jockers, el cuantificador literario. “Pero estamos en un momento ahora en el que hay una aceptación mucho mayor de estos métodos que en el pasado. Llegará un punto en el cual este tipo de análisis simplemente forme parte del conjunto de herramientas de las humanidades, al igual que de cualquiera otra disciplina.
(c) THE NEW YORK TIMES