La importancia del análisis y procesamiento automático de textos

Cluster análisis textos

En este artículo vamos a tratar de aclarar las razones sobre la importancia de la automatización de diversas tareas durante el proceso de análisis y procesamiento de textos, que de otra manera habría que realizar de manera manual, lo que ralentizaría bastante el proceso, y dependiendo del contexto de aplicación, sería la diferencia entre alcanzar el éxito o no sobre el objetivo que a priori nos propusiésemos.

Existen tareas que no se han abordado nunca dentro de las Humanidades Digitales hasta que la tecnología lo ha permitido, y algunos humanistas lo han utilizado para su campo de investigación.

Pensemos por ejemplo en que queremos calcular los tópicos de interés de un texto basándonos en la frecuencia de aparición de palabras, una persona tendría que estar contando una a una la aparición de cada una de las palabras. Por el contrario, una computadora puede realizar esta tarea en microsegundos, una vez configurado el sistema de la manera deseada.

Social Network

Es evidente, que sin la evolución de la tecnología que se ha producido en estos últimos años, y su utilización para el análisis y procesamiento de textos, alcanzar dicha automatización sería casi impensable.

Además, debemos tener en cuenta que es posible, o más bien casi seguro, que el volumen de información a manejar puede llegar a ser bastante alto.

La tecnología existente hace 10 o 12 años no sería capaz de gestionar y procesar la información que se maneja en la actualidad.

Por ejemplo, hace unos años a los investigadores en humanidades, arte, filología, o similar, ni se les hubiera pasado por la cabeza utilizar el ordenador para su trabajo diario. Debido a la automatización de tareas que implica una gran cantidad de información, estaríamos estrechamente relacionados con el término tan de moda hoy en día, el conocido como Big Data.

A nivel computacional podemos manejar muchos Gigabytes de información, e incluso Terabytes o Petabytes. Esto es transparente para el usuario final, ya que el software existente en el mercado nos hace pensar que las cosas son más sencillas de lo que realmente son.

Por este motivo, muchos usuarios de diferentes disciplinas tienen a su alcance la tecnología con un simple click de ratón. O bien, a usuarios algo más avanzados, permitirles alcanzar una gran potencia de uso, cálculo o inferencia de información con una pequeña puesta a punto.

Existen diferentes herramientas que nos pueden ayudar a conseguir alcanzar nuestro objetivo.

En concreto, el software estadístico “R” [1], que muy a groso modo nos permite realizar diversas investigaciones sobre minería de datos o procesamiento del lenguaje natural (Natural Language Processing, NLP), entre otras acciones de interés.

Este software permite cargar casi cualquier tipo de datos, que puede estar alojado en un archivo simple en formato de texto o de Excel, hasta estar alojado en sistemas de ficheros avanzados y distribuidos en diferentes ordenadores o servidores. Eso sí, para nosotros sería como si toda la información estuviese centralizada.

También permite visualizar toda la información de una manera simple.

Y lo más importante, es que con las librerías oportunas cargadas seríamos capaces de filtrar y clasificar la información acorde a nuestras necesidades.

Hablando dentro del contexto de las Humanidades Digitales, las acciones anteriormente mencionadas son muy relevantes.

También es muy interesante la novedad de aplicar toda la potencia de computación dentro de este campo, ya que tradicionalmente todas las tareas de análisis y procesamiento de textos se han realizado de manera manual. Como se ha mencionado anteriormente, esto implica una ralentización de dichas tareas. Pero no sólo eso, puede implicar también la necesidad de tratamiento de los textos de manera física, con el perjuicio que ello implica por la manipulación de los mismos o el no acceso a los mismos por diversas restricciones de propiedad, conservación u otros motivos.

Tareas tan sencillas como contar el número o frecuencia de palabras de manualmente dentro de uno o varios textos es muy tedioso.

Es mucho más sencillo cargar el texto en un software y que sea la máquina la que calcule dichas acciones.

Otras tareas más complejas, como puede ser la clasificación de textos o comparación de los mismos, pueden llevar a ser una tarea casi imposible, a no ser que nos apoyemos en una computadora.

A lo largo de los últimos años se han definido varios algoritmos que permiten todas estas acciones, e incluso que se pueden tunear/configurar (al tener varios parámetros de entrada) y ejecutar todos a la vez para poder seleccionar la que más convenga o parezca más adecuada, teniendo en cuenta la opinión del experto que verifique la salida de los algoritmos.

Al clasificar varios textos por temática con diferentes parámetros de entrada, las distintas clasificaciones que obtengamos pueden variar, de manera profunda o ligeramente, y nos puede ayudar en nuestra tarea diaria como humanista.

Es más, aunque no los sea de utilidad, puede servirnos para llevar a cabo una segunda configuración avanzada o corregir diversos aspectos sobre el análisis preliminar de los textos, donde se puede filtrar información de forma correcta, menos correcta o incorrecta.

Por ejemplo, existen nexos y preposiciones en los textos, que pueden no ser de utilidad a la hora de clasificar textos, o algunos de ellos sí y otros no. O incluso a la hora de ver si una frase es positiva o negativa, podemos habernos equivocado porque haber eliminado una negación sin querer.

El software de “R” es bastante popular en la actualidad por su sencillo manejo, su gran flexibilidad y gran cantidad de utilidades disponibles para llevar a cabo casi cualquier acción.

Además, es un software libre y fácilmente descargable, lo que implica que su comunidad de usuarios sea de las más grandes existentes en la actualidad para un software específico.

Según un estudio de IEEE Spectrum, en 2015 este software estaba situado 6º en el ranking como lenguaje de programación más utilizado, siendo el primero de los específicos para dicho propósito.

Esto quiere decir que si tenemos algún problema a la hora de llevar a cabo alguna acción, es muy probable que al buscar por Internet algún otro usuario lo haya solucionado y podamos aprovecharnos de su solución, e incluso mejorarla.

El análisis y procesamiento de textos es de gran interés en otros contextos de la vida diaria distintos a las Humanidades Digitales, o menos relacionados, como puede ser la lingüística forense, el análisis político o el marketing. Es decir, todo campo de aplicación donde haya que analizar y procesar una gran cantidad de datos de entrada para obtener unas conclusiones, e incluso visuales debido a la potencia de visualización de información por parte del software “R”.

Esto quiere decir que a nivel de empleabilidad, tener nociones de manejo de información mediante este software puede ser muy interesante por las posibilidades futuras que puedes encontrarte.

Finalmente me gustaría hablar un poco sobre estilometría.

Este concepto define la detección del estilo de los textos que deseemos para averiguar el autor o comparar la autoría de otros textos. Incluso podemos ser capaces de detectar plagios en textos dependiendo de diversos parámetros que definen el estilo de cada autor.

La estilometría es una disciplina que tiene bastante tirón entre la comunidad científica.

Dos de los trabajos más relevantes dentro de este tópico de investigación son :

1 – Stylometry: tools and examples for authorship attribution. Autor: Antizio (16 de octubre de 2013). Fecha del último acceso: 31 de agosto de 2016.

2 – The Stylometry of Collaborative Translation. Autor: Magda Heydel y Jan Rybicki. (Digital Humanities 2012). Fecha del último acceso: 31 de agosto de 2016.

En el primero de ellos, se define el concepto de estilometría, y se explican varios ejemplos y utilidades existentes. En concreto, desmenuza el paquete de “R” llamado “stylo y que está pensado para llevar a cabo el proceso de estilometría. Su funcionalidad puede ser utilizada y extendida, permitiendo distintos tipos de clasificaciones y estudios comparativos.

En el segundo trabajo, se utiliza la estilometría desde un punto de vista colaborativo para la traducción de textos literarios.

Desde hace varios años, la comunidad científica internacional ya se dedica a trabajar en el análisis y tratamiento de textos, y sobre todo en el campo de la estilometría.

Ya es hora de que la comunidad nacional comience a aplicar toda la potencia computacional en este contexto de investigación, y así poder llegar a ser un referente a nivel internacional. Varios esfuerzos ya están realizándose por parte del Laboratorio de Humanidades Digitales, LINHD, en la UNED desde hace 3 años, pero es necesario incrementar la masa crítica de personas dedicadas a esto, que les guste y que lo vivan de cerca.

Te animo a que te introduzcas en este mundo donde aprenderás a simplificar tu trabajo como humanista, o  si trabajas en disciplinas afines.

¡Merece la pena!.

¿Te apuntas?

Botón estilometría

 

 

ANTONIO ROBLES-GÓMEZ

 


AUTOR

Antonio Robles-Gómez es profesor en el Dpto. de Sistemas de Comunicación y Control y miembro del Big Data Lab de la UNED. Sus intereses investigadores se centran en el Procesamiento del lenguaje natural, Big Data, Cloud Computing, además de Redes y arquitecturas de altas prestaciones. Entre sus aficiones destaca la realización de actividades deportivas a nivel aficionado con una sana competitividad, y enseñar dichos valores a su familia, con el fin de mejorar como persona.

Email: arobles@scc.uned.es

Twitter: @arobles1980 / @bigdatalabuned

 

0 Comentarios

Contesta

Inicia Sesión con tu Usuario y Contraseña

¿Olvidó sus datos?