dissabte, 5 de novembre de 2011

Herramientas para hacer nubes de palabras o tag clouds (1)

En esta entrada mostraré algunos métodos útiles para construir nubes de palabras.

Esta manera de representar gráficamente la información está a la orden del día para todas aquellas personas que se dedican a la infografía. A menudo encontramos en páginas web o en diarios estos word clouds que representan gráficamente la intensidad de un fenómeno mediante gráficos en los cuales el tamaño de la palabra es proporcional a su frecuencia. A continuación daré algunas herramientas para que nosotros mismos, con recursos gratuitos y sin necesidad de ningún programa específico de diseño, podamos contabilizar palabras relativamente rápido y elaborar con ellas nuestras propias nubes de información.

Para hacer la entrada algo más interesante y darle un toque de actualidad explicaré de principio a fin en unos pocos pasos cómo graficar según este método las palabras más presentes en los programas electorales de algunas de las principales formaciones que se presentan a las elecciones del próximo 20 de noviembre en España. Cabe decir que este tipo de gráfico también se puede hacer con otro tipo de datos siempre y cuando dispongamos de la frecuencia o el peso que representa cada variable.

Paso 1. Recopilar la información.

Como en todo proceso de análisis de datos, el primer paso es buscar y seleccionar la información que queremos graficar. En este caso, analizaremos los programas electorales de cinco formaciones políticas: PP, PSOE, ERC, CiU e IU y graficaremos las 25 palabras que más se repiten en cada uno. Se pueden descargar los programas en formato PDF de las respectivas páginas web. En esta ocasión, en este enlace del diario El País se encuentran recopilados todos estos programas.

Paso 2. Contabilizar las palabras.

A menudo nos encontraremos con una ingente cantidad de datos para analizar. En este caso, los programas de las distintas formaciones políticas acostumbran a tener entre cien y doscientas páginas, por lo que necesitaremos de la ayuda de algún programa informático que nos haga el trabajo “sucio” de sintetizar y contabilizar las palabras. Existen numerosos programas de análisis textual. Como la intención de esta entrada no es hacer una relación de este tipo de programas, presentaré únicamente el que he utilizado en este caso concreto que es Textalyser, un programa gratuito que encontré en internet destinado a analizar la complejidad de textos y a aportar estadísticas sobre la frecuencia de palabras. Si tenemos los archivos originales en PDF o en cualquier otro archivo de texto simplemente con hacer un Seleccionar todo, un Copiar y un Pegar en el programa, en muy pocos segundos obtendremos un informe de las palabras y frases utilizadas en el mismo. También se puede cargar directamente el archivo.

Paso 3. Ordenar la información. 

Textalyser nos da como resultado un informe en HTML con las frecuencias de frases, palabras y otros indicadores de complejidad textual. Para el caso que nos ocupa, lo que más nos interesa es la última parte del informe, donde se da una relación de las palabras individuales y su frecuencia. Si vamos directamente a este apartado podemos seleccionar y copiar estas palabras y su frecuencia (aquí es de gran utilidad el complemento de Firefox Table2Clipboard que expliqué en esta entrada para seleccionar sólo aquellas celdas o columnas que nos interesen). Una vez seleccionadas abrimos un archivo de Excel donde tendremos que trabajar un poco los datos, colocándolos en diferentes columnas repitiendo cada palabra en función de su frecuencia. Aquí cabe decir que, evidentemente, tendremos que hacer una depuración de los datos ya que el programa informático nos dará todos los resultados y está claro que no todas las palabras nos interesan. Nos encontraremos, por ejemplo, con que tendremos que eliminar los conectores textuales, los artículos, las preposiciones, los determinantes… que aparecerán con mayor frecuencia, y quedarnos con las palabras verdaderamente relevantes. Tendremos que tener cuidado también con los femeninos y masculinos y con los singulares y plurales, pues en muchos casos tendremos que sumar frecuencias cuando aparezca un mismo concepto con distintas formas gramaticales.

Paso 4. Construir los gráficos. 

Una vez repetidas las palabras en función de su frecuencia de aparición, tenemos diversas opciones para obtener los gráficos. Una de ellas es GoogleDocs. Subiendo a esta plataforma ofimática el archivo de Excel, seleccionamos todo el rango de datos y hacemos click en el menú Insert – Gadget, y aquí seleccionamos el Gadget Word cloud. Automáticamente se generará la nube de palabras en la que cada una tendrá un tamaño y una intensidad proporcional a su frecuencia de aparición en el rango de datos seleccionado.

Otra herramienta muy práctica para hacer esto es Wordle, que además nos permite personalizar el tipo de letra, los colores y las pautas de dibujo de las letras (horizontal, vertical, combinación de las dos, etc.)

Paso 5. Publicar los gráficos.

Cuando tenemos nuestras nubes de palabras hechas, tanto en Wordle como en GoogleDocs tenemos la opción de obtener el código HTML que usaremos para publicarlas en nuestra web.

A continuación muestro los distintos ejemplos de tag clouds de las 25 palabras que aparecen con mayor frecuencia en los programas electorales de las 5 formaciones políticas seleccionadas, realizados con GoogleDocs. Adjunto también el enlace a la hoja de cálculo que he utilizado.

Programa electoral - Partido Popular

Programa electoral – Partido Socialista Obrero Español

Programa electoral – Esquerra Republicana de Catalunya

Programa electoral – Convergència i Unió

Programa electoral – Izquierda Unida Los Verdes

Cap comentari:

Publica un comentari a l'entrada