Ahora

Herramientas para la investigación social cuantitativa

9 May, 2013 - - @griverorz

Nota editorial introductoria: la controversia alrededor del trabajo elaborado por Reinhart & Rogoff sobre el efecto de la deuda pública en el crecimiento económico de los países ha vuelto a poner de relieve la importancia del rigor en el análisis de datos. Hemos visto, por ejemplo, reacciones de sorpresa respecto al hecho de que usar un programa tan habitual como Excel esté visto como un práctica cuestionable en entornos académicos. Dado que Gonzalo Rivero es amigo de la casa y su doctorado en NYU ha conllevado un uso intensivo de técnicas cuantitativas y programación en torno al análisis estadístico, le hemos pedido que nos hable un poco sobre sus herramientas de trabajo. Esperamos que esta nota sirva a la vez como introducción a quienes se inician en la investigación y, para los ajenos al sector, sea una muestra del trabajo día a día en las ciencias sociales.

Es importante que empiece enunciando una obviedad antes de perderla de vista: las herramientas son herramientas, y han de estar al servicio del objetivo final que es producir investigación social de la mejor calidad posible.

El instrumental que yo uso es bastante estándar en mi entorno académico. En la medida de lo posible, he intentado orientar mi configuración actual a hacer un poco más eficiente la cantidad de tiempo que paso delante del ordenador.

Solo escribo en Word por obligación. Creo que se adapta mal a mi rutina de trabajo y, de hecho, creo que la comunidad investigadora en su conjunto se beneficiaría de su abandono. La práctica totalidad de mis trabajos académicos los escribo en LaTeX, incluyendo las presentaciones, aunque últimamente uso Markdown u org-mode + pandoc para textos más sencillos que no requieren notación o tablas. Para las bibliografías, sigo usando BibTeX a través de BibDesk, aunque en algún momento probaré algo más moderno y completo como Zotero o Mendeley.

Hago casi todo el análisis de datos en R aunque uso ocasionalmente Stata para tareas concretas. R puede resultar un poco complicado al principio, especialmente si el punto de partida es la escasa formación técnica que es habitual en las facultades de Ciencias Sociales en España, pero es la lingua franca en investigación cuantitativa, así que es conveniente tener al menos cierta exposición. Además, R interactúa muy bien otras herramientas que forman parte de mi secuencia de trabajo, como Jags/Stan. Stata es muy popular, pero encuentro que me limita bastante en tareas como la limpieza y organización de los datos o la preparación de gráficos. Además, Stata tarda bastante en incorporar nuevas rutinas que, por lo general, son escritas primero para R. Sobra decir que me parece absurdo usar algo como Excel para el análisis de datos.

Con el tiempo me he dado cuenta de la importancia de usar un sistema de control de versiones. Para un investigador social, un programa sencillo como Mercurial es una forma excelente de evitar, entre otras cosas, el caos de tener una copia de cada una de las versiones de un mismo trabajo. Es quizás la parte que más me ha costado incorporar a mi rutina, pero la posibilidad de tener almacenado todo el historial de cambios de un archivo de forma poco intrusiva, o las ventajas que ofrece para que diferentes personas puedan trabajar simultaneamente en el mismo proyecto, me parecen razones suficientes para recomendar su uso. Además, facilita mucho compartir código y datos con el resto de la comunidad, algo que, por fortuna, se está convirtiendo en un requerimiento habitual en laspublicaciones científicas.

Cada vez uso más otras herramientas como Python o PostgreSQL, pero esto ya es algo muy específico del tipo de investigación en la que me estoy embarcando últimamente. De todos modos, tener ciertos rudimentos de programación me parece una habilidad básica para un investigador social en los tiempos que corren: cada vez es más frecuente recopilar datos a través de Internet y cada vez lasbases de datos que podemos explotar son más grandes. Eso por no mencionar la importancia de los métodos computacionales para entender mejor los sistemas complejos. Hoy día es muy sencilloencontrar cursos excelentes para empezar a programar.

La aplicación con la que más interactúo a lo largo del día, con mucha diferencia, es el editor de texto. Y como yo, cualquier otro investigador cuantitativo. Por eso es importante escoger bien. UsoEmacs desde años, pero hay muchas alternativas menos arcanas en el mercado, como TextMate o Sublime Text. Emacs se integra muy bien con R a través de ESS, con LaTeX via AUCTeX/RefTeX, y tiene modos específicos para Markdown, para la organización de tareas, e incluye un sinfín de pequeñas utilidades que simplifican mucho el trabajo diario. Como lo uso en todas las partes de mi trabajo, los célebres atajos de teclado son una bendición y les saco mucho partido.

Es el momento de reiterar lo dicho al principio. Esto es una lista de herramientas. No por usarlas uno se convertirá mágicamente en un mejor politólogo o sociológo. De hecho, ni siquiera se convertirá en uno más sofisticado. Estos son instrumentos que a mí (your mileage may vary) me facilitan el trabajo diario y que incorporan lo que creo que son buenas prácticas académicas.