En 1961 el genial humorista Landrú publicó en la revista Tía Vicenta un desopilante “test para saber si usted es hombre o caballo”, que tras unas breves preguntas (por ejemplo, “¿Qué prefiere comer, una suprema a la Maryland o una bolsa de alfalfa?” o “¿Qué hace cuando entra en su oficina: dice buenos días o relincha?”), permitía resolver la cuestión en forma inequívoca. Se trataba de una tomada de pelo a la proliferación de tests de la época, en particular en las así llamadas “revistas del corazón” (“Diez preguntas para saber si le gustás”).
Sesenta años después, los cuestionarios de los que se mofaba Landrú han sido reemplazados por big data y algoritmos, que parecen tener la respuesta a todo. Así, en el “top 20” de preguntas que la gente le hace a Google conviven cuestiones filosóficas (“qué es el amor”) con otras no tanto (“cómo hacer un nudo de corbata”).
Sin embargo, llama la atención que varias cuestiones delicadas permanezcan todavía ajenas a los datos masivos y a los algoritmos. Una de ellas es la medición de la pobreza. Esta cuestión es el equivalente estadístico de querer envolver un triciclo. Los problemas empiezan con la mismísima indefinición de qué significa ser pobre, noción multidimensional y que involucra a disciplinas que van desde la economía a la biología, pasando por la antropología, la sociología, la política y la medicina, entre otras. Resuelta la cuestión de qué es la pobreza, resta lidiar con una tal vez más compleja: cómo medirla.
La solución comúnmente adoptada es el enfoque de líneas: pobre es una persona cuyos ingresos no alcanzan para comprar un conjunto de cosas que se consideran necesarias para no serlo. El valor de esta canasta de bienes y servicios es la línea de pobreza. Entonces, la aplicación del método requiere de encuestas periódicas que midan los ingresos de las personas y los precios de la canasta.
Claramente, se trata de una simplificación que se adopta por razones de conveniencia práctica. Nadie cree que los ingresos representen cabalmente el bienestar, ni que la línea de pobreza pueda dividir tan tajantemente a los pobres del resto. La popularidad del enfoque de líneas se debe a la facilidad que ofrece para computar y comunicar datos, y a que conduce a comparaciones válidas entre países o períodos. Y, además, a que las alternativas más conceptualmente apropiadas son notoriamente más costosas. Así y todo, su implementación demanda un enorme esfuerzo institucional de encuestas sistemáticas de ingresos y precios, razón por la cual las cifras oficiales de pobreza están disponibles solo dos veces por año y para ciertas áreas urbanas. Ante estas enormes dificultades cabe preguntarse si no será hora de confiar esta tarea a big data y sus algoritmos mágicos, que parece que todo lo pueden.
Si bien hay una considerable cantidad de estudios, son todavía muy incipientes. Joshua Blumenstock, de la Universidad de California en Berkeley, es tal vez el principal experto en estudiar la pobreza con tecnologías intensivas en datos. En 2015 publicó un influyente estudio en la revista Science, donde muestra que es posible monitorear la pobreza en Ruanda sobre la base de la intensidad de uso de teléfonos celulares. Algunas experiencias más recientes apelan a imágenes satelitales, como el estudio de Neil Jean (un joven estudiante de la Universidad de Stanford), también publicado en Science, o a la geolocalización de artículos de Wikipedia en África subsahariana, como en el reciente trabajo de Evan Sheenan y sus coautores, también de Stanford.
Además de datos de fuentes “alternativas” como imágenes satelitales, redes sociales o sensores, todos estos estudios usan métodos modernos de la ciencia de datos, como deep learning, árboles decisorios y técnicas de procesamiento de lenguaje natural, que se han incorporado al herramental de la ciencia social y que muy lentamente aparecen en las currículas de disciplinas como la economía, la sociología o la ciencia política.
En la Argentina hay varias experiencias de uso de datos masivos para el estudio de la pobreza. El sociólogo Germán Rosati, investigador del Conicet y de la Universidad Nacional de San Martín, es un claro ejemplo de esta nueva generación de científicos sociales. En un trabajo reciente, Rosati usa métodos de machine learning para predecir datos faltantes en la Encuesta Permanente de Hogares. Y en un estudio junto a Tomás Olego y Antonio Vázquez Brust, construye un mapa de vulnerabilidad sanitaria que combina datos tradicionales con registros administrativos de hospitales a lo que agregan datos “chupados” de la web de programas sanitarios y gobiernos locales.
Otros estudios locales son los que se usan para predecir la pobreza, como el de Bruno Cardinale, Christian Chagalj y Noelia Romero, de la Universidad de San Andrés, o los que publica en las redes sociales Martín González Rozada, de la Universidad Torcuato Di Tella. Un reciente estudio de Wendy Brau, Victoria Anauati y el autor de esta nota discute con detalle todas estas contribuciones.
Son varias las ventajas de big data en relación a la medición de la pobreza. La disponibilidad de datos inmediatos y de fuentes alternativas permitiría una medición más “granular” de esta cuestión, todavía limitada a grandes aglomerados urbanos. Las áreas rurales o las zonas altamente vulnerables todavía escapan al “foco” de la medición tradicional. También permitiría aumentar la frecuencia de las mediciones, si bien es discutible si esto es deseable, dada la naturaleza estructural de la pobreza. Concretamente, aun cuando sea técnicamente factible, es posible que una medición semanal o mensual de la pobreza venga acompañada de una considerable dosis de “ruido”, en el sentido en que a un paciente sano se le recomienda que no se mida la presión arterial cada media hora, sino en intervalos más espaciados.
Tal vez la principal contribución de big data se relacione con la posibilidad de medir la vulnerabilidad más allá del ingreso y a costos razonables, dejando atrás las principales razones pragmáticas por las que se insiste con el enfoque de líneas. Big data permite monitorear aspectos cruciales del bienestar como los vínculos sociales, el acceso a los servicios de salud, educación o seguridad, o la dinámica del mercado laboral, muchas veces esquivos a las encuestas tradicionales.
A la luz del enorme potencial de big data en la medición de la pobreza, la lentitud en la adopción masiva de estas ideas se explica no por dejadez ni por pereza burocrática, sino porque las dificultades son de magnitud idéntica a las ventajas. La estadística oficial no es un mero ejercicio algorítmico sino un acuerdo conceptual, político y comunicacional. A la falta de consenso acerca de qué significa ser pobre, la estadística oficial responde con una o varias medidas que surgen de sopesar las ventajas y desventajas de distintos métodos, a fin de que existan herramientas estables que permitan medir la evolución del fenómeno y, fundamentalmente, comparar la pobreza en distintas regiones y periodos. Es una tarea que requiere una esperable estabilidad conceptual y algorítmica, para evitar caer en confrontar peras con manzanas. Es solo cuestión de imaginar el escándalo mediático que ocurriría con la comparación de las cifras de pobreza si los datos, más que venir de encuestas sistemáticas, se originaran en información online de empresas que aparecen y desaparecen, o en redes sociales que súbitamente dejan de existir o pasan de moda.
Angus Deaton, premio Nobel de economía en 2015, dijo que “las líneas de pobreza son construcciones tan políticas cómo científicas”. La principal limitante en la adopción de big data para medir la pobreza no son ni los datos ni los algoritmos, sino la creación de consensos para su uso confiable. Porque más allá de sus propiedades técnicas, no hay peor estadística que aquella en la que nadie cree.