Publicado en Blog de Datos

¿Cómo se puede medir la estatura de una persona a partir de una foto? Es posible gracias al trabajo conjunto de especialistas en encuestas y científicos de datos

Mishablog-1
A la izquierda: Un sujeto de prueba sostiene una imagen de referencia. A la derecha: Una silueta derivada de la foto obtenida usando el modelo de segmentación semántica para imágenes de Tensorflow/DeepLab.

Las mediciones del cuerpo humano se utilizan para evaluar tendencias de salud en diversos grupos de población. Queríamos tener una manera sencilla para calcular de modo confiable la estatura de una persona durante una entrevista sobre el terreno, utilizando una foto de dicha persona en que sostiene un objeto de referencia. Hemos desarrollado un enfoque y nos gustaría destacar dos cosas que aprendimos a lo largo del proceso:

  • Con un método de refinamiento iterativo, es posible averiguar la estatura de una persona con una precisión de 1 % a partir de una imagen bien compuesta de dicha persona sosteniendo una impresión en papel calibrada. Planeamos integrar esta funcionalidad en la herramienta gratuita de entrevista personal asistida por computadora (Survey Solutions CAPI) del Banco Mundial. (i)
  • Descubrimos que trabajar con un equipo interno de especialistas en encuestas y científicos de datos es la mejor manera de abordar este problema. Solo cuando combinamos nuestros conocimientos sobre el tema y la experiencia de campo con nuestras habilidades de la ciencia de datos y una buena dosis de ideas creativas para solucionar problemas, pudimos desarrollar un prototipo funcional.

El desafío: medir la estatura y reducir el costo de la recolección de datos 

Nuestro objetivo era calcular la estatura de un encuestado utilizando una foto tomada durante entrevistas realizadas en países de ingreso mediano y de ingreso bajo en los que habitualmente trabajamos. Para lograr esto, al comienzo queríamos utilizar como referencia para el cálculo un objeto estandarizado, barato y ampliamente disponible (por ejemplo, una botella plástica). Tomaríamos una foto del encuestado, con una botella cerca de su torso durante la entrevista y entonces utilizaríamos el aprendizaje automático para calcular la estatura del encuestado a partir de la foto y el tamaño conocido de la botella de referencia.

Esta investigación es parte de un programa más amplio, cuyo objetivo es reducir el costo de los datos. Los datos de las encuestas de hogares y de individuos son cruciales para monitorear los avances en la reducción de la pobreza, en las mejoras en el nivel de vida y en el crecimiento económico. Pero las encuestas de hogares con entrevistas en persona son caras; una encuesta representativa a nivel nacional en los países de ingreso mediano y de ingreso bajo cuesta en promedio alrededor de USD 2,5 millones, o USD 200 por hogar. Debido a estos altos costos, 78 países han sido calificados como carentes de datos por el Banco Mundial, ya que no se ha realizado en ellos como mínimo una encuesta de hogares en los últimos cinco años.

Las mediciones del cuerpo humano se utilizan para evaluar tendencias de salud en diversos grupos de población. Por ejemplo, la desviación de las medidas antropométricas de un niño de un estándar ideal podría indicar la presencia de enfermedades crónicas (si un niño es pequeño para su edad) o enfermedades recientes (si el peso de un niño es bajo para su edad). Estas medidas también se pueden utilizar para determinar la prevalencia de la desnutrición y para evaluar la necesidad de apoyo nutricional. Las medidas antropométricas realizadas en terreno son ejercicios que requieren mucho tiempo y equipos especiales. Dado que la mayoría de las encuestas actuales se realizan usando tabletas y estos aparatos tienen cámaras fotográficas, calcular la estatura (y el peso) de los encuestados a partir de una foto podría ayudar a reducir los costos totales de las encuestas y el tiempo que lleva realizarlas.

Trabajar con un equipo interno de especialistas en encuestas y científicos de datos

Nos pusimos en contacto con tres compañías líderes en aprendizaje automático, para que nos ayudaran a resolver nuestro problema. En las conversaciones preliminares, las tres empresas nos informaron que no podían ofrecer ninguna tecnología o enfoque confiable en esta área. A pesar de dichas opiniones, decidimos proceder por nuestra cuenta.

Nuestros primeros esfuerzos por aplicar herramientas estándares de aprendizaje automático para medir la estatura humana confirmaron las evaluaciones pesimistas de los expertos en aprendizaje automático externos. No pudimos desarrollar un algoritmo que identificara de manera confiable el contorno de una botella plástica o de una lata de refresco. El reconocimiento de la imagen de una botella no es confiable debido a los múltiples reflejos y a las etiquetas que no están estandarizadas. Además, las personas pueden sostener la botella a diversas distancias de sus cuerpos, lo que distorsionaría el cálculo.

Nuestro primer avance importante se produjo cuando nos dimos cuenta de que podíamos reemplazar un objeto tridimensional por la imagen de un tablero de ajedrez. Es totalmente aceptable para nuestros requisitos: podemos dar a los encuestadores un pedazo de papel con una imagen impresa que ellos entregarán a los encuestados que se tomarán una foto. Una imagen impresa es barata, adecuada para diversos entornos y fácilmente reemplazable. Una imagen de alto contraste de un tablero de ajedrez es ideal para el reconocimiento usando aprendizaje automático porque muchos algoritmos se entrenan específicamente para reconocer ese tipo de imagen. Entonces, calculamos la estatura de una persona comparando las dimensiones (en píxeles) de un objeto de un tamaño conocido con las dimensiones de un cuerpo humano (imagen 1). Inmediatamente, nuestras medidas se tornaron más precisas, pero aún lejos de nuestro umbral de aceptación de error de +/-2 centímetros.  

Mishablog-1
Imagen 1. A la izquierda: Un sujeto de prueba sostiene la imagen de muestra. Las líneas rojas en el tablero son superpuestas por el algoritmo de aprendizaje automático que identificó las esquinas de los cuadrados. A la derecha: La silueta derivada de la foto obtenida usando el modelo de segmentación semántica para imágenes de Tensorflow/DeepLab.

Identificamos los dos principales problemas que afectaron la precisión del cálculo de la estatura. Primero: tal como se puede ver en la imagen de la derecha, el rectángulo rojo que limita la silueta incluye los pies. La proyección en dos dimensiones de la longitud de los pies se suma a la dimensión vertical de una imagen. Segundo: los sujetos de prueba están sosteniendo el papel a distintas distancias de sus cuerpos, lo que distorsiona el cálculo.

La solución para ambos problemas fue tomar fotos laterales, como se muestra en la imagen 2. Esto eliminó automáticamente los errores relacionados con los pies que sobresalían. Ahora, el algoritmo de aprendizaje automático demarca la silueta del sujeto alrededor de los talones. Como los sujetos de prueba tienen sus brazos relajados a los costados de su cuerpo, el papel está a una distancia constante del cuerpo. Estos ajustes permitieron lograr una precisión a un nivel casi aceptable de 3 % a 5 % de error.

Conseguimos otros avances al encontrar una distancia óptima a la que debería estar de la cámara fotográfica el sujeto de prueba. El estar demasiado cerca produce una distorsión de “barril” del lente que afecta la precisión. Las imágenes tomadas a distancia también tienen menor precisión porque las dimensiones del sujeto de prueba en la foto se miden en píxeles, de modo que cuanto más lejos esté el objeto, mayor será el área cubierta por un solo píxel. Para eliminar estos problemas, proporcionamos cuadrículas como guía en la aplicación de recolección de datos (imagen 3) para ayudar al usuario a tomar la foto a una distancia óptima. El sujeto se debe colocar frente a un visor, ya que así su altura será mayor que el rectángulo amarillo más pequeño y menor que el rectángulo más grande.

Image
Imagen 2: Foto de perfil del sujeto de prueba con la hoja del tablero de ajedrez y la silueta segmentada por DeepLab

Como resultado, logramos cálculos más precisos de la estatura de las personas a partir de fotos tomadas con tabletas. En nuestros ensayos, cuando la persona estaba ubicada a una distancia óptima, el error de medición no excedió del 1 %, o cerca de 2 centímetros, en el caso de los adultos.

Lecciones sobre cómo y cuándo colaborar con expertos externos

Una de las lecciones principales de este ejercicio fue que se puede encontrar una solución a un problema de aprendizaje automático afuera del contexto del aprendizaje automático. Los ajustes que ayudaron a solucionar nuestro problema se basaron en nuestros conocimientos del tema, el sentido común y una estrategia de ensayo y error. En otras palabras, no habría sido posible encontrar las soluciones sin entender la naturaleza del proceso y el entorno en el que operamos.

Image
Imagen 3: Aplicación para tabletas que tiene guías que indican cuál es la distancia óptima para tomar las fotografías

Nuestra experiencia indica que existen algunas ineficiencias en el trabajo con expertos externos. Podría ser problemático generalizar nuestras conclusiones sobre la base de nuestras escasas interacciones con expertos, pero en los tres casos [las tres empresas] no recibimos ningún consejo constructivo acerca de cómo aproximarnos al problema que queríamos solucionar. ¿Por qué pasa esto? En parte, lo atribuimos a la estructura de incentivos. A las empresas privadas les interesa vender sus productos y servicios, de modo que en todas las reuniones los expertos se dedicaron a promover sus herramientas de inteligencia artificial y aprendizaje automático. Sin embargo, nosotros ya teníamos conocimientos de ellas, ya que existe mucha información en internet sobre la mayoría de estas herramientas. Si nuestro pedido hubiese coincidido exactamente —algo muy poco probable—con alguna funcionalidad no conocida y ofrecida por estas herramientas estándares, el asesoramiento de los expertos hubiese sido muy útil. La asesoría de los especialistas también nos hubiese servido para ajustar nuestro modelo de segmentación y seleccionar la configuración óptima del algoritmo de aprendizaje automático. Sin embargo, no estábamos preparados para eso, ya que acabábamos de comenzar el proyecto.

Otra dificultad al trabajar con expertos externos es el tiempo y los altos costos de estas interacciones. La solución que encontramos requirió múltiples iteraciones y discusiones, a menudo informales y no programadas, que fueron posibles entre colegas, pero que hubiesen sido muy difíciles de organizar con expertos externos porque estos cobran honorarios que oscilan entre USD 300 y USD 400 por hora.

Creemos que el enfoque óptimo para desarrollar herramientas y algoritmos de inteligencia artificial y aprendizaje automático es establecer un equipo interno de expertos en la materia y de científicos de datos que formule los requisitos operacionales para el problema en cuestión. Las herramientas existentes deben ser investigadas e identificadas y el equipo debe intentar construir un modelo de validación para entender las deficiencias de las tecnologías disponibles. Solo al llegar a este punto, cuando la solución esté más desarrollada, podría ser útil buscar el consejo de expertos externos, ya sea para ajustar el modelo de validación o para averiguar cómo superar obstáculos descubiertos durante el proceso de formulación del modelo de validación. 


Autores

Michael M. Lokshin

Lead Economist, Office of the Regional Chief Economist, Europe and Central Asia

Únase a la conversación

Este contenido no se mostrará públicamente
Caracteres restantes: 1000