Publicado en Blog de Datos

Imputaciones basadas en el aprendizaje automático ayudan a obtener información y cerrar la brecha de datos agrícolas

Imputaciones basadas en el aprendizaje automático ayudan a obtener información y cerrar la brecha de datos agrícolas

En los países de ingreso bajo, la producción agrícola y la productividad de las explotaciones familiares tienen consecuencias directas en los ingresos, la seguridad alimentaria y los resultados nutricionales a nivel de los hogares. Por lo tanto, los datos recopilados sobre las actividades agrícolas de los pequeños agricultores como parte de encuestas de hogares y explotaciones agrícolas a gran escala son fundamentales en el diseño de políticas cuyo objetivo es aumentar la productividad agrícola mediante la promoción de insumos agrícolas modernos y prácticas agrícolas climáticamente inteligentes, entre otras acciones.

Sin embargo, la medición exacta de los rendimientos de los cultivos —un indicador clave de la productividad agrícola— sigue siendo un desafío para los establecimientos agropecuarios pequeños. La utilización de datos proporcionados por los agricultores sobre la producción de cultivos y la superficie cultivada sigue siendo el enfoque más común para estimar los rendimientos de los cultivos en las encuestas a gran escala. Sin embargo, investigaciones recientes —realizadas en Etiopía (i), Malí (i) y Uganda (i)— han demostrado que se tienden a producir errores importantes y sistemáticos en la medición de los rendimientos de los cultivos declarados por los agricultores.

El enfoque alternativo y objetivo para estimar el rendimiento es el corte de cultivos. Este método requiere demarcar una porción seleccionada al azar de una parcela, por ejemplo, un área de 4x4 metros, luego cosechar y pesar el cultivo dentro de esta área para estimar el rendimiento. Sin embargo, la adopción del método del corte de cultivos sigue siendo limitada en las encuestas a gran escala que se llevan a cabo en los países de ingreso bajo, debido a su complejidad logística, los requisitos de supervisión significativos y, por ende, los elevados costos.

La solución: Aprendizaje automático e integración de datos

En una nueva investigación (i) del Estudio de Medición de los Niveles de Vida (LSMS) (i) —el programa emblemático del Banco Mundial de encuestas de hogares—, el equipo analiza si es posible recurrir al aprendizaje automático y la integración de datos para imputar los rendimientos de los cortes de cultivos “faltantes” de las pequeñas explotaciones agrícolas, cuando el método del corte de cultivos pueda ser adoptado por un ejecutor de una encuesta, pero limitado a una submuestra de parcelas debido a restricciones presupuestarias y logísticas.

La imputación se refiere al proceso de predecir los datos que faltan. En este caso, los datos disponibles sobre los rendimientos de los cultivos se utilizan para crear un modelo que estima los datos que no pudieron recopilarse.

Nuestra investigación aprovecha datos únicos de dos rondas consecutivas de la encuesta agrícola nacional en Malí, uno de los pocos sondeos en África que implementa el método del corte en una amplia gama de cultivos, entre ellos el mijo, el sorgo, el maíz, el arroz, el caupí y el cacahuate.

Para cada cultivo, creamos un modelo predictivo de aprendizaje automático de los rendimientos de los cortes observados utilizando solo una parte de las parcelas que se cortaron durante el trabajo de campo: la muestra de entrenamiento. Las variables predictoras en el modelo incluyen los rendimientos de los cultivos informados por los agricultores y las características de las parcelas que se extraen de la encuesta, así como variables geoespaciales, por ejemplo, las precipitaciones y la calidad del suelo, que se derivan de la georreferenciación de la ubicación de las parcelas.

A su vez, obtenemos rendimientos “imputados” de los cortes de cultivos para la muestra de cortes de cultivos restante que excluimos del entrenamiento del modelo: la muestra de prueba. La comparación de los rendimientos observados frente a los rendimientos imputados en la muestra de prueba nos ayuda a responder la pregunta de interés de la investigación.

Cuatro conclusiones principales

1. A pesar de sus deficiencias, el rendimiento de los cultivos informado por los agricultores surge como un factor predictivo clave: si bien el rendimiento de los cultivos informado por los agricultores puede estar sujeto a sesgos, sigue desempeñando un papel importante en la predicción de los rendimientos de los cortes de cultivos. Además, los modelos mostraron un mejor desempeño en el caso de los cultivos con bajas tasas de cultivo intercalado y altas tasas de comercialización, es decir, los cultivos que los agricultores pueden estar en mejores condiciones de entregar información más precisa sobre la producción.

2. Los datos geoespaciales aumentan la exactitud de las predicciones: la inclusión de variables predictivas geoespaciales, como las precipitaciones, la altitud y la distancia a los mercados, mejora significativamente la precisión de los rendimientos imputados de los cortes de cultivos. Estas variables proporcionan datos objetivos de los factores ambientales y específicos del lugar que influyen en la productividad de los cultivos.

3. La imputación funciona mejor dentro de la misma ronda de una encuesta: los rendimientos imputados de los cortes de cultivos son más precisos cuando predecimos los datos faltantes dentro de la misma ronda de una encuesta. Al aplicar los modelos para predecir los rendimientos en diferentes rondas de una encuesta (es decir, utilizar datos de la encuesta de 2017 para predecir los rendimientos de 2018), los resultados fueron menos precisos. Esto parece indicar que la variabilidad interanual en la producción de cultivos —impulsada por factores como el clima y las prácticas agrícolas— dificulta la generalización de las predicciones en diferentes estaciones.

4. Limitar el corte de cultivos a una submuestra de parcelas pequeña puede ser suficiente para el entrenamiento del modelo: en el caso de la mayoría de los cultivos, los modelos de aprendizaje automático generaron estimaciones de rendimiento que coincidían con las de los cortes de cultivos, incluso cuando se utilizó una pequeña submuestra de datos de los cortes de cultivos. Realizar el corte de cultivos en un mínimo de un tercio de la muestra, y de forma más óptima en el 50 % de la muestra, puede ofrecer un enfoque eficaz en función de los costos y, al mismo tiempo, lograr predicciones del aprendizaje automático fiables sobre los rendimientos de los cortes de cultivos. Esto tiene importantes consecuencias para la reducción de costos en futuras encuestas, al limitar la necesidad de realizar cortes de cultivos extensos. 

Gráfico 1. Medias del corte de cultivos (rojo), el aprendizaje automático (verde) y el rendimiento autoinformado (azul) a nivel nacional y regional en 2017. 

Medias del corte de cultivos el aprendizaje automático y el rendimiento autoinformado a nivel nacional y regional en 2017. 

Consecuencias para el diseño de futuras encuestas 

Nuestras conclusiones tienen consecuencias importantes para el diseño de las encuestas agrícolas en los países de ingreso bajo. La capacidad de predecir los rendimientos de los cultivos mediante el uso del aprendizaje automático y la integración de datos puede reducir de manera significativa los costos asociados con la realización de encuestas a gran escala. 

Con la aplicación del método del corte de cultivos en una submuestra de parcelas pequeña y la imputación de los datos faltantes en el resto, los responsables de formular políticas y los investigadores pueden obtener estadísticas confiables sobre el rendimiento agrícola y, al mismo tiempo, conservar los recursos. 

Por último, este enfoque puede ser especialmente valioso en zonas de difícil acceso, donde tal vez sea imposible el corte de cultivos tradicional. En tales contextos, los métodos de imputación que utilizan el aprendizaje automático ofrecen una alternativa práctica para mantener la continuidad de los datos y respaldar la toma de decisiones basada en evidencias. 

El documento se puede descargar en: Yielding Insights: Machine Learning-Driven Imputations to Filling Agricultural Data Gaps (i) (Imputaciones basadas en el aprendizaje automático ayudan a obtener información y cerrar la brecha de datos agrícolas)  


Ismael Yacoubou Djima

Economista, Estudio de Medición de los Niveles de Vida, Banco Mundial

Marco Tiberti

Economista, Estudio de Medición de los Niveles de Vida, Banco Mundial

Talip Kilic

Economista superior

Únase a la conversación

Este contenido no se mostrará públicamente
Caracteres restantes: 1000