Dans les pays à faible revenu, la production agricole et la productivité des exploitations familiales ont des conséquences directes sur le revenu, la sécurité alimentaire et la nutrition des ménages. Les données sur les activités des petits exploitants qui sont collectées lors d’enquêtes à grande échelle auprès des ménages et des exploitations agricoles sont donc essentielles à l’élaboration de politiques visant à accroître la productivité agricole, grâce notamment à des intrants modernes et des pratiques adaptées au changement climatique.
Pourtant, la mesure précise des rendements des cultures, indicateur clé de la productivité agricole, reste difficile pour les petites exploitations. L'approche la plus courante pour estimer ces rendements dans les enquêtes à grande échelle consiste toujours à utiliser les données communiquées par les agriculteurs sur la production agricole et les surfaces cultivées. Cependant, selon des recherches récentes menées en Éthiopie (a), au Mali (a) et en Ouganda (a), les rendements déclarés par les agriculteurs comportent souvent des erreurs de mesure significatives et systématiques.
La technique des coupes-témoins (ou crop cutting en anglais) constitue une autre méthode — objective — d'estimation des rendements agricoles. Elle consiste à délimiter une portion de parcelle choisie au hasard, par exemple une zone de 4 x 4 mètres, puis à récolter et à peser la récolte de cette zone afin d'estimer le rendement de la culture. Le recours à cette méthode reste toutefois limité dans les enquêtes à grande échelle menées dans les pays à faible revenu, en raison de sa complexité logistique, des besoins importants en matière de supervision et, par conséquent, de ses coûts élevés.
La solution : l’apprentissage machine et l’intégration des données
Dans un nouveau document de travail (a) produit dans le cadre du programme d'études sur la mesure du niveau de vie (LSMS) (a) — programme phare de la Banque mondiale pour la réalisation d’enquêtes auprès des ménages —, nous cherchons à savoir s’il est possible de s’appuyer sur l’apprentissage machine et l’intégration de données pour recourir à l’imputation des données manquantes lorsqu'un agent chargé de la mise en œuvre d’une enquête adopte la méthode des coupes-témoins, mais que celle-ci est limitée à un sous-échantillon de parcelles en raison de contraintes budgétaires et logistiques.
L'imputation consiste à prédire des données manquantes. Dans le cas présent, les données disponibles pour les rendements agricoles servent à construire un modèle qui estime les données qui n'ont pas pu être collectées.
Nos recherches exploitent des données provenant de deux cycles consécutifs de l'enquête agricole nationale réalisée au Mali, l'une des rares enquêtes en Afrique qui applique la méthode des coupes-témoins pour une gamme étendue de cultures : mil, sorgho, maïs, riz, niébé et arachide.
Pour chaque culture, nous construisons un modèle prédictif par apprentissage machine des rendements observés dans les coupes-témoins en utilisant une partie seulement des parcelles qui ont fait l'objet de cette méthode pendant le travail sur le terrain. C’est l'échantillon d'entraînement. Les variables prédictives utilisées dans le modèle comprennent les rendements déclarés par les agriculteurs et les caractéristiques des parcelles mises au jour lors de l'enquête, ainsi que des variables géographiques, telles que la pluviométrie et la qualité du sol, qui sont dérivées de l'emplacement des parcelles géoréférencées.
Nous obtenons en retour des rendements « imputés » pour le reste de l'échantillon de coupes-témoins que nous excluons de l’entraînement du modèle. C’est l'échantillon test. La comparaison des rendements observés et des rendements imputés dans l'échantillon test nous permet de répondre à la question de recherche qui nous intéresse.
Quatre constats clés
- Le rendement déclaré par les agriculteurs apparaît comme un prédicteur clé, malgré ses lacunes : même si le rendement déclaré par les agriculteurs peut être sujet à des biais, il joue tout de même un rôle important dans la prévision des rendements issus des coupes-témoins. En outre, les modèles sont plus performants pour les cultures présentant des taux de cultures intercalaires faibles et des taux de commercialisation élevés, c'est-à-dire les cultures pour lesquelles les agriculteurs sont davantage susceptibles de pouvoir fournir des informations plus précises sur leur production.
- Les données géographiques améliorent la précision des prédictions : l'inclusion de variables géographiques, telles que les précipitations, l'altitude et la distance par rapport aux marchés, améliore considérablement la précision des rendements imputés des coupes-témoins. Ces variables fournissent des données objectives qui rendent compte des facteurs environnementaux et spécifiques à la localisation qui ont une incidence sur la productivité des cultures.
- L'imputation donne de meilleurs résultats au sein d’un même cycle d'enquêtes : les rendements imputés des coupes-témoins sont plus justes lorsque la prédiction des données manquantes concerne le même cycle d'enquêtes. Lorsque les modèles sont appliqués pour prédire les rendements au cours de différentes séries d'enquêtes (c'est-à-dire en utilisant les données de l'enquête de 2017 pour prédire les rendements de 2018), les résultats sont moins fiables. Il semble donc que la variabilité de la production agricole d'une année sur l'autre — due à des facteurs tels que les conditions météorologiques et les pratiques agricoles — rende difficile de généraliser les prévisions pour différentes campagnes.
- Limiter les coupes-témoins à un sous-échantillon restreint de parcelles peut s'avérer suffisant pour l’entraînement des modèles : pour la plupart des cultures, les modèles d'apprentissage machine ont généré des estimations de rendement qui correspondaient étroitement à celles issues des coupes-témoins, même lorsqu’on utilisait un petit sous-échantillon de données. La réalisation de coupes-témoins au minimum pour un tiers de l'échantillon, et de façon optimale pour 50 % de l'échantillon, peut constituer une approche rentable permettant d'obtenir des prévisions fiables pour les rendements des coupes-témoins. Ce constat a des conséquences importantes en termes de réduction des coûts des futures enquêtes, car elle évite d’avoir à effectuer des coupes-témoins à grande échelle.
Graphique 1. Moyennes de rendement selon les coupes-témoins (rouge), l'apprentissage machine (vert) et les déclarations des agriculteurs (bleu) aux niveaux national et régional en 2017
Conséquences pour la conception des futures enquêtes
Nos résultats ont des incidences importantes sur la conception des enquêtes agricoles dans les pays à faible revenu. La capacité à prédire les rendements des cultures à l'aide de l'apprentissage machine et de l'intégration des données permet de réduire considérablement les coûts associés à la réalisation d'enquêtes à grande échelle.
La réalisation de coupes-témoins sur un sous-échantillon restreint de parcelles et l’imputation des données manquantes pour le reste permettent aux décideurs publics et aux chercheurs d’obtenir des statistiques de rendement fiables tout en préservant leurs ressources financières.
Enfin, cette méthode peut se révéler particulièrement utile dans les zones difficiles d'accès, où il n’est pas possible d’appliquer la méthode traditionnelle des coupes-témoins. Dans de tels contextes, les méthodes d'imputation basées sur l'apprentissage machine offrent une solution pratique pour préserver la continuité des données et faciliter la prise de décisions fondées sur des données probantes.
Télécharger le document Yielding Insights: Machine Learning-Driven Imputations to Filling Agricultural Data Gaps
Prenez part au débat