Syndicate content

Comment mesurer la taille d’une personne à partir d’une photo ? En misant sur la collaboration de nos experts en enquêtes et analystes des données

Michael M. Lokshin's picture
Cette page en : English | Español
À gauche : Un sujet tenant l’image étalon. À droite : Silhouette tirée de la photo, après segmentation sémantique de l’image par Tensorflow/DeepLab.


Pour évaluer les tendances de l’état de santé de populations diverses, on a notamment recours à l’anthropométrie, une technique qui consiste à mesurer les caractéristiques dimensionnelles d’un individu. Dans le cadre d’un travail d’entretiens sur le terrain, nous recherchions une méthode simple pour mesurer avec fiabilité la taille des personnes interrogées. L’idée était de les photographier avec un objet étalon en main. Le processus de résolution de notre problème nous a permis de tirer deux enseignements remarquables :

  • Grâce à un processus d’affinement itératif, nous avons su mesurer la taille d’une personne, avec une marge d’erreur de 1 %, à partir d’une image du sujet tenant une impression papier calibrée. Nous prévoyons d’intégrer cette fonctionnalité à la plateforme Survey Solutions de la Banque mondiale (a), qui propose des outils gratuits pour des entretiens face-à-face assistés par ordinateur.
  • Nous nous sommes rendu compte que, pour résoudre notre problème, la meilleure solution était de mettre sur pied une équipe interne de spécialistes des enquêtes et d’analystes des données. C’est en mariant notre expertise, notre connaissance du terrain et nos compétences d’analyse des données, le tout accompagné d’une dose bienvenue de créativité, que nous sommes parvenus à mettre au point un prototype fonctionnel. 

Le défi : mesurer la taille des personnes et réduire le coût de la collecte des données

Notre objectif était de mesurer, à l’aide d’une photo, la taille des personnes interrogées lors des entretiens que nous menons régulièrement dans des pays à revenu faible et intermédiaire. Pour ce faire, nous avons d’abord pensé à utiliser comme étalon un objet standard, peu cher et très courant (une bouteille de plastique, par exemple). Le répondant, qui tiendrait la bouteille près de son torse, serait photographié au cours de l’entretien. Ensuite, grâce à l’apprentissage automatique, nous pourrions calculer la taille du répondant à partir de l’image et de la hauteur connue de la bouteille étalon.

Nos recherches s’inscrivent dans un programme plus large qui entend réduire le coût des données. Les informations issues des enquêtes auprès des ménages et des particuliers sont essentielles pour effectuer un suivi des progrès en matière de réduction de la pauvreté, de l’amélioration des conditions de vie et de la croissance économique. Mais ces enquêtes, qui supposent de mener des entretiens en tête-à-tête, sont coûteuses : dans un pays à revenu faible ou intermédiaire, le coût d’une enquête représentative à l’échelon national revient à environ 2,5 millions de dollars, soit 200 dollars par ménage. En raison du coût élevé des enquêtes, 78 pays sont privés de données, ce qui signifie, selon les critères de la Banque mondiale, qu’ils ne disposent pas de données récentes (datées de moins de 5 ans) sur les ménages.

Nous l’avons dit, l’anthropométrie sert à évaluer des tendances en matière de santé au sein de populations diverses : chez un enfant, par exemple, l’écart de mesures anthropométriques par rapport à une norme idéale peut indiquer la présence de maladies chroniques (si l’enfant est de petite taille pour son âge) ou aiguës (si le poids de l’enfant est faible pour son âge). On peut également déterminer la prévalence de la dénutrition et mesurer le besoin d’un apport nutritionnel. Sur le terrain, ce travail d’anthropométrie demande beaucoup de temps et nécessite un équipement spécial. Comme la plupart des enquêtes sont aujourd’hui réalisées à l’aide de tablettes, qui sont déjà dotées d’un appareil photo, l’évaluation de la taille (et du poids) des répondants à partir d’un cliché pourrait à la fois réduire le coût total d’une enquête et le temps nécessaire à sa réalisation.

Travailler avec une équipe interne de spécialistes des enquêtes et d’analystes des données

Pour nous aider, nous avons sollicité trois entreprises leaders dans le secteur de l’apprentissage automatique. Au sortir de discussions préparatoires, toutes les trois nous ont informés qu’elles ne pouvaient proposer ni technologie ni méthode fiable. Malgré leur réponse négative, nous avons décidé de nous lancer seuls.
 
Dans un premier temps, nos tentatives d’exploiter des outils d’apprentissage automatique standard ont confirmé la conclusion pessimiste des experts externes. Nous n’avons pas réussi à mettre au point un algorithme qui identifie de manière fiable le contour d’une bouteille de plastique ou d’une canette de soda, parce que sa surface réfléchit la lumière en de multiples endroits et que les étiquettes ne sont pas uniformisées. Les répondants risquaient par ailleurs de tenir la bouteille à des distances différentes de leur corps, ce qui fausserait le calcul.
 
Nous avons effectué une première avancée quand nous avons compris que nous pouvions remplacer un objet en 3D par l’image d’un damier. Cette solution est parfaitement satisfaisante : nous pouvons confier à un enquêteur un motif imprimé sur feuille de papier qu’il remettra à chaque répondant avant de le prendre en photo. L’impression papier cumule plusieurs avantages : elle ne coûte pas cher, elle résiste à diverses conditions sur le terrain et se remplace facilement. L’apprentissage automatique identifie aisément un damier à contraste élevé étant donné que de nombreux algorithmes sont expressément formés à la reconnaissance de ce motif. Nous avons ensuite calculé la taille d’une personne en comparant les dimensions (en pixels) d’un objet de taille connue avec les dimensions d’un corps humain (illustration 1). Nos résultats ont immédiatement gagné en précision, sans toutefois s’approcher de notre seuil d’acceptation d’erreur de plus ou moins 2 cm.
 

Illustration 1 : À gauche : Un sujet avec l’image échantillon. Les lignes rouges du damier sont surimprimées par l’algorithme qui identifie les coins des carrés. À droite : Silhouette tirée de la photo, après segmentation sémantique de l’image par Tensorflow/DeepLab.

Nous avons isolé les deux principaux facteurs qui nuisaient à la précision. Premier facteur : comme vous le voyez sur la photo de droite, le rectangle rouge qui délimite la silhouette s’arrête à la pointe des pieds. La projection 2D de la longueur des pieds étire l’image dans le sens vertical. Deuxième facteur : les personnes tiennent la feuille de papier plus ou moins loin de leur corps, ce qui fausse le calcul.

La solution à ces deux problèmes est de photographier le sujet de profil (voir illustration 2), ce qui permet d’éliminer les erreurs liées aux pieds qui entrent dans le cadre. Notre algorithme délimite à présent la silhouette des talons jusqu’au sommet du crâne. Comme les personnes photographiées tiennent les bras le long du corps, la feuille est à une distance constante du corps. Ces ajustements ont réduit la marge d’erreur au niveau presque acceptable de 3 à 5 %.

Nous avons ensuite affiné notre méthode en trouvant la distance optimale entre la personne photographiée et l’appareil photo. Une trop grande proximité produit une distorsion en barillet de l’objectif, ce qui altère la précision. Avec les clichés pris de loin, la précision est moindre parce que les dimensions du sujet sur la photo sont mesurées en pixels : ainsi, plus il est éloigné, plus la zone couverte par un seul pixel est grande. Pour pallier ces difficultés, l’application de collecte des données affiche des zones de cadrage (illustration 3) qui guident l’utilisateur dans la réalisation d’un cliché à distance optimale. Le sujet doit être positionné dans le viseur de façon à ce que sa taille déborde du petit rectangle jaune et s’inscrive dans le plus grand.
 

Illustration 2 : Photos de profil avec feuille à damier et silhouette segmentée par DeepLab.

Nous avons ainsi réussi à obtenir une mesure suffisamment précise de la taille d’un individu à partir d’un simple cliché réalisé sur une tablette avec appareil photo intégré. Lors de nos essais, lorsqu’une personne était placée à une distance optimale, l’erreur de calcul ne dépassait pas 1 %, soit environ 2 cm pour un adulte.

Et maintenant ?

Nous prévoyons d’intégrer cette technologie dans la plateforme gratuite Survey Solutions mise au point par la Banque mondiale pour la collecte de données sur le terrain. Cette méthode d’entretien assisté par ordinateur est déjà utilisée par 120 pays. Nous aurons donc largement l’occasion de tester l’application en conditions réelles. Nous allons mener une série de projets pilotes destinés à accroître la précision de notre algorithme, notamment pour rectifier les distorsions liées aux types de coiffure. Nous envisageons d’homologuer notre méthode pour les enfants, chez qui la précision des mesures est plus importante. Nous voulons par ailleurs élargir notre méthodologie à la mesure des parties du corps, voire au calcul du poids à partir d’une série de clichés.

Que retenir de l’opportunité de collaborer avec des experts externes ?

Principal enseignement de cet exercice : il est possible de trouver la solution à un problème d’apprentissage automatique en dehors de la sphère de l’apprentissage automatique. C’est grâce à notre expertise, notre bon sens et notre approche empirique que nous sommes parvenus à apporter les ajustements nécessaires à la résolution du problème. En d’autres termes, pour résoudre nos difficultés, il était indispensable de comprendre la nature du processus et le contexte dans lequel nous opérons.
 

Illustration 3 : Application pour tablette avec zones de cadrage pour que l’appareil photo soit à distance optimale

Cette expérience met en évidence l’inefficacité de solliciter des experts externes. Certes, il serait malvenu de généraliser nos conclusions sur la base des échanges limités que nous avons eus avec des experts externes, mais dans les trois cas, nous n’avons reçu aucun conseil constructif sur la manière d’aborder le problème que nous voulions résoudre. Les raisons de cet échec s’expliquent en partie par l’absence de cadre incitatif. Les entreprises privées ont pour motivation de vendre leurs produits et leurs services, de sorte qu’à chaque réunion, leurs experts faisaient la promotion de leurs outils d’intelligence artificielle et d’apprentissage automatique. Comme de nombreuses ressources en ligne offrent une documentation riche de ces outils, nous les connaissions déjà. Dans l’hypothèse peu probable où certaines fonctionnalités non référencées de ces outils standard auraient pu répondre précisément à nos attentes, une expertise externe nous aurait été bénéfique. Elle nous aurait également servi à peaufiner notre modèle de segmentation et à trouver la configuration optimale de l’algorithme. Mais, comme nous venions à peine de lancer le projet au moment de ces réunions, ces questions ne se posaient pas encore.

Autre difficulté : la durée et le coût onéreux de ces échanges. La solution que nous avons trouvée a exigé de multiples itérations et discussions, souvent informelles et improvisées, qui sont possibles entre collègues, mais qui auraient été difficiles à organiser avec des experts externes dont les honoraires s’élèvent entre 300 et 400 dollars par heure.

Conclusion : l’approche optimale pour le développement d’outils et d’algorithmes liés à l’intelligence artificielle et à l’apprentissage automatique consiste, pour nous, à mettre sur pied une équipe de spécialistes internes et d’analystes des données capable de formuler des exigences opérationnelles pour le problème qui nous occupe. Cette équipe recherchera et identifiera les outils disponibles, et s’attachera à démontrer la faisabilité de sa méthode en vue de cerner les lacunes des technologies existantes. C’est à ce stade uniquement, lorsque la solution est plus développée, qu’il pourra s’avérer utile de demander l’avis d’experts externes, soit pour affiner le modèle, soit pour lever les obstacles mis au jour au cours du processus d’élaboration.

Vos questions et commentaires (soumis à modération)