Autofocus IA : nouvelle technologie de détection

L’autofocus de nos appareils photo vit une petite révolution. Les avancées de l’intelligence artificielle lui permettent de reconnaître plus facilement des sujets plus variés. En effet, outre les classiques visages, les AF modernes savent détecter des silhouettes humaines, des animaux terrestres, des oiseaux, des véhicules de toutes formes… De quoi simplifier tous les types de photos et de vidéos – à condition de comprendre les réglages de son appareil.

Vous avez dit « intelligence artificielle » ?

Avant tout, il faut expliquer de quoi il s’agit. Historiquement, l’intelligence artificielle regroupe toutes les technologies visant à reproduire un raisonnement. Elle intègre par exemple les algorithmes destinés à comprendre un ordre verbal, à traduire une phrase ou à résoudre des problèmes.

Détection de visages par des classificateurs de Haar — Exemples de classificateurs de Haar, utilisés pour reconnaître un nez et des yeux. © Soumyanilcsc, licence CC-BY-SA

Par exemple, cela fait une quinzaine d’années que les appareils photo sont capables de détecter un visage. Pour cela, ils utilisent des « classificateurs ». Ceux-ci sont établis statistiquement à partir de nombreux portraits et détectent des motifs caractéristiques simples. Appliqués en cascade sur différentes zones de l’image, ils permettent de détecter un visage. Cela fonctionne extrêmement bien en portrait, mais l’algorithme perd le sujet dès que l’image s’éloigne des conditions inhabituelles. À l’inverse, tous les paysagistes ont déjà vu le cadre indiquant un visage apparaître dans un rocher ou dans un arbre…

De l’IA à l’apprentissage profond

Récemment, une acception plus réduite s’est imposée : lorsque nous parlons d’intelligence artificielle, nous parlons surtout d’apprentissage profond. Il s’agit en quelque sorte de reproduire l’apprentissage naturel, lorsque nous montrons à un enfant divers objets en les nommant pour qu’il les connaisse.

Rencontre entre Bambi et Fleur © Disney — Illustration du fonctionnement de l’apprentissage automatique, lorsque Panpan donne à Bambi les noms de tout ce qui les entoure. Et de sa principale limite : si, dans l’ensemble des clichés, tout ce qui est au sol est étiqueté « fleur », le faon n’a aucune chance de saisir la différence entre une fleur et une mouffette… © Disney

Concrètement, il faut d’abord étiqueter manuellement d’immenses photothèques. Ensuite, un réseau de neurones informatiques analyse images et métadonnées pour chercher ce qui caractérise un visage. Ce système est beaucoup plus souple que les méthodes précédentes. En effet, lors de l’étiquetage, nous n’indiquons pas seulement les visages de face avec les yeux ouverts : nous allons naturellement pointer également ceux de trois quarts, les enfants qui grimacent, les têtes de dos, etc.

Par ailleurs, il est relativement simple de créer une nouvelle reconnaissance de sujet : il « suffit » de fournir un nouveau jeu d’images étiquetées. Toute la difficulté se trouve dans cette étape. L’efficacité de l’autofocus dépendra en effet directement de la quantité, de la variété et de la précision des données analysées. Si, par exemple, toutes vos photos étiquetées « animal » montrent un mammifère, l’appareil ne détectera jamais les animaux qui ne ressemblent pas à des mammifères – les reptiles par exemple. Un travail méticuleux et fastidieux est donc nécessaire en amont pour obtenir un AF performant.

Photos d'oiseaux étiquetées avec la zone de mise au point attendue — Préalable indispensable à tout entraînement d’IA par apprentissage profond : créer un jeu de données immense et étiqueté avec précision…

Par ailleurs, l’apprentissage profond donne un logiciel très gourmand. Il faut donc une mémoire plus large et un processeur plus puissant qu’avec un algorithme classique. Il existe désormais des puces spécialisées dans ces tâches, les NPU, relativement peu coûteuses. Néanmoins, c’est la principale raison pour laquelle les constructeurs créent un apprentissage par type de sujet : reconnaître tous les sujets possibles demanderait une base de milliards d’images et prendrait trop de ressources pour un appareil photo.

L’autofocus parfait en portrait ?

La reconnaissance des visages fut le premier cheval de bataille des systèmes d’analyse d’image. Les premières recherches remontent aux années 1970 ! Plus récemment, la détection des yeux et la reconnaissance de personnes précises ont été ajoutées. Sans surprise, mieux détecter les humains a donc été la première tâche des autofocus intelligents. Comme pour la reconnaissance du langage naturel, l’apprentissage profond s’est très vite révélé supérieur aux algorithmes classiques. Les autofocus actuels sont difficiles à piéger en portrait : ils reconnaissent un visage même de profil ou à contre-jour et font le point sur l’œil le plus proche qu’ils voient.

Photo de Félicia Sisco utilisant l'autofocus du Canon EOS R5 — Silhouettes à contre-jour et dos tournés n’empêchent pas le Canon EOS R5 de détecter les personnes et de faire le point sur leur tête ou leur visage. © Félicia Sisco / Canon

Comme le visage n’est pas toujours visible, les constructeurs étendent leurs jeux d’images à la forme humaine en général. Ainsi, les derniers modèles Sony, Canon, Fuji ou Nikon, entre autres, font le point sur la tête ou sur la silhouette, à défaut de voir le visage.

Les animaux, domestiques ou non

Après la famille et les amis, les animaux domestiques sont les deuxièmes sujets les plus photographiés. Ils sont même devenus un cliché en soi, en particulier les chats. Il n’est donc pas surprenant que les constructeurs aient rapidement travaillé sur leur détection. Ici aussi, les premiers exemples remontent en fait à l’ère des simples algorithmes. Fujifilm avait introduit la reconnaissance des chiens et des chats sur son compact F80EXR, en 2010 ! Les résultats d’alors manquaient beaucoup de fiabilité : l’animal devait être peu ou prou de face et bien distinct du fond pour être détecté.

Suivi de chat par l'autofocus du Panasonic S5 — Malgré un cadrage compliqué (à distance entre deux obstacles), le Panasonic S5 a détecté et suivi le corps du chat tout au long de son déplacement, même derrière la végétation. Les vignettes de droite sont recadrées. © Franck Mée

Ce n’est plus le cas aujourd’hui. Grâce aux IA modernes, chiens, chats et autres animaux sont détectés précisément, même en pleine nature. Pour l’anecdote, il y a un an, l’auteur de ces lignes testait la stabilisation du Panasonic S5 lorsqu’il a vu un chat descendre un talus à une dizaine de mètres. L’appareil a détecté la forme mouvante, même lorsque la face était invisible derrière la végétation ! Les hasards poétiques comme la désormais célèbre photo de panthère cachée de Vincent Munier (un des points d’orgue du film La panthère des neiges) seraient-ils déjà de l’histoire ancienne ?

Notez que les animaux terrestres et les oiseaux sont très différents. La plupart des constructeurs ont donc utilisé deux jeux d’images séparés, donnant deux modes différents.

Rafale de véhicules

Autre sujet qui a énormément gagné avec l’intelligence artificielle : les véhicules, en particulier les voitures et motos en compétition. Il s’agit ici non seulement de faire le point précisément, mais de le faire vite et en continu. C’est en effet le sujet typique où le photographe utilisera la rafale, afin de saisir l’instant où la roue avant frôle la corde tandis que le pilote regarde au loin. Canon a notamment mis en avant la capacité de son EOS R3 à saisir parfaitement ces sujets, même à 30 im/s.

Détection de moto par IA sur l'autofocus du Canon EOS R3 — En plus de suivre l’œil du photographe, le Canon EOS R3 détecte les véhicules. © Canon

Comme pour les animaux, les véhicules terrestres et aériens se ressemblent peu. Si vous visitez un meeting aérien, pensez donc à vérifier si votre appareil dispose d’une catégorie « avions / hélicoptères ».

Le choix du sujet de l’autofocus, toujours pas automatique

C’est en effet une contrainte de la plupart de ces nouveaux systèmes d’autofocus : l’IA a, fondamentalement, un mode de fonctionnement pour chaque jeu d’images d’apprentissage. Elle ne sait pas spontanément jongler de l’un à l’autre. Or, créer un jeu qui couvrirait tous les sujets donnerait un logiciel beaucoup trop lourd pour un appareil photo.

Autofocus sur la tête d'un papillon par le Fujifilm X-H2S — La dernière mise à jour du Fujifilm X-H2S reconnaît les insectes, dans le même mode que les oiseaux. Mais il faut toujours choisir manuellement entre animal, oiseau, automobile, moto&vélo, avion ou train. © Fujifilm

Chez la plupart des constructeurs, vous devrez donc préciser le type de sujets que vous visez. La forme humaine et le visage sont généralement fusionnés, l’appareil passant de l’un à l’autre selon ce qu’il voit. Mais les animaux terrestres, les oiseaux, les véhicules roulants et les véhicules aériens font généralement l’objet d’autant de catégories séparées.

Décollage du Baron de Mika Brageot, meeting de Villeneuve-sur-Lot 2023 — Contrairement à son successeur, mon Sony α7R IV ne reconnaît pas les véhicules. Mais son autofocus continu sait repérer la couleur et la texture de la zone désignée en appuyant à mi-course. Or, il n’est pas nécessaire de reconnaître un Beechcraft Baron pour suivre la seule tache rouge de l’image… © Franck Mée

Reconnaître automatiquement quel mode d’IA utiliser sera sans doute l’objet de la prochaine évolution. En attendant, si vous ne voulez pas choisir manuellement une catégorie de sujet, il reste la solution classique : désigner vous-même la zone de mise au point. Tous les hybrides modernes savent, en mode continu, suivre le sujet que vous aurez accroché, tant que vous maintenez le déclencheur à mi-course. C’est un peu moins automatique, un peu moins intelligent, mais toujours efficace.