Google est ton (faux) ami: l'arachnologie à l'épreuve des algorithmes

L'aranéologie n'est pas une science facile. La diversité des araignées est énorme, sans commune mesure avec les différents groupes de vertébrés: alors qu'il existe "à peine" 850 espèces d'oiseaux dans toute l'Europe, on compte environ 1600 espèces d'araignées rien qu'en France continentale (Corse non incluse)!
Dans le monde, leur diversité s'élève à plus de 51000 espèces décrites... Leur ordre (maintenant que les acariens ne sont plus considérés comme un seul ordre) n'est dépassé en magnitude que par certains ordres d'insectes.
En plus de cela, leur identification n'est généralement pas aisée. Certes, il existe quelques espèces d'araignées à l'allure particulière, que l'on peut assez aisément reconnaitre au premier coup d’œil, mais elles sont une exception, même si leur nombre croît peu à peu avec l'expérience et l'habitude de l'observateur. Une identification certaine à l'espèce requiert bien souvent un examen attentif des caractéristiques de l'animal, à la loupe ou sur une bonne photo macro (bien nette et sous un angle approprié) ou même, parfois, est impossible sans l'observation des pièces génitales de l'animal (ce qui n'est possible que s'il est adulte!) à l'aide d'une loupe binoculaire. 

Le but de ce rappel n'est pas de faire du gatekeeping pour décourager les enthousiastes qui voudraient s'y intéresser, ni de vous persuader que les arachnologues sont plus intelligents que vous, mais de souligner à quel point il faut faire preuve de prudence dans ses identifications, et se méfier de celles qui semblent trop faciles. On ne devient pas aranéologue en un jour, ni même en quelques mois. Maîtriser un sujet scientifique complexe prend des années, de l'expérience et beaucoup de travail. S'il vous semble souvent facile d'aller à l'espèce, c'est que soit vous avez de nombreuses années d'expérience et de pratique derrière vous, soit vous êtes victime de l'effet Dunning-Kruger!

Le problème, c'est qu'identifier les araignées n'intéresse pas que les passionnés. A peu près tout le monde sait qu'il en existe des espèces inoffensives, mais aussi quelques-unes, peu nombreuses mais très médiatisées, qui sont médicalement importantes, et dont la morsure peut avoir des conséquences déplaisantes. Il n'est donc pas rare qu'une personne qui ne connaît pas bien les araignées et ne s'y intéresse pas particulièrement veuille tout de même savoir qui est en train de se promener sur le mur du salon...

A ces personnes, sont souvent conseillés de formidables outils, faciles d'utilisation pour à peu près n'importe qui, qui fournissent rapidement et systématiquement un résultat à partir d'une simple photo: les algorithmes de reconnaissance d'image, notamment le plus utilisé de tous, Google Lens.

Google a-t-il rendu l'aranéologie aussi facile qu'une simple photo? Beaucoup semblent le croire...


Leur fonctionnement peut être résumé ainsi: les motifs de l'image fournie sont analysés, et comparés à ceux d'une banque d'images. Les images de la banque qui présentent le plus fort degré de similitude avec la photo fournie sont ensuite sélectionnées, et les informations qui y sont associées sont extraites pour construire le résultat de la recherche: ainsi, à partir d'une simple photo d'araignée non identifiée, Google Lens propose un nom. En quelques secondes et sans avoir eu besoin de demander à qui que ce soit ni d'ouvrir un livre, vous obtenez une identification...

Un outil miracle? Pas si vite...

... Encore faut-il qu'elle soit correcte. Or c'est souvent là que le bât blesse. Là où un.e arachnologue (humain.e) chevronné.e, s'il est impossible d'identifier votre araignée avec la photo fournie, ou s'il y a un doute possible, ne manquera pas de vous le préciser, Google donnera toujours un résultat définitif, de manière quasi-immédiate et sans donner de marge d'erreur. Même quand il tombe complètement à coté de la plaque, ce qui n'est pas rare.

Google donne toujours un résultat, qu'il soit correct ou non. En l'occurrence, ici, l'identification est fausse: il s'agit d'un mâle Habrocestum latifasciatum, une espèce de Salticidae de l'Est méditerranéen, et non de Maratus harrisi, une espèce australienne. Aucune des autres options proposées n'est correcte non plus.
 

Le problème c'est que si on ne connaît pas bien les araignées, on ne se rendra généralement pas compte de l'erreur...
Ces identifications incorrectes sont dues à deux facteurs principaux. En premier lieu, il y a le fait que les critères de similitudes entre les images, sur lesquels se base l'algorithme, ne correspondent pas forcément à des critères diagnostiques, c'est-à-dire utiles pour l'identification. Deux araignées qui se ressemblent énormément, en termes d'apparence générale, peuvent appartenir à des espèces, voire des familles, complètement différentes.

Ces deux araignées se ressemblent? Il s'agit pourtant de deux espèces, genres et même de deux familles différentes! (à g. Zoropsis spinimana, Zoropsidae, à d. Arctosa cf. personata, Lycosidae)

Au contraire, certaines espèces présentent un très fort dimorphisme sexuel, des couleurs ou motifs qui varient d'un individu à l'autre, ou changent même radicalement d'apparence au fil de la croissance vers l'âge adulte. Cela fait que deux araignées qui paraissent complètement différentes peuvent en fait être de la même espèce! 

Le mâle Argiope lobata est jusqu'à 5 fois plus petit que la femelle, et aussi de forme et couleur différentes; si on ne les voit pas ensemble, difficile de deviner qu'il s'agit de la même espèce!

Il ne s'agit pas ici de deux espèces différentes, ni même de deux sexes différents, mais d'un mâle immature (à g.) et d'un mâle adulte (à d.) de la même espèce, Saitis barbipes.

Certaines espèces, comme Pisaura mirabilis, varient fortement dans leurs couleurs et motifs, y compris au sein d'une même population


A cause de ces subtilités, que Google (qui se base seulement sur la ressemblance générale) n'est pas conçu pour surmonter, les erreurs sont fréquentes.

Un second facteur d'erreur majeur est celui de la disponibilité des éléments de comparaison, c'est à dire du nombre de photos disponibles dans la banque d'images pour une espèce donnée. Plus il y a de photos d'une espèce sur Google, et plus le moteur de recherche aura d'éléments de comparaison; celle-ci pourra donc être plus précise, et le résultat aura d'autant plus de chances d'être correct.
Les grands félins, par exemple, sont des animaux célèbres, charismatiques et abondamment photographiés. Bien que certaines espèces comme le léopard et le jaguar se ressemblent assez, il y a tant de photos de chacun de ces animaux sur Google images que Google Lens est capable d'une identification remarquablement précise, même à partir d'une image partielle! 

Il y a tant de photos de grands félins disponibles sur Google que le moteur de recherche est capable d'une identification à la sous-espèce près, même à partir d'une simple partie de l'animal!


En revanche, peu de gens s'intéressent aux araignées. Elles sont donc peu photographiées, et très inégalement. Les espèces communes, impressionnantes et très visibles sont globalement bien illustrées, tandis qu'il existe très peu, voire pas du tout, d'images disponibles pour certaines espèces plus rares, discrètes ou peu spectaculaires. 

Le résultat est une énorme différence dans l'abondance des images d'une espèce à l'autre. Le problème, c'est que cela influence lourdement les résultats des recherches, qui vont avoir plutôt tendance à aller vers les espèces les plus abondamment illustrées que vers le résultat correct, qui peut correspondre à une espèce peu ou pas (ou beaucoup moins) photographiée.

A ce biais "d'attraction de la célébrité" s'ajoute un autre, d'ordre géographique. A l'échelle mondiale, les gens qui parcourent la campagne, appareil photo en main, à la recherche d'araignées, et qui nourrissent les banques d'images en postant leurs photos sur internet, sont rares, mais ils le sont encore plus dans certaines parties du monde que dans d'autres.
Cela entraîne, dans les banques d'images, une surreprésentation des espèces de zones géographiques densément peuplées, aisément accessibles, riches (ce hobby nécessite tout de même de pouvoir s'acheter un appareil photo, un ordinateur avec une connexion internet, d'avoir du temps à y consacrer, la possibilité de se déplacer aisément, et d'avoir eu accès à une éducation naturaliste, même informelle) et donc très prospectées, comme l'Europe et l'Amérique du Nord, par rapport aux autres continents.

Ces inégalités géographiques sont particulièrement flagrantes sur la carte mondiale des observations d'arachnides postées sur la plateforme INaturalist: les espèces d'Europe et d'Amérique du Nord sont beaucoup plus observées et photographiées que celles des régions les plus reculées d'Asie, d'Afrique et d'Amérique du Sud, pourtant plus riches en biodiversité


Cela entraine un fort biais en faveur des espèces peuplant ces zones, en particulier nord-américaines, qui sont non seulement les plus enregistrées, mais aussi les plus recherchées sur Google. En conséquence, il est particulièrement fréquent que Google identifie des araignées d'autres parties du monde comme des espèces nord-américaines, simplement parce qu'elles sont sur-représentées dans sa banque d'images, et que cet outil de recherche est conçu et calibré en priorité par et pour les utilisateurs américains.

Il est courant, particulièrement pour les araignées de zones géographiques peu représentées dans les banques d'images, qu'elles soient identifiées à tort comme des espèces nord-américaines. Ici, une Anyphops sp. (famille des Selenopidae) d'Afrique australe, est identifiée comme une Dolomedes tenebrosus (Pisauridae) des USA

Enfin, et c'est sans doute le plus problématique, les espèces les plus représentées dans les banques d'images (du moins celle de Google) sont aussi les plus médiatisées; et quand on parle d'araignées, "les plus médiatisées" veut dire "les plus craintes".
Concrètement, cela veut dire que, si vous faites une recherche d'image pour une araignée peu photographiée et à l'allure peu reconnaissable, Google Lens a non seulement de fortes chances de se tromper, mais aussi et surtout de l'identifier comme un des "croquemitaines" avec lesquels les journaux adorent effrayer le chaland, comme la "recluse"!

Google Lens est prompt à prendre pour une "recluse" (genre Loxosceles) tout type d'araignée de couleur brune et unie, y compris, comme ici, celles qui n'ont rien à voir (l'image représente une Phyxelididae, qui se distingue aisément des Loxosceles par ses 8 yeux et ses pattes épineuses)

 

Google Lens est donc loin d'être un outil miracle pour l'identification d'araignées et d'autres animaux peu connus et difficiles à identifier, comme les insectes. C'est même un faux ami, car la rapidité et la précision du résultat donnent une fausse impression d'efficacité et de certitude, même quand il est totalement à côté de la plaque.
C'est pourquoi les arachnologues et entomologistes chevronnés grincent souvent des dents quand ils voient, sur les réseaux sociaux, des novices répondre à une demande d'identification par une simple recherche avec Google Lens, conseiller l'outil comme une solution miraculeuse, ou pire, contester une réponse correcte en arguant que Google donne un résultat différent.

Ceci dit, on ne peut pas vraiment en vouloir à Google Lens; ce n'est pas à ça qu'il est supposé servir. Google est un moteur de recherche, pas un guide d'identification. Le rôle premier (l'utilisation correcte, en fait) de Lens est d'aider à retrouver la source originale d'une image qu'on lui soumet.
Critiquer Google Lens parce qu'il n'est pas fiable pour identifier les araignées est aussi pertinent que de reprocher à une petite voiture citadine de ne pas être pratique pour un safari sur des pistes de terre inondées. Le problème, c'est qu'on a ici une situation où trop d'utilisateurs s'amusent à faire du hors-piste avec leur citadine, et la prennent pour la meilleure option disponible pour cet usage.
Identifier les araignées n'est pas une utilisation pertinente, pour laquelle il est conçu, de Google Lens.
Il existe, en revanche, des outils dont la vocation est l'identification naturaliste (pas les araignées seulement) à partir d'images. Ceux-ci sont normalement (au moins en partie, c'est rarement leur seule fonction) conçus pour fournir une identification, au moins provisoire, d'espèces vivantes. Ils devraient donc, en théorie, être plus performants dans cet usage que Google Lens.
Il serait donc intéressant d'en tester un, et de comparer sa performance et son utilisation à celle de Google Lens, qui nous servira en quelque sorte "d'étalon", puisqu'il s'agit d'un outil non spécialisé.

Outil généraliste, outil spécialisé: Quelles différences? A qui se fier?

Afin d'avoir une expérimentation aussi objective et juste que possible, les deux outils seront testés avec un même échantillon, incluant des photos de différentes espèces, correspondant (en théorie, mais on peut avoir des surprises, les humains ne réfléchissant pas comme des machines) à des niveaux de difficulté croissants dans l'identification. 

Le niveau d'entrée, prévu comme le plus facile, représente une espèce à l'allure, et surtout aux motifs, très caractéristiques et reconnaissables, sur un fond où elle ressort bien. Il s'agit, de plus, d'une espèce commune et répandue dans presque toute l'Europe, et qui, du fait de son aspect et de sa taille spectaculaires, ne manque pas d'être abondamment photographiée: une femelle Argiope bruennichi (famille des Araneidae).

Rien de bien difficile ici: Argiope bruennichi est une grosse araignée commune, diurne, très visible et spectaculaire; même les non-arachnologues ne manquent pas de la remarquer et de la photographier.

Toujours dans le niveau facile, la seconde image représente un mâle Philaeus chrysops (Salticidae), une araignée, là encore, caractéristique, et dont la coloration spectaculaire ne manque pas d'attirer les photographes. La principale différence avec Argiope bruennichi est qu'il s'agit d'une espèce thermophile et plutôt méditerranéenne, que l'on ne retrouve pas dans le nord de l'Europe, et qu'il existe d'autres Salticidae vivement colorées de rouge ailleurs dans le monde.

Le magnifique mâle Philaeus chrysops est facile à reconnaître

Pour la troisième image, qui représente un cran supplémentaire dans la difficulté, on est toujours avec l'espèce Philaeus chrysops, sauf que cette fois, il s'agit d'une femelle. La différence de difficulté vient du fait que, chez cette espèce fortement dimorphique, la femelle est nettement moins colorée et spectaculaire que le mâle, ce qui lui vaut d'être moins fréquemment photographiée. De plus, d'une population à l'autre, il existe un certain degré de variation dans la robe des femelles, ce qui peut induire des confusions. 

Moins colorée que le mâle, la femelle Philaeus chrysops est plus difficile à reconnaître, d'autant que sa coloration varie d'une localité à l'autre (ici, Turquie)

La quatrième image représente une araignée elle aussi européenne et répandue, y compris, à l'occasion, dans les maisons. Ses motifs sont assez caractéristiques et son identification ne présente pas de difficultés particulières, mais elle est discrète, nocturne, assez peu courante (sans être rare), et donc nettement moins photographiée et connue que les espèces précédentes: il s'agit de Liocranum rupicola (famille des Liocranidae). 

Bien que relativement facile à reconnaître pour qui a déjà croisé cette espèce, Liocranum rupicola est une espèce discrète, peu commune et peu connue

La cinquième image est une épeire pâle Araneus pallidus, une grosse espèce méditerranéenne, spectaculaire et relativement commune. En revanche, elle se distingue des espèces précédentes sur un point: elle partage son aire de distribution avec une espèce voisine, similaire et surtout bien plus célèbre: l'épeire diadème, Araneus diadematus. Visuellement, on peut distinguer ces deux espèces sur une combinaison de critères, mais aucun de ceux-ci, isolément, n'est sûr à 100%: la présence "d'épaules" pointues sur l'abdomen de pallidus (arrondies chez diadematus), la présence, la plupart du temps, d'anneaux foncés fins entre les anneaux épais des tibias chez diadematus (toujours absents chez pallidus), et les motifs de pallidus, qui sont généralement plus réduits que ceux de diadematus. Cependant, seul l'examen des pièces génitales permet de valider l'identification à 100%; une réponse que Google, dont la vocation est de produire un résultat, ne pourra pas fournir.
De plus, Araneus diadematus, contrairement à A. pallidus, se rencontre autant dans le sud de l'Europe que plus au nord, ainsi qu'en Amérique du Nord. En théorie, il y a donc de grandes chances que les algorithmes identifient à tort cette araignée comme une Araneus diadematus.

Araneus pallidus est une grosse araignée spectaculaire et facile à repérer, mais difficile à distinguer de sa célèbre cousine, l'épeire diadème (A. diadematus)

La sixième image, représentant un haut niveau de difficulté, est celle d'une espèce non identifiée du genre Mesiotelus de Turquie. Ce genre méditerranéen, de la famille des Liocranidae, cumule plusieurs caractéristiques qui le rendent difficile à identifier, aussi bien par un humain que par un algorithme: la caractéristique la plus frappante des Mesiotelus est justement l'absence de quoi que ce soit de vraiment distinctif; elles n'ont pas de motifs, une couleur terne, une silhouette et des proportions très "moyennes" par rapport aux autres araignées... Elles sont, de plus, peu communes, nocturnes, discrètes, et, comme elles sont peu spectaculaires et très rapides dans leur fuite, peu photographiées par les personnes qui les rencontrent. Pour ajouter encore à la difficulté, il s'agit d'un spécimen fraîchement mué, ce qui rend sa coloration anormalement claire et translucide.
De plus, par sa couleur beige et son absence de motifs, il rappelle vaguement les "recluses" (genre Loxosceles)... Là où un arachnologue humain fait aisément la différence (les Mesiotelus ont huit yeux, pas six), pas sûr qu'un algorithme gavé d'énormes quantités de photos de Loxosceles (du fait de leur utilisation fréquente par les journaux) parvienne à éviter l'erreur.

Mesiotelus est un genre obscur, qui inclut des espèces discrètes, d'allure insignifiante

Enfin, en "bonus", un niveau 7 "extra-difficile", une araignée rare, très peu photographiée, d'une famille dont même certaines personnes assez chevronnées en arachnologie ignorent l'existence: Izithunzi capense, une espèce de la famille des Drymusidae, endémique des environs de la ville du Cap, en Afrique du Sud. Non seulement la famille des Drymusidae est petite (18 espèces), mais elle est endémique de régions restreintes, plutôt peu peuplées et peu étudiées, en Amérique du Sud et en Afrique australe. De plus, ces araignées à six yeux, aux longues pattes dépourvues d'épines, ressemblent beaucoup aux "recluses" du genre Loxosceles (leurs deux familles sont apparentées, mais les Drymusidae ne sont pas médicalement importantes), en plus grand et en plus sombre. La différence la plus aisément discernable, le fait que les Drymusidae soient des tisseuses de toiles là où les Sicariidae (la famille qui inclut Loxosceles) sont errantes, n'est pas visible sur la photo.
Très peu d'images de cette espèce sont disponibles sur Google, et son apparence générale risque de rendre la tâche fort difficile pour les algorithmes. 

Image n°7: mâle adulte Izithunzi capense, famille des Drymusidae

 

Test 1: Google Lens

Niveau 1: Argiope bruennichi femelle

Comme prévu, pas de grande difficulté pour cette identification. Cependant, Google montre déjà ses limites: le nom qu'il propose n'est pas le nom binomial (le "nom latin"), c'est à dire le nom scientifique, officiel et international, en l'occurrence Argiope bruennichi, mais un nom commun: "Argiope frelon". Le problème, c'est qu'il ne s'agit pas du seul nom commun de cette espèce (une des raisons pour lesquelles les scientifiques s'embêtent à utiliser des noms latins!) et que si vous connaissez cette espèce sous un de ses autres noms, comme "épeire frelon", "épeire fasciée" ou "Argiope fasciée", cela peut vous faire croire à une espèce différente. De plus, Google propose, juste à côté, une autre identification possible, Argiope amoena; une espèce qui, en réalité, ne ressemble pas à bruennichi, mais il apparaît visiblement que certaines photos de bruennichi de la banque d'image sont étiquetées à tort comme amoena! Encore un élément qui peut porter à confusion...
Un résultat, honnêtement, surprenant: il était inattendu que de telles difficultés surviennent avec une identification a priori considérée comme très facile. 

L'identification de Google est correcte, mais imprécise: "argiope frelon" n'est qu'un des plusieurs noms communs de l'espèce, ambigüité que l'utilisation du nom scientifique aurait dissipé.
L'autre option que Google proposait, Argiope amoena, est nettement différente de notre Argiope bruennichi. Cependant, la présence de photos mal étiquetées (encadrées ici en rouge), ou simplement étiquetées "Argiope" dans la banque d'images correspondant à A. amoena, a induit le moteur de recherche en erreur.


Niveau 2:
Philaeus chrysops mâle

Pour ce second niveau, Google se débrouille étonnamment mieux qu'avec le premier. Cependant, il ne propose pas directement d'identification, mais présente des images identifiées comme similaires, qui représentent toutes des mâles Philaeus chrysops, et étiquetées comme telles. Cela reste un succès, puisque ce résultat permet d'arriver, sans risque d'erreur, à l'identification correcte.

Bien qu'aucun nom ne soit proposé d'office, Google Lens propose une sélection d'images qui représentent la bonne espèce, et étiquetées avec le bon nom. C'est un succès!


Niveau 3:
Philaeus chrysops femelle

Bien plus de difficulté avec la femelle qu'avec le mâle. C'est un échec total: deux identifications possibles, les genres Pellenes et Aelurillus, sont proposées; aucune des deux n'est correcte. De plus, aucune des images identifiées comme similaires ne représentent Philaeus chrysops. Au troisième niveau, on a déjà atteint la limite des capacités d'identification de l'outil, qui se base sur la forme générale et les motifs de l'image pour identifier des similitudes; le problème, c'est que la silhouette trapue et la présence de marques blanches ne suffisent pas pour l'identification, car il ne s'agit pas de caractères uniques à cette espèce...

Aucune des identifications proposées, ni d'ailleurs aucune des images que l'algorithme identifie, selon ses critères, comme similaires, ne représentent la bonne espèce

Niveau 4: Liocranum rupicola femelle

Sans surprise, Google Lens rencontre des difficultés évidentes avec cette identification. Cependant, ce résultat est moins mauvais que celui du niveau trois, et pour plusieurs raisons:
- Pas moins de sept identifications différentes sont proposées par Google. Aucune n'est correcte, mais il sera au moins évident pour l'utilisateur que rien n'est certain...
- Parmi les images identifiées comme similaires par l'algorithme, certaines représentent la bonne espèce. Si l'utilisateur prend la peine de faire le tri parmi les différentes images similaires, il n'est donc pas impossible de tomber sur la bonne réponse. Difficile, mais pas impossible. De plus, ce résultat, s'il reste faux, a l'avantage d'afficher explicitement une incertitude, ce qui permettra au moins d'éviter à l'utilisateur de faire trop confiance à un résultat complètement faux.

Ici, le résultat est proposé avec une hésitation explicite. Au moins, l'erreur ne portera pas les habits de la certitude...

Niveau 5: Araneus pallidus femelle

Comme prévu, ici, l'algorithme se plante en beauté et identifie notre Araneus pallidus comme sa célèbre jumelle, l'épeire diadème Araneus diadematus. Les deux espèces sont si similaires, et diadematus tellement plus célèbre que sa cousine, que pallidus n'est même pas considérée parmi les trois options proposées (A. diadematus, A. trifolium, une espèce nord-américaine, et A. quadratus), ni même parmi les images identifiées comme similaires, qui représentent toutes A. diadematus. De plus, on retrouve le même problème qu'avec Argiope bruennichi, où Google ne propose qu'un nom commun, épeire diadème, à la place de son nom officiel...

La véritable identification, Araneus pallidus, n'est même pas considérée comme une option par Google, qui ne propose que des images de sa jumelle A. diadematus

Niveau 6: genre Mesiothelus, femelle  

Là encore, non seulement la véritable identification ne fait absolument pas partie des identifications proposées, mais son apparence générale brune, sans motifs et à longues pattes, lui vaut évidemment d'être prise pour les plus célèbres des araignées brunes, sans motifs et à longues pattes: les Loxosceles, mieux connues sous les noms d'araignées "recluses" ou "violon". En plus, il faudra faire avec des noms communs...
Bien que des critères assez évidents distinguent notre Mesiothelus des Loxosceles, à commencer par ses yeux, bien plus grands, disposés différemment, et au nombre de 8 et non 6, la surreprésentation des Loxosceles dans la banque d'images, par rapport à toutes les autres araignées brunes d'allure insignifiante (qui sont généralement fort peu photographiées car peu spectaculaires), rend impossible pour l'algorithme de prendre en compte ces différences.
Non seulement, ici, l'identification aurait été complètement fausse, mais l'utilisateur aurait sans doute paniqué devant ce résultat...

Immanquablement, notre Mesiothelus, brune, à longue pattes et sans motifs, se retrouve identifiée comme une Loxosceles

Niveau "bonus": Izithunzi capense, mâle

Evidemment, Google Lens est complètement dans les choux devant notre bizarre araignée Sud-Africaine dont personne n'a entendu parler: non seulement les suggestions sont toutes à côté de la plaque, mais l'une d'elles ("faucheurs" ou opilions) n'est... Même pas une araignée!
En même temps, rien d'étonnant: une recherche de Izithunzi capense dans Google Images nous apprend que la banque d'images ne contient que 20 résultats en rapport (de près ou de loin) avec cette espèce, et à peine trois photos de l'animal vivant, dont aucune n'est en gros plan!
Impossible donc, pour l'algorithme, de débusquer une image ressemblante de cette espèce si peu documentée...

Evidemment, impossible pour Google Lens d'identifier notre araignée-mystère...

Et pour cause: une recherche Google du nom de cette espèce nous montre que sa banque d'images se résume à... trois photos de vues d'ensemble de l'animal vivant, et une d'un spécimen mort!

 


Score total: 2/6 (le 7 est un bonus, il ne compte pas).  Notre petit test confirme bien les critiques et réserves émises précédemment à son sujet: Google Lens n'est PAS votre ami, en tout cas pas pour identifier les araignées.
Dès les niveaux les plus faciles, l'outil montre des difficultés; il faut vraiment que l'araignée ait une allure très particulière, et surtout qu'elle soit facilement reconnaissable à ses couleurs et motifs, pour que l'identification tombe juste. Si d'autres taxons présentent des similitudes, même vagues, qui plus est si l'araignée de la photo soumise présente la moindre ressemblance avec une espèce nettement plus célèbre, l'identification sera erronée. De plus, un certain nombre de défauts sont simplement liés au fait que Google Lens n'est tout simplement pas conçu pour l'identification naturaliste: noms vagues ("araignée violon" peut désigner n'importe laquelle des 143 espèces de Loxosceles), erreurs d'identification dues à un mauvais étiquetage des images de la banque, et surtout, le fait que le moteur de recherche donne toujours un résultat, même quand il est faux, et sans possibilité de correction ou d'exprimer une incertitude. 

Par ailleurs, le cas d'Argiope amoena (Niveau 1) suggère un risque d'apparition d'une tendance préoccupante: à cause de quelques images mal étiquetées d'A. bruennichi dans sa banque d'images, Google Lens propose cette autre espèce parmi les autres options possibles. Comme les images proposées par Google ne représentent pas A. amoena, mais bien A.bruennichi sous un mauvais nom, il sera impossible pour quelqu'un qui ne sait pas à quoi ressemble amoena de se rendre compte de l'erreur. Cela veut dire que, si l'utilisateur qui s'est servi de Google Lens pour l'identification a retenu la mauvaise réponse, il risque de publier sa photo sur les réseaux sociaux, son blog ou un site hébergeur d'images sous le mauvais nom; ce qui va ajouter une image mal étiquetée de plus dans la banque d'images de Google. Plus le nombre d'utilisateurs qui répèteront l'erreur sera grand, plus le nombre d'images de bruennichi étiquetées amoena dans la banque de Google croîtra, et augmentera d'autant le risque de nouvelles identifications erronées. L'erreur s'amplifiant à chaque répétition, plus l'outil sera fréquemment utilisé pour l'identification, moins celui-ci sera fiable!

Google Lens peut être très utile, notamment pour retrouver la source originale d'une image (ce qui est l'usage pour lequel il est conçu), mais pas vraiment pour l'identification naturaliste, qui demande une précision qui dépasse ses limites.

Testons maintenant un outil spécifiquement conçu pour cette utilisation, afin de voir s'il se débrouille mieux que Google Lens, et si oui, par quels moyens il parvient à surmonter les défauts de celui-ci. 

Test 2: INaturalist

INaturalist n'est pas à proprement parler un outil d'identification automatisée, en tout cas pas seulement. Fondé en 2008, il s'agit d'une plateforme de sciences participatives, dont l'objectif premier est de permettre à ses membres de poster leurs observations de plantes et d'animaux, alimentant ainsi une énorme base de données (en octobre 2023, la base contient plus de 162 millions de données d'observations, toutes espèces confondues!). Cette impressionnante masse de données peut être utilisée par les scientifiques pour répondre à d'innombrables questions, allant, par exemple, de la biodiversité observable dans une localité donnée, à l'évolution de la distribution et/ou de l'abondance d'une espèce au fil du temps.
L'objectif premier de la plateforme n'est donc pas vraiment l'identification. 

Ceci dit, pour qu'une observation soit utilisable pour la recherche, il faut que l'espèce observée soit identifiée, et correctement. S'il fallait nécessairement pouvoir identifier correctement l'espèce pour pouvoir poster une donnée d'observation, seuls les scientifiques ou les amateurs chevronnés pourraient poster leurs données (ce qui est le cas pour d'autres outils similaires comme CardObs). Ce serait dommage, car l'énorme masse de données que peut réunir une plateforme utilisable par tout le monde est sans commune mesure avec ce que produirait un outil uniquement destiné aux experts, sans compter le nombre de passions et de vocations qu'elle a fait naître et cultive chez les membres du grand public.
Afin d'être utilisable par tous, INaturalist est donc l'une des seules bases de données de ce type à être dotée d'un outil d'identification partiellement automatisé.
Ainsi, quand vous publiez une image sur le site, la date sera automatiquement ajoutée, vous indiquez vous-même la localité où la photo a été prise puis, si vous cliquez sur la rubrique "nom d'espèce" sans en suggérer directement un, un algorithme d'identification automatisée vous en proposera une à soumettre à la communauté

On peut attendre de cet algorithme que sa performance soit assez différente de celle de Google Lens; en effet, contrairement à ce dernier, celui d'INaturalist est conçu et calibré pour l'identification naturaliste; cela devrait permettre d'éviter un certain nombre des embûches dans lesquelles Google a tendance à s'empêtrer. 

Note: la session d'INaturalist utilisée dans ce test est en anglais, car il s'agit d'un compte créé sur sa branche anglaise, mais il peut également être paramétré en français.

Niveau 1:  Argiope bruennichi femelle

Dès le premier niveau, INaturalist présente des différences évidentes par rapport à Google Lens. D'abord, la possibilité de fournir une localisation géographique de l'observation; non seulement ce renseignement est nécessaire pour lui donner une valeur scientifique, mais ajouter la localisation avant de solliciter l'algorithme lui permet de faire le tri, en restreignant les propositions aux espèces présentes ou probables dans la région que vous lui indiquez. Cela est bien utile pour éviter un problème courant, nous l'avons vu, avec Google Lens: voir une araignée photographiée quelque part identifiée à tort comme une espèce d'une région qui n'a rien à voir (par exemple une araignée photographée dans le sud de la France qui se verra identifiée comme une espèce exclusivement nord-américaine!).
De plus, INaturalist propose toujours, en plus du nom commun, le nom scientifique de l'espèce, qui dissipe toute ambigüité pouvant être liée à une imprécision du nom commun.
Enfin, et c'est probablement la plus importante différence avec Google Lens, l'outil d'identification d'INaturalist indique le degré de confiance de ses réponses: ici, il propose le genre Argiope comme identification certaine, et suggère A.bruennichi comme l'option la plus probable, en se basant à la fois sur une similitude visuelle et sur l'aire géographique de l'espèce.

Pour le niveau 1, INaturalist suggère l'espèce Argiope bruennichi (la bonne réponse donc), comme option la plus probable, et le genre Argiope comme identification certaine


Niveau 2: Philaeus chrysops mâle.

Ici, INaturalist semble mettre en évidence la même chose que Google Lens: un probable défaut de construction du test. Il semble, en effet, que le niveau 2 soit en fait plus facile que le niveau 1.
Comme Google, INaturalist identifie sans souci notre araignée comme un mâle Philaeus chrysops, avec certitude.

Aucun problème avec ce mâle Philaeus chrysops, identifié sans problème et avec certitude

Niveau 3: Philaeus chrysops femelle

Au niveau 3, l'algorithme d'INaturalist montre une nette supériorité sur Google Lens dans sa performance. Alors que ce dernier était tombé complètement à côté de la plaque sur le niveau 3, INaturalist propose encore une réponse juste et précise. Même quand la localisation n'est pas spécifiée, la réponse reste juste, quoique moins précise, et Philaeus chrysops reste en tête des espèces suggérées.

La discrète femelle Philaeus chrysops reste correctement identifiée par INaturalist, malgré l'extrême dimorphisme sexuel de l'espèce et son allure moins caractéristique que celle du mâle

Même quand la localité n'est pas spécifiée, la réponse perd en précision mais reste juste, et P.chrysops reste en tête de liste des suggestions

Niveau 4: Liocranum rupicola

Au niveau 4, Google Lens avait échoué, mais moins lamentablement qu'au niveau 3: au lieu de donner une réponse fausse mais catégorique, plusieurs résultats possibles avaient été proposés, indiquant une incertitude qui éviterait à l'utilisateur de lui faire une trop grande confiance. 
INaturalist, en revanche, continue de très bien se débrouiller sur ce niveau, proposant le bon genre avec certitude, et la bonne espèce en tête des possibilités. Ceci dit, le fait qu'il propose également d'autres araignées brunes d'aspect assez similaire comme options alternatives, indique que le niveau de confiance de l'algorithme dans ses suggestions a un peu baissé par rapport aux niveaux précédents. 

Au niveau 4, l'outil automatisé d'INaturalist tombe encore juste; ceci dit, la présence de suggestions alternatives dans d'autres genres, voire d'autre familles, indique une confiance moindre dans ses résultats

Niveau 5: Araneus pallidus femelle

Pour le niveau 5, INaturalist démontre une fois encore une performance très supérieure à Google Lens, non seulement dans son efficacité, mais dans sa conception, qui prend en compte les problèmes liés à l'existence d'espèces très similaires dans la même zone. Contrairement à Google, il est conçu pour proposer, quand cette situation se présente, toutes les options possibles, même quand une des espèces est bien plus commune et célèbre que l'(les) autre(s).
Ainsi, le piège dans lequel est tombé Google Lens à ce niveau est évité avec brio par INaturalist: l'outil nous donne le genre Araneus comme proposition certaine, et suggère les deux espèces jumelles présentes dans la localité, Araneus pallidus (la bonne réponse) et Araneus diadematus. Il parvient même à discerner les ténues différences ("épaulettes" plus marquées et pointues, absence de fins anneaux sombres entre les gros anneaux des pattes chez pallidus) entre les deux, qui lui permettent de proposer Araneus pallidus en tête de liste!

Non seulement INaturalist parvient à éviter le piège dans lequel est tombé Google en proposant les deux espèces, mais il parvient même à proposer Araneus pallidus en tête de liste!

Niveau 6: Mestiothelus sp.

Le dernier niveau sera celui qui aura raison des compétences de l'algorithme d'INaturalist. Malgré toutes les fonctionnalités dont celui-ci est doté pour contourner les difficultés sur lesquelles Google Lens trébuche dès les premiers niveaux, il fera ici la même erreur que ce dernier: à cause des proportions de son corps, de sa couleur, de son absence de motifs et de sa relative rareté (à peine 64 observations de ce genre sur le site, parmi plus de 160 millions), notre Mesiotelus sera, une fois de plus, prise pour une Loxosceles.
Avec toutefois un petit plus par rapport à Google Lens: des propositions alternatives d'espèces dans des familles complètement différentes, par exemple Filistata insidiatrix (Filistatidae) ou Zodarion sp. (famille des Zodariidae), qui indiquent une faible confiance dans le résultat.
Il s'agit tout de même d'un échec total, puisque la bonne réponse n'est pas dans la liste des suggestions. Cependant, il doit être noté que cet échec ne se présente qu'au tout dernier niveau de difficulté, avec un taxon sur lequel de nombreux humains assez chevronnés en arachnologie se seraient également cassé les dents. 

C'est finalement avec le dernier niveau que l'algorithme d'INaturalist rencontre ses limites: la bonne réponse n'apparaît pas dans la liste des suggestions.

Score total: 5/6.
Une performance sans comparaison avec celle de Google Lens. On mesure toute la différence entre l'outil spécialisé et celui qui n'est pas fait pour ça. Un outil bien rodé, mais pas infaillible: les identifications trop compliquées nécessitent des critères qu'un arachnologue humain expérimenté peut repérer, mais qui restent au-delà de ce qu'un algorithme de comparaison d'images peut détecter.

Niveau "bonus": Izithunzi capense mâle

Sans surprise, l'outil d'identification automatisée s'en sort mal sur ce niveau "extra difficile": plusieurs options proposées complètement différentes, dont une... Plante!!! Et aucune des réponses suggérées n'est la bonne...
Ceci dit, ici, le message habituel "nous sommes à peu près sûrs qu'il s'agit de ce genre" est ici remplacé par "We're not confident enough to make a recommendation": "nous ne sommes pas en capacité de proposer une identification avec confiance". Au moins, le message est clair: il ne faut pas faire trop confiance aux résultats proposés. Encore une caractéristique qui le rend mieux conçu pour l'identification que Google: INaturalist n'est pas fait pour toujours arriver à un résultat. Pour les situations où il est impossible d'arriver à un résultat fiable, une fonctionnalité a été prévue pour en informer l'utilisateur, là où Google donnera un résultat faux, sans la réserve appropriée.

Sans surprise, la difficulté de cette identification dépasse les capacités de l'algorithme; ceci dit, il est doté d'une fonctionnalité qui en informe l'utilisateur par un message l'indiquant explicitement.

De plus, ce n'est pas parce que l'outil d'identification automatisée coince que votre bête restera non identifiée. L'algorithme d'INaturalist n'est là que pour fournir une identification provisoire: une fois l'observation postée sur le site, elle est ensuite soumise à l'examen de la communauté, c'est-à-dire que les utilisateurs vont vérifier, et confirmer, ou au contraire corriger ou affiner, l'identification. Ce n'est qu'une fois celle-ci poussée à une précision maximale (l'espèce, ou le complexe, voire le genre quand une identification à l'espèce est impossible) et confirmée par plus de deux utilisateurs que la donnée est considérée comme utilisable pour la recherche. Evidemment, il n'existe aucun moyen de s'assurer que les personnes qui confirment une identification sont réellement qualifiées, mais c'est pour cela qu'au moins deux avis sont nécessaires, surtout que de nombreux biologistes amateurs ou professionnels, hautement chevronnés, interviennent sur la plateforme. Par ailleurs, l'identification peut toujours être confirmée ou contestée par d'autres après avoir atteint le "grade recherche", et ce statut peut être remis en question si plusieurs avis divergent. 

Sur INaturalist, une identification n'est donc définitive qu'à l'issue de ce travail de vérification. Ce n'est donc qu'après examen et validation par des humains que celle-ci peut être considérée comme fiable; l'outil automatisé ne sert qu'à orienter vers une option probable.
Ironiquement, c'est l'intervention d'experts humains qui fait toute la qualité et la fiabilité des identifications d'INaturalist. Pour le moment, les algorithmes de reconnaissance d'image ne sont pas (encore) adaptés à l'arachnologie.

Aussi séduisante que soit l'idée d'avoir des outils automatisés qui rendraient l'arachnologie facile pour tout le monde, en deux clics et à tous les coups, ce n'est simplement pas une réalité.
Google Lens, en particulier, n'est ni adapté ni efficace pour identifier les araignées. C'est d'autant plus problématique qu'il est, de loin, l'outil le plus utilisé...
Il peut éventuellement servir à proposer une identification préliminaire ou aider à restreindre le champ des possibilités, mais il est très important de ne surtout pas s'y fier aveuglément, et certainement pas de s'en servir pour contester l'avis d'un expert humain.
Ces algorithmes de reconnaissance d'image peuvent donc fournir une aide, mais absolument pas remplacer une identification d'arachnologue.
INaturalist offre à la fois l'option d'arriver à une identification préliminaire assez fiable grâce à son algorithme spécialisé et bien conçu, et de la soumettre ensuite à l'avis d'experts humains pour la vérifier; en plus de l'opportunité de rendre vos observations utiles à la recherche.
C'est donc un outil infiniment préférable à Google Lens si vous êtes à la recherche d'une identification rapide.
Sinon, vous avez également la possibilité de contacter directement des arachnologues; beaucoup interviennent sur des groupes Facebook spécialisés, ou peuvent être contactés directement par mail (trouvable en les recherchant sur Google); cela peut prendre un certain temps car les chercheurs tendent à être très occupés, mais vous obtiendrez une réponse sûre, honnête et de bonne qualité.
Je peux personnellement être contacté à l'adresse nopelanddiscovery@gmail.com pour toute question concernant les araignées. 

 

Addendum (22/10/2023): Suite à de nombreux et pertinents retours de la part de lecteurs (que je remercie du fond du coeur d'être si nombreux et impliqués), on m'a notamment fait remarquer une faille importante de mon test: toutes les photos utilisées sont de bonne qualité.
Des photos nettes, avec une lumière correcte, des détails aisément discernables, cadrées de manière à montrer le spécimen le mieux possible, sur un fond où il ressort bien, et prises avec un appareil décent et fait pour la macro.
Des photos, finalement, pas très réalistes par rapport à ce qui est souvent soumis à Google Lens pour identification. Le commun des mortels n'est pas arachnologue, et n'est pas non plus photographe.
C'est particulièrement vrai dans le cas de personnes pas forcément à l'aise avec les araignées, et hésitantes à s'approcher trop près. Bien souvent, les photos d'araignées soumises à Google Lens ne sont pas prises avec un appareil photo équipé et réglé pour la macro, mais à l'aide d'un téléphone portable (dont très peu de modèles ont un mode macro décent), et souvent trop sombres, floues, prises de trop loin... Des photos qui, même pour un arachnologue humain expérimenté, sont souvent de qualité insuffisante pour permettre une identification. 

Sachant que la performance de Google Lens était déjà très préoccupante quand on lui proposait de bonnes images, qu'en est-il avec des photos ratées? Essayons avec un autre mini-test à trois niveaux, spécial photos pourries.

Niveau 1: Steatoda triangulosa femelle (floue).

Cette image de Steatoda triangulosa présente un défaut typique des appareils au mode macro insuffisant (comme celui que l'on retrouve souvent sur les téléphones): avec un petit sujet, on a le choix entre une photo nette mais trop éloignée, ou une photo prise de suffisamment près, mais floue

Pour le premier niveau, nous avons une photo floue, sur un fond où le sujet ressort mal, mais qui présente une espèce courante, qui fréquente les maisons, et aisément reconnaissable: une femelle Steatoda triangulosa. Il est donc envisageable que nos algorithmes arrivent quand même à se débrouiller sur ce niveau.

INaturalist identifie avec certitude notre araignée comme une Steatoda, mais l'espèce proposée en tête de liste n'est pas la bonne

Lens, en revanche, identifie notre araignée comme une "veuve des villes"; un nom commun vague et porteur de confusion, qui, au vu des photos, semble faire référence non pas à Steatoda triangulosa, mais à S.grossa.

Nos deux outils arrivent à un résultat similaire: ils identifient tous deux notre sujet comme un membre du genre Steatoda, mais se trompent tous deux d'espèce, proposant Steatoda grossa, bien que triangulosa apparaisse dans la liste de leurs suggestions. INaturaliste garde tout de même une longueur d'avance, pour deux raisons: d'abord, il propose le genre Steatoda comme option certaine et les espèces comme des hypothèses, mais nous donne les noms communs et les noms scientifiques. Google Lens, en revanche, garde un de ses défauts principaux en nous gratifiant d'un simple "veuve des villes" pour désigner Steatoda grossa, un nom commun qui n'a rien d'officiel, et qui, en plus, présente une consonnance inutilement anxiogène: en entretenant une confusion avec les vraies veuves du genre Latrodectus, ce nom peut faire croire l'utilisateur à une dangerosité que cette araignée n'a pas.

Niveau 2: Micrommata ligurina juvénile (vue sous un mauvais angle)

Un angle loin d'être idéal pour l'identification...

Ici, la lumière, le cadrage et la netteté sont correctes, mais le défaut de l'image est d'un tout autre type: Micrommata ligurina est une espèce incroyablement rapide et agile, qui tend à détaler dès que l'on approche l'objectif. L'angle de la photo est loin d'être idéal pour une identification; de plus, cette espèce change radicalement d'apparence au cours de son développement: les juvéniles sont beiges, alors que les adultes sont verts (vert et marron pour les mâles).

Bien que le bon genre figure parmi les suggestions alternatives, l'option proposée en tête de liste par Lens est fausse: il ne s'agit pas ici d'une espèce de la famille des Pisauridae, mais des Sparassidae

S'il se trompe également, INaturalist affiche explicitement son incertitude, et propose la bonne réponse en seconde option

Evidemment, les deux algorithmes se trompent. Toutefois, ici encore, INaturalist conserve l'avantage: ses deux premières suggestions sont des Sparassidae (la bonne famille), et la bonne espèce est proposée en deuxième option. Surtout, encore une fois, l'outil indique explicitement qu'aucune de ses hypothèses n'est proposée avec confiance, tandis que l'identification erronée de Lens n'est pas accompagnée d'un avertissement.

Niveau 3: Segestria florentina mâle (sous-exposé).

Un mâle Segestria florentina, affreusement sous-exposé. On distingue tout de même sa silhouette, les épines de ses pattes, la position caractéristique de celles-ci (3 paires en avant, 1 en arrière) et sa couleur très noire, qui donnent quelques indices sur l'identification

Le dernier niveau correspond à une situation courante: c'est le soir, il fait sombre, et vous découvrez une grosse araignée mâle qui s'est perdue dans votre appartement. Vous essayez de la photographier, mais votre matériel n'est pas adapté, et le flash est bien trop faible. Résultat: une image horriblement sombre où on distingue à peine l'araignée. Bien que l'on distingue quelques détails utiles pour l'identification, et que l'allure de cette espèce soit caractéristique, il reste imprudent de proposer un nom avec certitude.

Devant cette image trop sombre pour permettre une identification, Google propose... Une recluse brune.

Incroyablement, l'espèce proposée en tête de liste par INaturalist est la bonne! (même si le message d'incertitude indique qu'il s'agit probablement d'un gros coup de chance)

Devant cette image particulièrement peu exploitable, Google Lens propose pourtant une identification: la recluse brune (Loxosceles reclusa)! Ce que l'on voit de la silhouette, et la présence d'épines visibles sur les pattes, ne présente pourtant aucune ressemblance avec les recluses... Mais ce résultat faux et anxiogène est pourtant proposé, sans aucun élément pour l'appuyer, par le moteur de recherche. Comme on l'a vu, c'est le défaut le plus problématique, et malheureusement un problème fréquent, de Google Lens: comme Loxosceles reclusa est probablement la plus médiatisée de toutes les araignées à cause des psychoses dont elle est l'objet, il a tendance à aller vers ce résultat dès qu'il lui est impossible de se diriger vers une option nettement identifiable. Quand Google ne sait pas, il en fait une "recluse"!
INaturalist, de son côté, nous donne encore son message d'incertitude, mais, étonnamment, nous propose la bonne réponse en tête de liste (même s'il s'agit probablement d'un coup de chance)! 

Evidemment, les algorithmes sont donc encore moins fiables avec des photos de mauvaise qualité qu'avec des images idéales pour l'identification. C'est un 0/3 pour Google Lens, et un honorable et étonnant 1.5/3 (demi-point accordé pour les marques explicites d'incertitude) pour INaturalist.
Ce test démontre cependant qu'aucun des deux outils n'est fiable pour identifier une araignée à partir d'une photo non optimale. 

Les algorithmes ne sont pas vos amis. Si l'arachnologie était aussi simple qu'une recherche Google, il n'y aurait pas d'arachnologues...



Les mots en vert et en gras dans l'article vous réorienteront vers un glossaire où ils sont définis.

Je suis l'auteur des images illustrant cet article, qui ne sont pas libres de droit.

Commentaires