Concevoir des systèmes d'IA capables de reconnaître avec précision les caractéristiques de chaque lieu dans le monde au niveau individuel (c'est-à-dire être capable de distinguer clairement les lieux d'une même catégorie, par exemple les chutes du Niagara avec n'importe quelle autre cascade) et de récupérer des images (objets dans les images avec d'autres versions de cet objet dans chaque catégorie) font partie des objectifs de longue date du département de recherche intellectuelle. L'intelligence artificielle de Google présente un intérêt particulier. L'année dernière, la société a publié Google-Landmarks, un ensemble de données liées aux monuments de la Terre que Google prétendait être le plus grand au monde à l'époque, et elle a également organisé 2 concours (Landmark Recognition 2018 et Landmark Retriny 2018), qui ont attiré la participation de plus de 500 chercheurs de premier plan en apprentissage automatique et en intelligence artificielle dans le monde.

Suite au succès de l'année dernière, hier 5 mai, Google a officiellement publié l'entrepôt de données de formation IA Google-Landmarks-v2 avec code open source, comme une étape importante dans le plan visant à développer avec succès de nouvelles technologies. rapidement, avec précision et de manière sophistiquée. Cet entrepôt de données Google-Landmarks-v2 est beaucoup plus grand que la version précédente, possédant jusqu'à 5 millions de photos (deux fois plus que la version précédente) de 200 000 points de repère (7 fois plus que la version précédente) à travers le monde. Autour du monde.
De plus, Google n'a pas oublié de lancer cette année deux nouveaux « challenges », Landmark Recognition 2019 et Landmark Retriny 2019, sur la communauté de machine learning Kaggle, et a en même temps publié le code source et le modèle de Detect-to-Retrieve, un cadre permet de restaurer plus efficacement les images par région.

« Les méthodes de reconnaissance et de récupération d'images nécessiteront généralement des ensembles de données d'entraînement plus volumineux en termes de nombre d'images et de diversité de points de repère pour mieux entraîner le système et le rendre plus fort. Nous espérons que cet ensemble de données contribuera à améliorer plus en profondeur les capacités de reconnaissance et de récupération d’images des modèles d’IA modernes », ont déclaré deux ingénieurs logiciels de l’équipe Google AI, Bingyi Cao et Tobias. Weyand a partagé.
De plus, selon ces deux experts, 5 millions de photos de plus de 200 000 monuments stockés dans Google-Landmarks-v2 sont collectées et fournies par des photographes du monde entier. Chaque photo sera étiquetée avec une description spécifique du lieu et de l'auteur, par exemple le château de Neuschwanstein, le Golden Gate Bridge, le Kiyomizu-dera, le Burj Khalifa, le Sphinx de Gizeh (Grand Sphinx de Gizeh), le Machu Picchu et de nombreuses autres attractions célèbres. Les chercheurs de Google ont ensuite ajouté des photos historiques peu connues collectées sur Wikimedia Commons, les archives en ligne d'images, de sons et d'autres types de données multimédias de la Fondation Wikimedia.

Alors, quel est le principal problème résolu par le framework Detect-to-Retrieve ? Comme l'expliquent Bingyi Cao et Tobias Weyand, les modèles publiés par Google (entraînés sur un sous-ensemble de 80 000 images du premier ensemble de données Google-Landmarks) peuvent tirer parti des cadres de délimitation. Les cadres de délimitation d'un modèle de détection d'objets pour « ajouter du poids » aux régions de l'image. contenant des éléments intéressants, améliorant ainsi considérablement la précision.
De plus, Landmark Recognition 2019 (où les équipes participantes sont chargées de concevoir des modèles d'IA pour aider à identifier les points de repère) et Landmark Retriny 2019 (les équipes participantes utilisent des systèmes d'IA pour trouver des images pour afficher avec précision un lieu désigné) ont commencé à accepter les inscriptions pour participer à partir d'aujourd'hui. Les deux concours comprendront des prix en espèces totalisant 50 000 $ et les équipes gagnantes seront invitées par Google à assister à la Conférence sur la vision par ordinateur et la reconnaissance des formes (Conférence sur la vision par ordinateur et la reconnaissance des formes) qui s'est tenue à Long Beach, en Californie, plus tard cette année, pour présenter les détails de l’approche qu’ils ont mise en œuvre.