Données immobilières
Dédoublonnage des annonces : Un traitement rigoureux pour une prise de décision éclairée
Le volume d'annonces publié sur les portails immobiliers est particulièrement important, mais il ne reflète pas toujours la réalité du marché. Ce biais s'explique par la présence de deux niveaux de duplication :
- De l’annonce au mandat : une offre multi-diffusée ne représente souvent qu’un seul et unique mandat.
- Du mandat au bien : plusieurs agences peuvent détenir des mandats différents pour un même bien unique.
Un dédoublonnage précis est donc crucial pour analyser le cycle de vie réel des biens, les délais de vente exacts et les véritables évolutions de prix.
L’analyse multimodale : Décoder la donnée immobilière
L’analyse des données non structurées, notamment les textes et les images, est fondamentale pour détecter les annonces associées à un même mandat et les mandats concernant le même bien. Si les photos sont identiques lors d’une multidiffusion par une seule agence, elles présentent souvent des disparités notables quand plusieurs agences s’emparent d’un même bien : les angles de prise de vue, les pièces mises en avant ou la résolution des images peuvent alors fortement varier.
Chez Yanport, notre expertise en Computer Vision et en Data Science permet de dépasser ces biais. Notre mission est technologique : réagréger ces strates pour passer d'une vision "bruitée" par les annonces à une "vision bien". Il ne s'agit plus simplement de compter des publications, mais de cartographier le parc immobilier réel pour offrir aux professionnels une base décisionnelle fiable.
Comment l’IA apprend à « voir » comme un expert
Si le dédoublonnage semble intuitif pour un humain, il représente un défi titanesque à l’échelle de millions d’annonces. Pour résoudre cette équation, nos ingénieurs ont développé une approche hybride, basée sur la Computer Vision (vision par ordinateur).
L’expertise humaine comme fondation
On ne construit pas une IA performante sans une "vérité terrain". Chez Yanport, nous n’avons pas laissé la machine deviner seule. Nos équipes ont dédoublonné manuellement plusieurs milliers de paires de mandats grâce à une application sur-mesure développée en interne. Une aide à la décision précieuse pour constituer un échantillon suffisant.
Ce travail d'annotation a permis de créer un jeu de données de référence. En observant comment un expert immobilier identifie deux mandats identiques malgré des angles de vue différents ou des qualités de photo inégales, nous avons pu coder un algorithme qui reproduit ce raisonnement cognitif.
La hiérarchie du doute : Le cerveau de l’algorithme
Notre algorithme suit exactement le même cheminement que vous :
- Le réflexe visuel (Priorité Image) : C’est l’étape reine. L’IA analyse les photos et cherche des points de concordance. S’il n’y a aucune ambiguïté (même vue de la terrasse, même disposition des fenêtres), l’algorithme valide le doublon instantanément. Pour lui, comme pour vous, l’image est la preuve ultime.
- La levée d’ambiguïté (Analyse Multimodale) : Si les photos sont trop différentes ou insuffisantes, l’IA ne s’arrête pas là. Elle active alors ses "capteurs" secondaires : elle compare les caractéristiques structurées (prix, surface, étage) et scanne les descriptions textuelles pour y déceler des similarités sémantiques.
La Figure 1 ci-dessous illustre le cas avec peu d’ambiguïté. Bien que les prises de vues soient différentes, nous sommes quasiment sûrs que les annonces concernent le même bien. Les informations structurées n’auront pas une grande ambiguïté à lever et peuvent brouiller l’information si certaines sont erronées (différence dans la mesure de surface ou erreur dans le renseignement du DPE par exemple).

On peut distinguer deux cas où les images peuvent ne pas suffire à décider si deux annonces sont associées au même bien. Dans le premier cas il s’agit du même bien mais l’angle est particulièrement différent ; par exemple une cuisine ouverte sur un salon en fond de la première image et la cuisine seule sur la seconde image. Le second cas concerne les annonces de biens différents mais similaires comme les appartements dans les mêmes immeubles ou les maisons dans le même lotissement. L'œil humain peut réussir à distinguer certains de ces cas mais cela peut être particulièrement complexe à reproduire à l’aide d’un algorithme.
La Figure 2 ci-dessous illustre l’ambiguïté qu’il peut y avoir entre deux salles de bain d’appartements différents. Dans ce cas, même si l'œil humain n’est pas trompé, un algorithme peut avoir besoin d’autres caractéristiques pour trancher. Ici les différences de prix (189 000€ contre 164 000€) et de performances énergétiques (177 contre 213 Kwh EP/m²/an) permettent de lever l’ambiguïté et de trancher.

Comment notre algorithme compare-t-il les images ? Comment détecter s’il y a suffisamment de similitudes sans être affecté par l’angle de vue ou la qualité de l’image ? Pour y répondre, la solution technologique s'appuie sur une méthode clé : la détection et la comparaison des points d’intérêt.
Les piliers de notre technologie : La détection et comparaison des points d’intérêt
L’une des phases déterminantes du processus réside dans la confrontation des visuels du mandat cible avec ceux des mandats potentiellement similaires. Cette analyse repose sur l’identification de points d’intérêt. Pour chaque photographie, le système génère :
- Une cartographie des points d’intérêt : localisés principalement au niveau des angles ou des contours.
- Une base de descripteurs : chaque point se voit attribuer une « signature » vectorielle unique décrivant l’aspect visuel de son environnement immédiat. Ce codage garantit une reconnaissance fiable malgré les variations d’échelle, de rotation ou de perspective.
La Figure 3 met en lumière les correspondances établies entre deux clichés de résolutions distinctes capturant une même pièce sous des perspectives différentes.

Ainsi, les points communs identifiés par l'algorithme sont le plus souvent associés à des éléments structurels invariants tels que des arêtes de murs, des bordures de fenêtres ou des contours de mobilier fixe.
En se focalisant sur ces détails géométriques précis plutôt que sur la colorimétrie globale, le système peut établir des liens de corrélation robustes entre deux photographies. Cette approche permet notamment de confirmer l'identité d'un bien même lorsque la luminosité diffère ou qu'un objectif grand angle a été utilisé pour l'une des prises de vue, modifiant ainsi la perception des volumes sans altérer les points d'ancrage structurels.
Cette méthode particulièrement efficace souffre toutefois de quelques limites dans le cas d’usage qui nous intéresse. Les agences ajoutent souvent en filigranes des logos sur les images, créant des points communs factices. La Figure 4 ci-dessous illustre cette problématique avec deux images de maisons clairement différentes mais pour lesquelles la présence des logos crée des relations entre points clés.

Pour limiter l’impact de ce problème nous détectons la présence de logos en comparant les images d’une même annonce afin d’ignorer les points d’intérêts associés aux logos.
Bien que cette méthode de détection géométrique soit essentielle, elle n'est qu'une des composantes d'un écosystème technologique plus vaste et propriétaire développé par Yanport, combinant plusieurs couches d'analyse pour maximiser la robustesse de nos résultats.
L'expertise data au service de votre performance opérationnelle
Grâce à son algorithme de dédoublonnage, Yanport apporte une véritable valeur ajoutée opérationnelle aux professionnels de l'immobilier. À partir de ce travail minutieux d'observation, nos data scientists ont acquis une véritable expertise métier et terrain. C'est l'intégration de ce savoir dans nos solutions qui permet de transformer un flux de données complexe en un outil d'aide à la décision performant.
Concrètement, cette donnée fiabilisée alimente directement nos solutions pour répondre à vos enjeux quotidiens :
- Avec Agent 360 : Suivez précisément l'historique de commercialisation des biens en multi-mandats et soyez alerté dès qu'un nouveau commercialisateur (particulier ou un autre professionnel) est détecté sur vos propres mandats.
- Avec Data 360 : Bénéficiez d'indicateurs de marché nettement plus précis (délais de vente réels, historique de prix ...), expurgés des biais liés à la multidiffusion.
Ne laissez plus les doublons d'annonces fausser vos décisions stratégiques et vos évaluations. Découvrez dès maintenant comment nos solutions Agent 360 et Data 360 transforment cette expertise data en opportunités business et en gains de productivité.