Solutions immobilières

Data Science et Machine Learning chez Yanport: transparence et performance

Data Science et Machine Learning chez Yanport: transparence et performance

➡️ Yanport dispose d’un entrepôt de données unique en France enrichi d’indicateurs permettant à nos clients de mieux suivre le marché de l’immobilier résidentiel français.
➡️ Fort de ces données, nous avons développé des outils à la pointe du Machine Learning en évitant l’effet “boîte noire”; nous prônons l’interprétabilité tout en développant des outils performants.
➡️ Les résultats sont expliqués et accompagnés de métriques détaillées pour plus de transparence envers nos utilisateurs.
➡️ Nous restons à la pointe de la recherche et des outils de Data Science en investissant massivement en R&D et en multipliant les échanges avec des universitaires.


Des données couvrant l’ensemble du marché immobilier français

Un historique et des indicateurs uniques

Yanport collecte depuis 2014 les annonces immobilières sur la plupart des sites spécialisés ou non. Nous ne nous contentons pas de mettre à disposition les données d’annonces brutes, nous avons développé un algorithme de déduplication performant nous permettant de construire des indicateurs pertinents liés aux prix, aux stocks ou encore aux durées de publication.
L’intérêt des annonces est de fournir bien souvent des informations complémentaires (par rapport aux transactions effectives sur DVF par exemple) concernant les équipements ou encore l’état du bien. Bien sûr, le prix de fin de publication n’est pas le prix de vente et il est donc nécessaire d’estimer également la marge de négociation potentielle. Les données d’annonces sont toutefois plus complexes à manipuler et traiter que les données de transaction type DVF. Elles nécessitent donc une attention particulière, notamment de nettoyage mais également d’extraction d’informations depuis des champs non structurés, comme les descriptions ou les images.

Une vue d’ensemble du marché immobilier

En plus des annonces, nous compilons plusieurs bases de données indispensables pour l’analyse du marché immobilier français, comme les données DVF (Demandes de Valeurs Foncières), celles de nos clients, celles d’observatoires, les données locales INSEE socio-économiques liées à la population, aux revenus des ménages et bien d’autres encore.


Un moteur d'estimation performant

L’estimation d’un bien immobilier est par nature relative aux autres biens; quelles caractéristiques permettent de distinguer un bien des autres et influencent son prix? Comment les caractéristiques des biens interagissent pour aboutir à un prix? Ce sont ces questions, et bien d’autres encore, que se posent les spécialistes de l’estimation immobilière. A l’aide des outils de pointe du Machine Learning, nous avons développé notre moteur d’estimation de telle sorte qu’il reproduise cette logique. Ainsi, à partir d’un prix médian sur la zone géographique, le moteur d’estimation va déterminer automatiquement quelles sont les caractéristiques les plus importantes (bien souvent l’emplacement en premier lieu) pour distinguer le bien estimé des autres. Par construction, le résultat est interprétable ce qui permet à l’utilisateur de comprendre le prix estimé.

Un intervalle de confiance et un indice de fiabilité compréhensibles

Chaque estimation médiane est accompagnée d’une estimation basse (1er quartile) et d’une estimation haute (3ème quartile) constituant l’intervalle de confiance de l’estimation et indiquant l’incertitude relative à l’estimation du bien lui-même. Par ailleurs, nous connaissons l’erreur que nous avons pu faire sur des biens similaires et nous en servons pour plus de transparence; nous indiquons donc l’erreur moyenne (mais aussi la médiane et d’autres centiles) sur un ensemble de biens similaires au bien d’intérêt. Ceci permet à l’utilisateur d’avoir une idée de l’incertitude d’estimation pour des biens semblables. Ces deux indicateurs d’incertitude sont agrégés pour donner un indice de fiabilité variant entre 0 et 100.

Un estimateur de marge de négociation intuitif

Nous exploitons toutes les sources de données! Ainsi, nous croisons les données DVF avec les annonces pour déduire les marges de négociation pour des biens similaires au bien estimé sur la période récente. Cette estimation de marge de négociation est également associée à un indice de fiabilité suivant le nombre de biens utilisés pour l’estimation.

Estimation complète: prix d’annonce, prix de vente, loyer et rendement locatif

Nous sommes ainsi en mesure de fournir pour chaque bien une estimation du prix demandé et, grâce au calcul des marges de négociation potentielles et la prise en compte des honoraires, une estimation du prix de vente final du bien. Couplé au moteur d’estimation de loyer, ce prix de vente permet d’obtenir facilement une estimation du rendement brut locatif.


Une R&D active au service des acteurs de l’immobilier

La R&D représente environ 20% du CA chez Yanport. L’un des défis majeurs du Big Data en général, et des données immobilières en particulier, est de comprendre, analyser et valoriser la quantité de données disponibles. Yanport consacre plusieurs projets de R&D à la construction d’indicateurs avancés et de prévisions du marché immobilier ou encore à l’exploitation des sources d’informations difficiles à exploiter telles que les descriptions d’annonces ou encore les images.

A titre d’exemple, à l’aide d’outils de pointe de Deep Learning, et en particulier des méthodes avancées de traitement automatique du langage naturel (TALN ou NLP en anglais), il est possible d’augmenter les données structurées et d’extraire par exemple l’état du bien à partir des descriptions. Cet élément, si peu souvent disponible dans les sources de données, est pourtant fondamental que ce soit pour l’estimation, la construction d’indices ou encore les prévisions.

Ainsi, toute la chaîne de valorisation des données dépend de la mise en œuvre de techniques avancées permettant de tirer toujours plus d’informations pertinentes des données brutes.


⬇️ Si vous souhaitez télécharger cette étude au format PDF, cliquez ici.
📄 Pour lire le communiqué de presse sur ce sujet, cliquez ici.