Données immobilières

L'intérêt des données d'annonces pour le marché locatif

L'intérêt des données d'annonces pour le marché locatif

Cette note, dont l’objectif est de démontrer l’intérêt des données d’annonces pour le marché locatif, part d’un constat simple :

➡️ D’une part, 78% des locataires trouvent un logement via les annonces ou les agences immobilières dont la majorité utilise les portails immobiliers* ;
➡️ D’autre part, en moyenne 674 000 annonces sont publiées chaque mois depuis 5 ans, dont 30% par des particuliers.

Une source de données sans équivalent...

Les annonces immobilières présentent l'avantage d'être disponibles rapidement et de couvrir à la fois les annonceurs professionnels et les particuliers. Les autres sources, comme l’enquête logement de l’INSEE ou encore les observatoires des loyers, ne présentent pas une disponibilité suffisante pour analyser l’évolution du marché, sont focalisées sur les professionnels, ou ne sont pertinentes qu’à un niveau agrégé. Chapelle et Eyméoud (2018) ont montré que les estimations basées sur les annonces ne sont pas biaisées car elles ne diffèrent pas systématiquement des résultats issus des enquêtes.

...qui nécessite une expertise pointue.

Les annonces nécessitent toutefois un traitement statistique rigoureux, que ce soit pour tenir compte des potentiels doublons, détecter les erreurs ou fausses annonces (problème de géolocalisation, ou loyer aberrant) ou encore extraire de l’information complémentaire à partir de la description. On observe notamment bien souvent une multidiffusion chez les professionnels, c’est-à-dire qu’un même annonceur peut publier une annonce pour un même bien sur plusieurs portails . Par ailleurs, certaines annonces peuvent contenir des données fausses, que ce soit une localisation inexacte ou encore des caractéristiques (loyer, surface...) aberrantes. Enfin, les images et les descriptions des annonces sont riches en sources d’informations pour compléter les données structurées. Exploiter ces sources pour estimer, par exemple, l’état d’un bien, ou encore la période de construction nécessite la mise en œuvre d’outils avancés d’intelligence artificielle et de machine learning.

Comment ?

Prenons le cas de l’extraction de l’état du bien depuis la description. Cette caractéristique, particulièrement importante pour l’analyse de données, l’estimation du prix ou du loyer, mais également pour les utilisateurs souhaitant filtrer leurs recherches, n’est que très peu présente comme champ structuré sur les portails d’annonces. Par ailleurs, il n’est bien souvent pas suffisant d’extraire simplement des expressions telles que “bon état” ou encore “aucun travaux à prévoir”. En effet, des expressions comme “soigneusement entretenu” ou encore "décoré avec goût” peuvent nous informer sur l’état du bien mais il n'est pas envisageable ni efficace de tous les lister. Il s’agit donc d’utiliser des méthodes capables de comprendre, non seulement le sens d’un mot ou d’une expression, mais également la syntaxe et la façon dont les mots interagissent pour donner du sens aux phrases. C’est en nous basant sur l’état de l’art de l’apprentissage profond (ou deep learning) que nous avons mis en œuvre un modèle déterminant l’état d’un bien à partir de la description lorsque celle-ci est suffisamment informative.

Source : Enquête logement de l’INSEE et “Can Big Data increase our knowledge of local rental markets? Estimating the cost of density with rents” (2018) Guillaume Chapelle et Jean-Benoît Eyméoud.

⬇️ Si vous souhaitez télécharger cette note au format PDF, cliquez ici.