Vaud – « La statistique expérimentale donne des réponses avec plus de réactivité »
Depuis 2022, le canton de Vaud recourt à de la statistique expérimentale pour répondre à des questions que les méthodes classiques ne peuvent pas traiter. L’objectif ? Disposer de données encore plus pertinentes sur les réalités vaudoises.
Texte et photo Diane Zinsel | Carole Martin, cheffe de Statistique Vaud, explique en quoi cela renforce le débat démocratique.

Le Courrier : A quoi sert la statistique publique ?
Carole Martin : La statistique publique est une science qui collecte, analyse et interprète des informations extraites de bases de données ou d’enquêtes. Sa double mission est de fournir régulièrement un arrêt sur image du canton, qui soit objectif et fiable sur un thème donné, allant de la santé économique de la population à ses habitudes, en passant par le logement, ainsi que d’en anticiper les changements, afin de contribuer à la prise de décision politique et au débat démocratique.
Et la statistique publique expérimentale ?
La statistique expérimentale permet d’éclairer les angles morts de la statistique classique en utilisant des ensembles de données inédits, de nouvelles approches ou de nouvelles technologies d’analyse, comme du machine learning. Sa plus-value est de donner des premiers indicateurs de réponses avec plus de réactivité et de souplesse. On parle d’ « expérimental » parce que nous avons un moindre recul sur les résultats. Pour cette raison, chaque publication de statistique expérimentale est accompagnée d’une description des limites et des sources d’incertitudes spécifiques au projet et du protocole méthodologique. Elle est aussi identifiable grâce à un logo spécifique.
Pourquoi est-ce important de publier ces résultats s’ils ne sont pas aussi matures que ceux de statistique classique ?
Avant de répondre, j’aimerais rappeler que toutes les statistiques classiques sont passées par des phases expérimentales mais, à l’époque, il n’existait pas de label qui permettait de les publier quand même. Il fallait attendre, longtemps parfois, avec le risque de perdre un temps précieux avant de pouvoir contribuer au débat démocratique. Ce label nous permet de partager les premières informations que nous obtenons. C’est à la fois une question de transparence et un moyen d’ouvrir le dialogue avec le public sur les produits statistiques.
Vous avez indiqué que lastatistique expérimentale utilisait d’autres bases de données. De quoi s’agit-il ?
Pour produire de la statistique publique classique, nous utilisons certaines bases de données administratives sur lesquelles nous avons une expertise et le résultat d’enquêtes réalisées tant au niveau cantonal qu’au niveau fédéral. Pour la statistique expérimentale, il est possible de recourir à des bases de données administratives jamais exploitées jusqu’ici ou d’utiliser des données mises à disposition par d’autres organismes. Par exemple Eurostat a un projet de statistique expérimentale qui exploite des données de plateforme de réservation (Airbnb, Booking.com, etc.) suite à un accord de partage de données. A vrai dire, on pourrait même utiliser le « web scraping », soit un outil qui automatiserait la recherche d’informations sur Internet. Mais plus les sources ou la manière d’extraire des données sont expérimentales, plus les résultats le sont aussi.
Quelles nouvelles bases de données avez-vous utilisées ?
Par exemple, pour le projet « Qui sont les ménages qui occupent les logements nouvellement construits dans le canton ? », publié début 2026, nous avons réalisé un appariement des données du Registre cantonal des bâtiments et de la base de données socioéconomique vaudoise. Pour le projet « Perspectives de logement à court terme » publié fin 2024, nous avons exploité les données issues des demandes de permis de construire afin d’estimer des probabilités de réalisation et pour formuler des hypothèses sur les projets futurs. Les probabilités sont ensuite appliquées aux projets en cours et aux projets futurs pour en déduire le gain de logements à venir. De quoi améliorer nos perspectives démographiques régionales à court terme.
Parmi les nouvelles techniques d’analyse, le machine learning est de plus en plus souvent utilisé. Quels sont les avantages et les inconvénients de cette technique ?
Avec le machine learning, on peut nourrir le modèle avec une masse d’informations beaucoup plus importantes et tester beaucoup plus d’options. Le machine learning donne donc de la puissance à notre recherche et permet d’en affiner le résultat. En revanche, le processus est légèrement moins transparent qu’un modèle économétrique avec lequel on pourra expliquer chaque étape. Notre rôle, dans ce cadre, est d’éclairer le plus possible ce qui est réalisé.
Est-ce qu’une statistique expérimentale peut passer dans la catégorie classique ?
Absolument. En ce moment, nous arrivons au bout d’un projet expérimental visant à améliorer les prévisions de chômage et qui sera prochainement mis à disposition du public. Nous avons nourri en parallèle l’ancien système basé sur un modèle économétrique standard et le nouveau basé sur un modèle de machine learning avec les données de chômage depuis les années 1990. Nous avons ensuite identifié qui prédisait le mieux ce futur que l’on connaît déjà et constaté que chaque modèle avait ses points forts. Le produit final est donc une combinaison des deux modèles.
Comment choisissez-vous les questions auxquelles vous répondez ?
Historiquement, l’office cantonal de la statistique était plutôt focalisé sur l’économie et la démographie. Aujourd’hui, nous travaillons en étroite collaboration avec les différents services de l’Etat. Pour choisir les questions qui seront traitées, un premier tri se fait organiquement, en écartant celles auxquelles on ne saurait pas comment répondre et celles pour lesquelles la recherche serait trop coûteuse. Nous sommes particulièrement attentifs à la pertinence du sujet et à son utilité pour le plus grand nombre de services de l’Etat et du public. Dans cette tâche, nous sommes appuyés par une commission cantonale de statistique dans laquelle sont représentés tous les départements.
Et pour la statistique expérimentale spécifiquement ?
Nous sommes encore plus stricts sur les critères de pertinence. Il faut bien se rendre compte que nous réalisons une centaine de projets et productions statistiques par année et que les projets expérimentaux représentent une partie infime de notre travail. Pour vous donner un ordre d’idée, nous avions pour mission de réaliser au moins trois projets expérimentaux sur la législature 2022-2027. Nous en aurons en tout cas quatre .


