Nombreuses sont les données économiques permettant de prévoir la croissance du PIB en temps réel (plus d’un millier dans cette étude). Pour exploiter au mieux cette richesse, les méthodes « modernes », dont certaines issues de l’intelligence artificielle, constituent une perspective intéressante. Ainsi les forêts aléatoires (random forests) et les modèles à facteurs dynamiques s’avèrent plus performants pour prévoir le PIB en début de trimestre que certains modèles traditionnels.

Enquêtes de conjoncture, données économiques et séries financières constituent un ensemble conséquent de données mobilisables par le conjoncturiste pour prévoir la croissance économique à très court terme. En particulier, au-delà des indicateurs synthétiques issus des données d'enquêtes de conjoncture, les données sectorielles complètent significativement l'information disponible. L'ensemble des données d'enquêtes contient ainsi plus d'un millier de séries qui peuvent être utilisées pour essayer d'améliorer les prévisions à court terme.

Les méthodes de prévision traditionnelles ne sont pas adaptées pour traiter toutes ces données. Aujourd'hui la prévision du PIB en temps réel est généralement fondée sur des méthodes de régression linéaire sur un nombre réduit de variables. Or depuis une vingtaine d'années se développent des méthodes statistiques capables de manipuler de bien plus grands ensembles d'informations. Par exemple, les modèles dits à facteurs dynamiques permettent de synthétiser l'information de manière pertinente avec de faibles besoins en ressources de calcul.

Plus récemment, avec l'augmentation des capacités de calcul, des méthodes fondées sur des techniques d'apprentissage automatique (ou machine learning) se sont développées et connaissent une popularité grandissante. Ces méthodes appliquent des moyens nouveaux de tri et de traitement de l'information, tels que les forêts aléatoires (ou random forests) ou les réseaux neuronaux.

Certaines de ces méthodes permettent d'améliorer la performance des prévisions de court terme du PIB en mobilisant de grandes bases de données, incluant en particulier des données sous-sectorielles, sous réserve d'une étape préalable de sélection des variables. Les forêts aléatoires semblent à cet égard constituer une bonne méthode pour sélectionner à différentes dates les variables les plus à même d'apporter de l'information sur le PIB courant.

En particulier, pour prévoir le PIB, c'est surtout en début de trimestre, avant que les premières données quantitatives ne soient disponibles, que les modèles reposant sur de grandes bases de données sont plus performants que les modèles traditionnels.

 Trésor-Éco n° 254