La valeur des données
Dans une économie numérique, les données peuvent être coûteuses à acquérir et à structurer. En fin de compte, leur valeur est déterminée par les avantages qui découlent des prédictions fondées sur les données.
En bref
-
-
-
-
-
-
-
-
-
- La qualité, l’utilisation et le volume font des données une catégorie de biens aux multiples facettes
- Les données peuvent jouer différents rôles dans l’économie numérique
- La valeur des données réside dans leur capacité à améliorer la prise de décision.
-
-
-
-
-
-
-
-
« Les données sont le nouveau pétrole », dit le dicton, mais il est faux. L’économie des données est complexe. Ce n’est pas l’abondance des données qui crée la valeur, mais le bénéfice que l’on peut tirer des prédictions basées sur les données. Les données en tant que bien ont de multiples facettes. Et l’économie des données l’est aussi.
Bien de base et complément
Une grande partie de l’économie numérique, notamment l’intelligence artificielle (IA), repose sur la prédiction. Et la prédiction repose sur les données. Comme le disent les économistes, les données sont un complément à la prédiction. Les compléments sont des biens qui ajoutent de la valeur à un autre. En général, le bien de base est relativement bon marché et le bien complémentaire est relativement cher. Par exemple, les imprimantes sont un bien de base et les cartouches d’encre sont son complément ; l’imprimante est bon marché et la cartouche coûteuse. Le fabricant d’imprimantes attire les clients avec le bien de base relativement plus abordable et réalise ses bénéfices grâce au complément coûteux. Dans le monde numérique, une application gratuite est un bien de base et les services payants intégrés à l’application en sont le complément.
Les mêmes principes économiques s’appliquent à l’économie numérique dans son ensemble, en particulier à l’IA. L’IA qui fait la prédiction, l’algorithme, est relativement bon marché, ce qui permet d’attirer les utilisateurs. Les données utilisées par cet algorithme sont précieuses. Plus l’algorithme devient bon marché en tant que bien de base, plus la valeur des données en tant que complément augmente. Cette tendance devrait se poursuivre. La programmation des calculs mathématiques qui composent les algorithmes va devenir plus standardisée, plus facile et, par conséquent, moins chère. Obtenir les « bonnes » données de la « bonne » manière et les utiliser « correctement » deviendra de plus en plus le facteur de différenciation et, par conséquent, plus précieux.
Aspects de la valeur des données
Si les données peuvent être un facteur de différenciation et un moteur de valeur, toutes les données ne se valent pas. La qualité, l’utilisation et le volume font des données un bien à multiples facettes – ou plutôt, une classe de biens. L’économie du big data postule que plus il y a de données, meilleurs sont les résultats – par exemple, les prédictions qu’un algorithme peut produire. Cependant, la qualité des données est tout aussi importante. Plus les données sont de qualité, meilleures sont les prédictions. En ce qui concerne la qualité des données, l’architecture est essentielle. Les données qui ont été correctement étiquetées et structurées ont plus de valeur que les points de données en vrac dont le contenu informatif doit être découvert et reconditionné, souvent manuellement.
La quantité et la qualité optimales des données dépendent des avantages générés par la prédiction basée sur l’IA.
Et puis il y a l’utilisation des données. Les données peuvent jouer trois rôles différents dans l’économie numérique. En ce qui concerne l’IA, les données peuvent être des données d’entrée, à savoir des données fournies à un algorithme pour faire une prédiction. Lorsqu’un utilisateur cherche un itinéraire pour se rendre d’un endroit à un autre, l’IA utilise des cartes comme données d’entrée pour calculer l’itinéraire. Mais les données peuvent également être des données d’entraînement, afin de rendre l’IA suffisamment performante pour prédire les complexités du monde réel. Ce type de données est utilisé pour apprendre à l’IA à sélectionner des itinéraires et à prédire les heures d’arrivée.
Enfin, les données peuvent être des données de retour, utilisées pour améliorer les performances de l’IA avec l’expérience. Lorsqu’une personne décide de prendre un itinéraire différent de celui suggéré par l’algorithme, cela fournit des données de retour précieuses qui peuvent améliorer les calculs futurs.
Dans certaines situations, il existe un chevauchement considérable entre ces utilisations des données, par exemple lorsque les mêmes données jouent les trois rôles. Plus le chevauchement est important, meilleures sont les données, car leur structure et leur étiquetage permettent à l’IA de gérer plus facilement leur utilisation simultanée, en se concentrant sur l’apprentissage, la prédiction et la réaction au retour d’information.
L’intelligence artificielle : La révolution de la prédiction
Coût des données
L’acquisition et la structuration des données peuvent être coûteuses. Ainsi, l’investissement implique un compromis entre le bénéfice de données plus nombreuses et de meilleure qualité et le coût d’acquisition. La quantité et la qualité optimales des données dépendent des avantages générés par la prédiction basée sur l’IA. Examinons d’abord le coût.
Les avantages que l’on peut tirer des données sont le facteur de différenciation des modèles d’entreprise et des moteurs de valeur.
Du point de vue de la théorie économique, les données en tant que telles ont des rendements d’échelle décroissants. L’ajout d’un troisième point de données à un deuxième a beaucoup plus de valeur que l’ajout d’un centième point à un 99ème. D’autre part, l’ajout de données plus nombreuses et de meilleure qualité fait augmenter les coûts marginaux. L’incorporation du huit millionième point de données est plus difficile ou plus coûteuse que l’ajout du quatorzième. C’est comme apprendre à se repérer dans une nouvelle ville : la première et la deuxième fois que l’on prend le bus, on en apprend beaucoup sur la configuration de la ville et le système de transport en commun. Au trois centième voyage, c’est devenu une routine. On n’acquiert plus que des informations nouvelles et insignifiantes (rendements décroissants). Ou bien il faut accorder une attention incommensurable aux détails mineurs pour apprendre quelque chose de nouveau (coûts marginaux croissants).
Les facteurs de coût liés à l’acquisition et à la structuration des données sont principalement l’ouverture de canaux de collecte et d’échange de données, l’étiquetage, le développement d’une architecture flexible pour l’évaluation et l’utilisation des différents points de données, ainsi que la mise en place, l’adaptation et l’expansion de l’infrastructure physique permettant ces activités. Même si les points de données individuels peuvent être acquis gratuitement, les processus permettant d’extraire leur valeur informationnelle et d’en tirer parti ne le sont pas.
Les avantages des données
Les données sont plus qu’un facteur de coût dans l’économie numérique au sens large, notamment pour l’IA. Les avantages que l’on peut extraire des données sont le facteur de différenciation des modèles économiques et des moteurs de valeur. La conceptualisation de ces avantages nécessite un changement de point de vue. La valeur économique des données ne peut être mesurée par l’investissement nécessaire pour les acquérir et les conserver. Elle ne peut pas non plus être évaluée en fonction de la manière dont les données s’adaptent techniquement aux résultats des calculs. L’idée économique essentielle concernant les avantages des données est que la valeur des données est fonction de la manière dont elles améliorent la valeur que l’on obtient de l’algorithme qui les utilise. Pour reprendre l’exemple des prédictions : la valeur de meilleures données ne réside pas dans la précision d’une prédiction, mais dans la manière dont la prédiction améliore les choix de l’utilisateur.
Prenez les moteurs de recherche sur Internet. La plupart d’entre eux donnent les mêmes résultats. Au moment où nous écrivons ces lignes, Google, DuckDuckGo et Bing produisent à peu près les mêmes résultats pour « Beethoven ». Dans ce contexte, les données ne sont pas un facteur de différenciation. Cependant, dans une recherche moins conventionnelle, comme pour « arbitrage », la différenciation entre en jeu. Bing fournit principalement des définitions ; DuckDuckGo affiche des définitions et des liens vers des sites financiers, tandis que Google fournit des définitions, des sites financiers et quelques références universitaires.
L’intégration d’un plus grand nombre de données et de données mieux structurées dans son architecture donne un avantage à Google. Il affiche des résultats qui élargissent les choix de l’utilisateur. Cet avantage accru offert par Google se traduit de manière disproportionnée dans la part de marché de l’entreprise. Les économistes appellent ce phénomène le rendement croissant de la différenciation des données.
La plupart des utilisateurs utilisent Google pour des recherches aussi bien rares que courantes. Le fait d’être un tant soit peu meilleur dans les résultats de recherche peut entraîner une grande différence en termes de part de marché. Pour « être même un peu meilleure », l’entreprise numérique doit accorder une attention particulière à l’acquisition et à la qualité des données. Un effort supplémentaire dans ces domaines conduit à un facteur de différenciation via l’amélioration des avantages pour l’utilisateur. Il en résulte une augmentation surproportionnée de la position sur le marché, des revenus et de l’amélioration du modèle économique numérique.
Gianluca Tirozzi: « C’est ainsi que bitCorp va conquérir le métaspace! »
Faits et chiffres
Résumé
Les données sont essentielles pour les économies numériques et l’IA ; toutefois, il s’agit d’une catégorie de biens aux multiples facettes. Les données se différencient en fonction de leur volume, de leur qualité et de leur utilisation. Alors que les données peuvent être coûteuses à obtenir et à structurer, des données à peine meilleures peuvent générer des avantages surproportionnés pour les utilisateurs, ce qui, à son tour, crée un avantage commercial pour les modèles d’affaires numériques fournissant cette valeur ajoutée. L’idée économique essentielle concernant les données est que leur valeur n’est pas fonction de la manière dont elles améliorent un résultat ; il s’agit de la manière dont les données améliorent les avantages pour les utilisateurs. Souvent, les rendements de la différenciation des données sont croissants : le bénéfice supplémentaire que les utilisateurs retirent de meilleures données se traduit de manière surproportionnée en parts de marché et en revenus.
Scénarios
Il existe trois scénarios de base pour imaginer comment les données peuvent avoir un impact supplémentaire sur la valeur des économies numériques, en particulier l’IA.
Monopolisation du marché
Dans le premier scénario, le moins probable, certaines entreprises se spécialiseront encore davantage dans l’acquisition et la structuration des données, ce qui leur donnera une avance grandissante dans la génération de bénéfices pour les utilisateurs. Cela leur permettra d’étendre leur part de marché à des quasi-monopoles capables de recueillir encore plus de données et d’investir dans une architecture améliorée, ce qui, à son tour, solidifiera leur position. Une telle boucle de rétroaction aboutit à la monopolisation des marchés. Il s’agit du scénario le moins probable en raison de la nature multiforme et dynamique des données, qui rend leur monopolisation pratiquement impossible.
Abondance de données
Dans un deuxième scénario, plus probable, les données pourraient perdre leur pouvoir de différenciation. Ce processus peut se produire si les canaux d’acquisition des données et leur structuration deviennent abondants. Et cela peut se produire si les réglementations en matière de protection des données et de propriété intellectuelle sont assouplies, si les agents s’accordent sur une diffusion des données complète et sans contrainte en temps réel, ou avec l’avènement de nouveaux paradigmes plus simples en matière d’architecture des données. Dans ce cas, il sera plus facile d’acquérir et de structurer les données. Toutefois, l’avantage spécifique tiré de leur exploitation et de la création d’un facteur de différenciation est susceptible de diminuer également. Ce scénario dépend de la convergence de divers éléments en matière de réglementation, de technologie et de valeurs. À moyen terme, une telle convergence n’est probable que dans les petites communautés d’utilisateurs.
Une concurrence sans entrave
Le troisième scénario, le plus probable, est celui d’une amélioration progressive de l’acquisition et de l’architecture des données, associée à une concurrence intense des opérateurs historiques pour améliorer les avantages pour les utilisateurs. En outre, les opérateurs historiques seront mis au défi par de nouvelles entreprises qui tenteront d’augmenter la valeur ajoutée des prédictions ou d’extraire plus d’informations de moins de données afin de créer la même valeur que les autres mais avec des processus moins coûteux. Ce cas de figure s’inscrit dans le prolongement de la logique économique exposée ici et peut améliorer considérablement les expériences des utilisateurs tout en augmentant les revenus et les gains des entreprises numériques.
Author: Henrique Schneider professor of economics
Source: