Face à un ensemble de données intimidant, l’analyse en composantes principales (ACP), connue sous le nom d’ACP, peut aider à distiller la complexité en trouvant quelques caractéristiques significatives qui expliquent la proportion la plus significative de la variance des données.
Cependant, l’ACP part de l’hypothèse sous-jacente selon laquelle toutes les sources de données sont homogènes.
La croissance de la connectivité de l’Internet des objets pose un défi car les données collectées par les « clients », comme les patients, les véhicules connectés, les capteurs, les hôpitaux ou les caméras, sont incroyablement hétérogènes. Alors que cet éventail croissant de technologies, des montres intelligentes aux outils de fabrication, collecte des données de surveillance, un nouvel outil analytique est nécessaire pour démêler les données hétérogènes et caractériser ce qui est partagé et unique dans des données de plus en plus complexes provenant de sources multiples.
« L’identification de points communs significatifs entre ces appareils pose un défi de taille. Malgré des recherches approfondies, nous n’avons trouvé aucune méthode existante capable d’extraire de manière prouvée des caractéristiques partagées et uniques interprétables et identifiables à partir de différents ensembles de données », a déclaré Raed Al Kontar, professeur adjoint d’industrie et d’exploitation. ingénierie.
Pour relever ce défi, les chercheurs Niaichen Shi et Raed Al Kontar de l’Université du Michigan ont développé une nouvelle méthode de « PCA personnalisée », ou PerPCA, pour découpler les composants partagés et uniques des données hétérogènes. Les résultats seront publiés dans le Journal de recherche sur l’apprentissage automatique.
« La méthode PCA personnalisée exploite des techniques d’apprentissage de représentation de bas rang pour identifier avec précision les composants partagés et uniques avec de bonnes garanties statistiques », a déclaré Shi, premier auteur de l’article et doctorant en ingénierie industrielle et opérationnelle.
« En tant que méthode simple permettant d’identifier efficacement les caractéristiques communes et uniques, nous envisageons que la PCA personnalisée soit utile dans des domaines tels que la génétique, le traitement du signal d’image et même les grands modèles de langage. »
Augmentant encore son utilité, la méthode peut être mise en œuvre de manière entièrement fédérée et distribuée, ce qui signifie que l’apprentissage peut être réparti entre différents clients et que les données brutes n’ont pas besoin d’être partagées ; seules les fonctionnalités partagées (et non uniques) sont communiquées entre les clients.
« Cela peut améliorer la confidentialité des données et réduire les coûts de communication et de stockage », a déclaré Al Kontar.
Grâce à la PCA personnalisée, différents clients peuvent créer en collaboration des modèles statistiques solides malgré les différences considérables entre leurs données. Les fonctionnalités partagées et uniques extraites codent des informations riches pour les analyses en aval, notamment le clustering, la classification ou la détection d’anomalies.
Les chercheurs ont démontré les capacités de la méthode en extrayant efficacement les sujets clés de 13 ensembles de données différents de transcriptions du débat présidentiel américain de 1960 à 2020. Ils ont pu discerner des sujets et des mots-clés de débat partagés et uniques.
La PCA personnalisée exploite des fonctionnalités linéaires facilement interprétables par les praticiens, améliorant ainsi son utilisation dans de nouvelles applications.
Plus d’information:
Naichen Shi et al, PCA personnalisée : découplage des fonctionnalités partagées et uniques, arXiv (2022). DOI : 10.48550/arxiv.2207.08041