Bei einem gewaltigen Datensatz kann die Hauptkomponentenanalyse (PCA), kurz PCA genannt, dabei helfen, die Komplexität zu destillieren, indem sie einige aussagekräftige Merkmale findet, die den signifikantesten Anteil der Datenvarianz erklären.
PCA geht jedoch von der zugrunde liegenden Annahme aus, dass alle Datenquellen homogen sind.
Das Wachstum der Internet-of-Things-Konnektivität stellt eine Herausforderung dar, da die von „Kunden“ wie Patienten, vernetzten Fahrzeugen, Sensoren, Krankenhäusern oder Kameras gesammelten Daten unglaublich heterogen sind. Da immer mehr Technologien von Smartwatches bis hin zu Fertigungstools Überwachungsdaten sammeln, wird ein neues Analysetool benötigt, um heterogene Daten zu entwirren und zu charakterisieren, was in immer komplexeren Daten aus mehreren Quellen gemeinsam und einzigartig ist.
„Die Identifizierung sinnvoller Gemeinsamkeiten zwischen diesen Geräten stellt eine große Herausforderung dar. Trotz umfangreicher Forschung haben wir keine bestehende Methode gefunden, die nachweislich sowohl interpretierbare als auch identifizierbare gemeinsame und einzigartige Merkmale aus verschiedenen Datensätzen extrahieren kann“, sagte Raed Al Kontar, Assistenzprofessor für Industrie und Betrieb Maschinenbau.
Um dieser Herausforderung zu begegnen, haben die Forscher Niaichen Shi und Raed Al Kontar von der University of Michigan eine neue „personalisierte PCA“- oder PerPCA-Methode entwickelt, um die gemeinsamen und einzigartigen Komponenten von heterogenen Daten zu entkoppeln. Die Ergebnisse werden im veröffentlicht Zeitschrift für maschinelle Lernforschung.
„Die personalisierte PCA-Methode nutzt Low-Rank-Repräsentationslerntechniken, um sowohl gemeinsame als auch einzigartige Komponenten mit guten statistischen Garantien genau zu identifizieren“, sagte Shi, Erstautor der Arbeit und Doktorand der Industrie- und Betriebstechnik.
„Als einfache Methode, mit der gemeinsame und einzigartige Merkmale effektiv identifiziert werden können, gehen wir davon aus, dass personalisierte PCA in Bereichen wie Genetik, Bildsignalverarbeitung und sogar großen Sprachmodellen hilfreich sein wird.“
Um ihren Nutzen weiter zu steigern, kann die Methode vollständig föderal und verteilt implementiert werden, was bedeutet, dass das Lernen auf verschiedene Clients verteilt werden kann und Rohdaten nicht gemeinsam genutzt werden müssen; Nur die gemeinsamen (und nicht eindeutigen) Funktionen werden zwischen den Clients kommuniziert.
„Dies kann den Datenschutz verbessern und Kommunikations- und Speicherkosten einsparen“, sagte Al Kontar.
Mit personalisierter PCA können verschiedene Kunden trotz der erheblichen Unterschiede in ihren Daten gemeinsam starke statistische Modelle erstellen. Die extrahierten gemeinsamen und einzigartigen Funktionen kodieren umfangreiche Informationen für nachgelagerte Analysen, einschließlich Clustering, Klassifizierung oder Anomalieerkennung.
Die Forscher demonstrierten die Leistungsfähigkeit der Methode, indem sie Schlüsselthemen effektiv aus 13 verschiedenen Datensätzen von Transkriptionen der US-Präsidentschaftsdebatten von 1960 bis 2020 extrahierten. Sie konnten gemeinsame und einzigartige Debattenthemen und Schlüsselwörter erkennen.
Die personalisierte PCA nutzt lineare Merkmale, die von Praktikern leicht interpretiert werden können, was ihren Einsatz in neuen Anwendungen weiter verbessert.
Mehr Informationen:
Naichen Shi et al., Personalisierte PCA: Entkopplung gemeinsamer und einzigartiger Funktionen, arXiv (2022). DOI: 10.48550/arxiv.2207.08041