Principal Component Analysis

Zuletzt aktualisiert am: 23.01.2026

This article in english

Synonym(e)

Hauptkomponentenanalyse; PCA

Definition

Unter einer PCA einer „Principal Component Analyse“, auch Hauptkomponentenanalyse oder PCA genannt versteht man ein statistisch-mathematisches Verfahren, mit dem man sehr große genetische Datensätze analysieren und verständlich machen kann. Die Principal Component Analysis ist ein dimensionsreduzierendes statistisches Verfahren zur Analyse hochdimensionaler, genetischer, transkriptomischer oder epigenetischer Datensätze, mit deren Hilfe das Hauptmuster biologischer Variation identifiziert und visuell darstellbar ist. Die PCA wird eingesetzt, um:

  • multiple  Gene
  • multiple SNPs
  • Methylierungsstellen
  • Transkriptom-Daten

auf wenige aussagekräftige Dimensionen zu reduzieren.

Allgemeine Information

Genetische Daten sind extrem komplex,  z. B. 20.000 Gene pro Probe, viele Gene korrelieren miteinander, die Unterschiede sind oft subtil. Mittels entsprechender Algorithmen lässt sich ein gemeinsames Muster analysieren. So kann mittels  PCA die Hauptachsen der Variation in den Daten erkennen.

Diese heißen:

  • PC1 = größte genetische Varianz
  • PC2 = zweitgrößte Varianz
  • PC3 usw.

Jede „Komponente“ ist aus einer Kombination vieler Gene oder SNPs zusammengesetzt.

Man findet häufig:

  • PC1 auf der x-Achse
  • PC2 auf der y-Achse

Proben mit ähnlicher Genetik liegen nah beieinander, unterschiedliche Gruppen trennen sich. 

Vorkommen

Anwendungen in der Gentechnologie

Populationsgenetik

  • genetische Herkunft
  • Cluster (z. B. europäisch / asiatisch / afrikanisch)
  • Kontrolle von Populationsbias

RNA-Sequenzierung

Hierbei gelingt u.a. eine Trennung von:

  • krank vs. gesund
  • Therapie-Responder vs. Non-Responder
  • Qualitätskontrolle („Batch effects“)

Epigenetik

  • DNA-Methylierungsprofile
  • epigenetisches Altern
  • Tumor-Subtypen

Beispiele: Dermatologie / Immunologie: Bei entzündlichen Erkrankungen (z.B. Psoriasis vs. atopische Dermatitis) können unterscheidbare genetische Profile herausgearbeitet werden Th1/Th17-dominierte Muster (IFN-Signatur vs. IL4/IL13-Signatur).

Die Hauptkomponentenanalyse (PCA) zeigt unterschiedliche molekulare Expressionsmuster bei atopischer Dermatitis und Psoriasis. z.B.

  • IL17A (Psoriasis hoch/atopische Dermatitis niedrig)
  • IFNG (Psoriasis mittel/atopische Dermatitis niedrig)
  • IL4 (Psoriasis niedrig/atopische Dermatitis hoch)
  • IL13 (Psoriasis niedrig/atopische Dermatitis hoch)

PCA trennt somit eine Genprobe automatisch in zwei Cluster, die sich aus den jeweilig bekannten Daten zuordnen lassen. PCA ist somit keine Kausalanalyse sondern lediglich eine explorative Analyse. PCA zeigt Strukturen aber keine Ursachen.

PCA-Algorithmen und -Implementierungen können natürlich auch bei  großne scRNA-seq-Datensätze eingesetzt werden (Tsuyuzaki K et al. 2020).

Literatur
Für Zugriff auf PubMed Studien mit nur einem Klick empfehlen wir Kopernio Kopernio

  1. Ben Salem K et al.(2021) Principal Component Analysis (PCA). Tunis Med 99:383-389.
  2. Moldovan LI et al. (2021) Characterization of circular RNA transcriptomes in psoriasis and atopic dermatitis reveals disease-specific expression profiles. Exp Dermatol 30:1187-1196.
  3. Pardo LM et al. (2020) Principal component analysis of seven skin-ageing features identifies three main types of skin ageing. Br J Dermatol 182:1379-1387.
  4. Traks T et al. (2024) High-throughput proteomic analysis of chronic inflammatory skin diseases: Psoriasis and atopic dermatitis. Exp Dermatol 33:e15079.
  5. Tsuyuzaki K et al.(2020) Benchmarking principal component analysis for large-scale single-cell RNA-sequencing. Genome Biol 21:9.
Abschnitt hinzufügen

Zuletzt aktualisiert am: 23.01.2026