Springe direkt zu Inhalt

Master - Multivariate Verfahren

(104039 / 104040)

TypVorlesung / Übung
Leistungspunkte6 LP (Master Economics)

Studienabschnitt im Masterstudiengang

  • Economics: Schwerpunktbereich Quantitative Analyse
  • Statistics: Pflichtbereich Methodische Grundlagen

Modulbeschreibung

(laut Studienordnung für den Masterstudiengang Economics)

Qualifikationsziele:

Die Studierenden erlangen vertiefte Kenntnisse an der Schnittstelle zwischen Multivariater Statistik, Statistical Learning und Data Mining. Sie werden in der Lage sein, Verfahren aus dem Bereich supervised und unsupervised learning in entsprechender Software eigenständig durchzuführen und die Ergebnisse zu visualisieren/ interpretieren. Dieses Wissen kann auf unterschiedliche Fragestellungen der Volkswirtschaftslehre, Wirtschaftsinformatik und Statistik angewendet werden.

Inhalte:

Moderne statistische Methoden aus dem Bereich Multivariater Statistik, Statistical Learning und Data Mining.

Kurze Gliederung:

Einführung

  • Beispiel zur Motivation mit Mobilfunkdaten
  • Diskussion und Definition von Daten/ Big data
  • Einzelne Schritte in der Analyse
  • Diskussion von Grundbegriffen

 

Spezielle Datensätze

  • Einführung grundlegender Datensätze, die im Kurs analysiert werden: Wettkampfergebnisse "Zehnkampf", Wohnungspreise in Boston, Flugverkehr, ...

 

Visualisierung von Daten

  • Ziele der Visualisierung
  • R Pakete zur Erstellung von Grafiken
  • Einfache bis hin zu komplexen Visualisierungen: Bar-, Box- und Scatterplots; Tree- und Heatmaps; Mosaic plots; kombinierte Visualisierungen, ...

 

Dimensionsreduktion mit Hilfe der Hauptkomponentenanalyse

  • Was muss/ soll die Dimension in Datensätzen reduziert werden?
  • (Mathematische) Herleitung der Hauptkomponentenanalyse
  • Hauptkomponentenanalyse in R mit Interpretation
  • Diskussion von anwendungsorientierten Aspekten am Beispiel des Datensatzes "Zehnkampf"

 

Evaluierung von Methoden

  • Einführung einfacher Prädiktions- und Klassifikationsmethoden
  • Overfitting und Einteilung des Datensatzes (Training-, Validierungs- und Testdaten)
  • Qualitätsmaße für die Evaluierung
  • Kreuzvalidierung und Bootstrap

 

Prädiktions- und Klassifikationsmethoden

  • Methoden basierend auf Entscheidungsbäumen
  • Bagging
  • Random Forest
  • Anwendungsbeispiele in R

 

Clusteranalyse

  • Hierarchische Verfahren
  • Partitionierende Verfahren
  • Anwendungsbeispiele in R
fu:stat
BDPEMS
Graduate Center of DIW Berlin
Joint Master's Program in Statistics