PropertyValue
?:abstract
  • "Die sekundäre Analyse bereits verfügbarer Daten kann Zeit, Kosten oder andere Ressourcen ein-sparen. Allerdings kann die Beantwortung bestimmter Fragstellungen gemeinsame Information über Variablen erfordern, die nicht gemeinsam beobachtet wurden. Statistisches Matching, das die Integration von zwei (oder mehreren) Datensätzen ermöglicht, bietet in solchen Situation eine Lösung. Eine notwendige Voraussetzung dafür ist, dass neben den Variablen, die spezifisch nur in einem der beiden Datensatz vorhanden sind, auch gemeinsame Variablen existieren, die in beiden Datensätzen beobachtet wurden. Diese gemeinsamen Variablen werden verwendet, um den Zusammenhang zwischen den spezifischen Variablen auf Basis der verfügbaren Daten zu schätzen. Dazu ist wichtig, dass die gemeinsamen Variablen gute Prädiktoren für die spezifischen Variablen sind. Ein populärer Weg, gemeinsame Information über nicht gemeinsam erhobene Variablen zu erhalten, basiert auf der Annahme, dass die spezifischen Variablen – bedingt auf die gemeinsamen Variablen– unabhängig sind. Im Kontext der ersten drei Beiträge dieser kumulativen Dissertation werden neue Methoden für die kategoriale Datenintegration entwickelt, die auf dieser Annahme beruhen. Alle diese neuen Methoden bedienen sich einer Einbettung von statistischem Matching in die Theorie probabilistischer grafischer Modelle. Dabei bildet die bedingte Unabhängigkeitsannahme die zentrale Schnittstelle zwischen statistischem Matching und probabilistischen grafischen Modellen. Mit-hilfe gerichteter und ungerichteter Graphen werden Abhängigkeitsstrukturen zwischen Variablen dargestellt und eine geeignete Faktorisierung ihrer gemeinsamen Verteilung ermittelt. Dies ermöglicht die Schätzung einzelner Komponenten der gemeinsamen Verteilung auf unterschiedlichen Teilmengen der gegebenen Datenbasis. Ein weiterer Beitrag dieser Thesis nähert sich dem Problem des statistischen Matchings von kategorialen Daten mit einem vorsichtigeren Lösungsvorschlag, der ohne die Annahme der bedingten Unabhängigkeit auskommt. Es wird ein neues, mengenwertiges Imputationsverfahren vorgeschlagen, das die blockweise fehlenden Beobachtungen der spezifischen Variablen durch Mengen von plausiblen Werten ersetzt. Beitrag 1befasst sich mit der Schätzung von gerichteten, nicht-zyklischen Graphen auf Teilmengen der vorhandenen Daten. Es werden verschiedene Vorgehensweisen vorgeschlagen, wie diese Subgraphen miteinander zu einem gemeinsamen Bayesnetz kombiniert werden können. Basierend auf dem gemeinsamen, gerichteten Graphen werden diejenigen Faktoren über die Kettenregel für Bayesnetze bestimmt, die die gemeinsame Verteilung aller Variablen bestimmen. Dabei stellt die Annahme der bedingten Unabhängigkeit der spezifischen Variablen gegeben der gemeinsamen Variablen sicher, dass alle Faktoren aus den vorhandenen Daten geschätzt werden können. Beitrag 2entwickelt einen Ansatz zum statistischen Matching von kategorialen Daten, der auf einem ungerichteten probabilistischen grafischen Modell basiert. Mithilfe der log-linearen Entwicklung der Multinomialverteilung und der Interpretation des ungerichteten Graphen als Interaktionsgraph, wird ein Markovnetz mit log-linearer Parametrisierung für das statistische Matching hergeleitet. Wiederum gewährleistet die bedingte Unabhängigkeitsannahme, dass alle Komponenten der gemeinsamen Verteilung auf den vorhandenen Daten schätzbar sind. Beitrag 3befasst sich mit einem Spezialfall von Beitrag 2, nämlich der Integration von binären Daten mithilfe des Ising-Modells. Hierbei handelt sich um ein paarweises Markovnetz, das Inter-aktionen bis zur maximalen Ordnung zwei zulässt. Die Schätzung der gemeinsamen Verteilung kann für diesen Spezialfall deutlich vereinfacht werden. Beitrag 4interpretiert die Datensituation des statistischen Matchings als Problem fehlender Daten. Fehlende Beobachtungen der spezifischen Variablen werden bei der neu vorgeschlagenen unpräzisen Imputation durch Mengen von plausiblen Werten ersetzt. Auf Basis dieser –zum Teil mengenwertigen– Beobachtungen werden untere und obere Schranken für die Wahrscheinlichkeitskomponenten der gemeinsamen Verteilung von gemeinsamen und spezifischen Variablen berechnet. Als Basis für diese Schätzung dient die Theorie der Random Sets." Die ALLBUS-Daten aus dem Jahr 2012 dienen als Hauptdatensatz für die Analyse. (xsd:string)
?:author
?:comment
  • https://edoc.ub.uni-muenchen.de/24400/1/Endres_Eva-Marie.pdf. (ALLBUS) (xsd:string)
?:dataSource
  • ALLBUS-Bibliography (xsd:string)
?:dateCreated
  • Aufgenommen: 34. Fassung, Oktober 2019 (xsd:gyear)
?:dateModified
  • 2019 (xsd:gyear)
?:datePublished
  • 2019 (xsd:gyear)
?:duplicate
?:fromPage
  • 149 (xsd:string)
is ?:hasPart of
?:inLanguage
  • english (xsd:string)
is ?:mainEntity of
?:name
  • Statistical matching meets probabilistic graphical models (xsd:string)
?:publicationType
  • phdthesis (xsd:string)
?:reference
?:sourceInfo
  • 149, 2019 (xsd:string)
  • Bibsonomy (xsd:string)
?:studyGroup
  • ALLBUS (xsd:string)
?:tags
  • 2019 (xsd:string)
  • ALLBUS (xsd:string)
  • ALLBUS2012 (xsd:string)
  • ALLBUS_input2019 (xsd:string)
  • ALLBUS_pro (xsd:string)
  • ALLBUS_version34 (xsd:string)
  • FDZ_ALLBUS (xsd:string)
  • GA (xsd:string)
  • checked (xsd:string)
  • english (xsd:string)
  • jak (xsd:string)
  • jg (xsd:string)
  • phdthesis (xsd:string)
?:toPage
  • 149 (xsd:string)
rdf:type
?:uploadDate
  • 18.10.2019 (xsd:gyear)
?:url