Datenschätze unter Verschluss: Eine Erklärung, wie Vorhersageergebnisse zu Stande kommen, ist häufig nicht möglich.
Datenschätze unter Verschluss: Eine Erklärung, wie Vorhersageergebnisse zu Stande kommen, ist häufig nicht möglich.Quelle: IBM
Erschienen in Ausgabe 6-2018Märkte & Vertrieb

Raus aus der Black Box

Wie Versicherer die richtigen Schlüsse aus den Entwicklungen um Data Science, Maschinelles Lernen und Künstliche Intelligenz ziehen.

Von Martin SpindlerVersicherungswirtschaft

Lesen Sie den vollständigen Artikel

Erhalten Sie Zugang zu allen Artikeln unserer Fachzeitschriften und Publikationen.

Dieser Beitrag gibt einen Überblick über aktuelle Entwicklungen im Bereich Maschinelles Lernen (ML) und Künstliche Intelligenz (KI) mit Anwendungen in der Versicherungsindustrie. Der Schwerpunkt liegt auf aktuellen statistischen Verfahren, die ein zentrales Element in der Kette der Datenanalyse darstellen. In den letzten Jahren hat sich Data Science als neues eigenständiges Fachgebiet entwickelt. Dabei handelt es sich um einen interdisziplinären Bereich, der Wissen aus der Informatik, Mathematik, Statistik und den jeweiligen Fachgebieten verknüpft. Ausgangspunkt für die gegenwärtigen Entwicklungen ist die zunehmende Verfügbarkeit von großen, komplexen Datensätzen. Diese wird getrieben von der Digitalisierung.  Digitalisierung senkt die Kosten der Datenerhebung und -verfügbarkeit. Durch die zunehmende Verbreitung von Smartphones, Tablets, Internetanwendungen und -diensten werden viele Informationen digital verfügbar. Beispiele sind Vertragsdaten von Kunden, Korrespondenzen mit Kunden, elektronische Personalakten oder Daten über die Schadensregulierung. Diese Daten liegen häufig in unstrukturierter Form vor.

Volume, Velocity, Variety, Veracity

Für „Big Data“ gibt es verschiedene Definitionen. Eine häufig verwendete Definition stützt sich auf die vier Vs: Volume, Velocity, Variety, Veracity. Danach sind Big Data durch ihre enorme Größe (Volume), durch die Geschwindigkeit, wie die Daten akkumuliert werden (Velocity), die Verschiedenheit der Quellen (Variety) und Wahrhaftigkeit/ Glaubwürdigkeit (Veracity) charakterisiert. Die Größe von Datensätzen kann schnell mehrere Giga- oder Terabyte umfassen. Die Echtzeitmessung von vielen Daten (bspw. Sensoren in Flugzeugen oder Orderbücher an Börsen) führt dazu, dass die Datensätze schnell anwachsen. Auch stehen häufig viele verschiedene Quellen und Arten von Daten (Textdaten, Audiodateien, Videos) zur Verfügung, die zu einem Datensatz vereinigt werden. Wichtig ist es, die Aussagekräftigkeit der vorhandenen Daten für die untersuchten Fragestellungen im Blick zu behalten.

Der erste Schritt, die Aufbereitung der Daten, kann bereits sehr aufwendig und zeitintensiv sein und den Einsatz von Informatikern und Ingenieuren erfordern. Dabei müssen häufig Daten aus verschiedenen Quellen und unterschiedlicher Formate zusammengeführt werden. Nach der Datenaufbereitung beginnt die Aufgabe der Statistiker: nun geht es darum, die richtigen Schlüsse aus den Daten zu ziehen. Dazu muss ein statistisches Modell aufgestellt werden. Aus meiner…