Data Warehousing – Zusammenführung aller erdenklichen Datenquellen

Data Warehousing umfasst verschiedene Methoden und Algorithmen, um beispielsweise Daten aus ERP- und anderen IT-Systemen, Office-Dateien, Daten aus Webseiten oder Internetbörsen zu extrahieren, bereinigen, abzugleichen, zu konsolidieren und in ein Zielsystem zu überführen, welches als Zwischenspeicher (sogenannter Data Lake) dient und in der Regel die Datenbasis für Analyseverfahren darstellt.

Von besonderer Bedeutung dabei ist der ETL-Prozess (Extract, Transform, Load). Über bestimmte Verfahren entwickelte ETL-Prozessketten ermöglichen eine automatisierte Zusammenführung von Daten aus unterschiedlichsten internen und externen Datenquellen. Erfahrungsgemäß können ETL-Prozessketten je nach Projekt sogar komplexer werden als die eigentlichen Analysen.

  • Automatisierte Datenfusion / ETL

    Zusammenführung von getrennt gehaltenen, jedoch im Zusammenhang stehenden Daten aus relevanten Datenquellen über kundenindividuelle und automatisierbare ETL-Prozessketten

  • ODBC-Anbindung

    Über ODBC-Treiber können problemlos jegliche SQL-Datenbanken angebunden werden, beispielsweise MySQL, MSSQL, Oracle SQL, MariaDB, PostgreeSQL und auch Apache Hadoop Hive

  • NoSQL-Anbindung

    Auch die Anbindung von NoSQL-Datenbanken, beispielsweise Cassandra, MongoDB, Neo4j oder HBase, ist für unsere Data Scientists reine Routine.

  • Unstrukturierte Daten

    Unter Einsatz von intelligenten Parsing- sowie MapReduce-Algorithmen, ist das Sammeln und Analysieren von unstrukturierten Daten kein Problem