Maschinendaten 4.0 – Big Data in der Produktion

Berlin/München, November 2015: Mit Big Data Analytics im Produktionsumfeld lassen sich neue Wertpotenziale erschließen, die mit bestehenden Systemen unentdeckt blieben. Obgleich die Sensortechnik bereits heute in vielen Maschinen und Anlagen so verbaut ist, dass eine Abgabe der Daten an IT-Systeme für weitergehende Analysen möglich wäre, werden derzeit lediglich winzige Mengen des Datenvolumens genutzt – bedeutsame Geschäftsvorteile verpuffen.Stitched Panorama

Durch die intelligente Auswertung von Sensordaten lässt sich erkennen, wenn Bauteile oder Fertigungsprozesse erste Symptome aufweisen, die auf einen bevorstehenden Ausfall hindeuten. Daraufhin lässt sich gezielt und rechtzeitig in den Prozess eingreifen. Der durch prädiktive Analysen ermöglichte situationsgerechte Austausch von Ersatzteilen und auf den Punkt genaue Wartungsmaßnahmen gehören zu den Paradebeispielen von Big Data Analytics. Diese Anwendungsfelder lassen sich jedoch nach Belieben und individuell erweitern, denn wertvolle Rohdaten entstehen überall auf dem Shopfloor. So können mit Hilfe von Big Data Analytics  unzählige Produktionsvariablen im Prozessfluss analysiert werden, um die Produktreinheit abzusichern. Oder es lassen sich dort, wo konventionelle statistische Methoden und IT-Systeme überfordert sind, Ausschussraten drastisch verbessern.

Die Auswertung von Maschinendaten in Echtzeit gehört zu den anspruchsvollsten Bereichen von Big Data, denn Sensoren generieren Daten heute im Sekundentakt oder sogar weit darunter. Binnen weniger Stunden können Datenberge im Terabyte-Bereich entstehen. Auf Grund der Heterogenität der heutigen Maschinenlandschaft liegen Maschinendaten in den unterschiedlichsten Formaten vor; konventionelle Monitoring- und Analyse-Tools stoßen hier angesichts der Vielfalt, Geschwindigkeit, Größe und Veränderbarkeit dieser Datensätze sehr schnell an ihre Grenzen. Vor diesem Hintergrund ist ein neuer, speziell auf diese einzigartige Klasse von Daten ausgelegter Weg erforderlich, um beispielsweise die Produktion zu optimieren oder für die Früherkennung von Problemen durch den Einsatz von Diagnosedaten. Big Data Analytics-Methoden ermöglichen, diese Daten nach bislang unentdeckten Fehlermustern zu überprüfen. Werden Unstimmigkeiten festgestellt, erfolgt eine Untersuchung, ob es sich z. B. bei widersprüchlichen Datensätzen oder statistischen Ausreißern um wichtige Informationen mit Aussagekraft über Ineffizienzen oder Fehlerquellen handelt. So bekommen Daten, die vorher auf Grund des fehlenden Kontextes ohne Aussage waren, eine Bedeutung für den Produktionszustand – und zwar mit Blick auf die Zukunft, die sich aus den Daten ableiten lässt.

In der nächsten Entwicklungsstufe hin zu Maschinendaten 4.0 lassen sich nochmals erhebliche, ungeahnte Möglichkeiten im Produktionsumfeld erschließen – etwa wenn Daten über Maschinen hinweg in nahezu Echtzeit analysiert oder mit weiteren funktionsübergreifenden und externen Daten, wie Marktinformationen angereichert werden. Big Data in der Produktion wird somit zum Game Changer für die Fertigung, um die Durchlaufzeit zu verkürzen, Produktionsschwankungen zu meistern oder die Gesamtsteuerung deutlich zu vereinfachen.

Über DATANOMIQ

DATANOMIQ ist der Lösungs- und Service-Partner für Business Analytics, Data Science und Industrie 4.0. Wir erschließen die gewaltigen Ergebnispotenziale durch Big Data erstmalig in allen Bereichen der Wertschöpfungskette. Dabei setzen wir auf die besten Köpfe und das umfassendste Methoden- und Technologieportfolio in unserer Branche.

Kontakt

DATANOMIQ GmbH
Ostendstraße 25
D-12459 Berlin
Tel: +49 (0) 30 20653828
I: www.datanomiq.de
E: info@datanomiq.de

Rückblick: Industrie 4.0 & Big Data Symposium am 15.10.2015

Industrie 4.0 & Big Data sind in Deutschland angekommen – das zeigte das große Industrie 4.0 & Big Data Symposium am 15.10.2015 in München. Die Veranstaltung informierte und unterstützte, die richtigen Entscheidungen bezüglich der Umsetzung von Industrie 4.0 und Big Data zu treffen.

Schauen Sie sich hier die Impressionen des Tages an!

Benjamin Aunkofer, Geschäftsführer von DATANOMIQ war Keynote Speaker des Symposiums und behandelte die Bedeutung von Data Science für die Industrie 4.0. Weitere renommierte Unternehmen deckten mit Vorträgen aus erster Hand ein breites Themenspektrum ab:

  • Fraunhofer IOSB
  • General Electric (GE)
  • SIEMENS
  • SAP
  • Harting
  • SAS

Die Vorträge stehen Ihnen im PDF-Format bereit. Den Link zu den Downloads finden Sie mit einem Klick hier auf Connected Industry.

Über DATANOMIQ
DATANOMIQ ist der Lösungs- und Service-Partner für Business Analytics, Data Science und Industrie 4.0. Wir erschließen die gewaltigen Ergebnispotenziale durch Big Data erstmalig in allen Bereichen der Wertschöpfungskette. Dabei setzen wir auf die besten Köpfe und das umfassendste Methoden- und Technologieportfolio in unserer Branche. 

Pressekontakt

DATANOMIQ GmbH
Presse & Medien
Ostendstraße 25
D-12459 Berlin
Tel: +49 (0) 30 20653828
I: www.datanomiq.de

Interview im Tagesspiegel Köpfe

Interview mit Christoph Gabath – Big Data Blog

Das Projekt Industrie 4.0 hat das Potenzial, die Wirtschaft vollständig zu verändern – mit Auswirkungen auf die gesamte Gesellschaft. Wir stehen erst am Anfang einer langen Entwicklung, die viele Vorteile verspricht, viele Risiken birgt und deren Ende nicht absehbar ist. Orientierung und Wissen über die eigenen Handlungsmöglichkeiten sind wichtiger denn je zuvor. Christoph Gabath (DATANOMIQ) spricht mit dem Big Data Blog über die internationalen Entwicklungen und die Chancen für Deutschland. Lesen Sie das ganze Interview mit Klick auf diesen Link – Bigdatablog.de.

bigdatablog-datanomiq

Chefsache Big Data – Artikel in der Perspektive Mittelstand

Berlin, 05.10.2015 – „Big Data“ ist aktuell der geschäftsrelevanteste Trend in nahezu allen Branchen und eine der effektivsten Mittel im Kampf um Marktanteile und Aufbau von neuen Geschäftsmodellen. In vielen Branchen verändert Big Data bereits heute die Spielregeln des gesamten Geschäfts. Der erfolgversprechende Umgang mit dem Thema setzt jedoch die Entwicklung einer geeigneten Big-Data-Strategie voraus. Im Grunde lassen sich mit der Analyse von großen und verteilten Datenmengen in strukturierter und unstrukturierter Form, kurz Big Data Analytics, drei Ziele für das Unternehmen erreichen: [weiterlesen auf www.perspektive-mittelstand.de]

datanomiq-perspektive-mittelstand

DATANOMIQ macht Data Science für den Mittelstand erschwinglich

Der Schlüsselfaktor ‚Big Data‘ ist mittlerweile auf breiter Front im Mittelstand angekommen. Unternehmensführer haben den hohen Wert von Daten als zentraler Rohstoff und den Handlungsbedarf erkannt. Zu den wesentlichen Treibern gehören dabei die kontinuierlich steigenden Datenmengen sowie die Suche nach besseren oder neuen Möglichkeiten in der Datenanalyse. Auch die Vielzahl an Vorsystemen und Datenquellen innerhalb und außerhalb des Unternehmens sowie elektronisch erzeugte Informationen stimulieren das Interesse. Letztlich besteht bei den meisten mittelständischen Betrieben vermehrt die Notwendigkeit, die bisherige Datenqualität und -aktualität zu optimieren. Dies ist jedoch nur der Anfang, denn es entstehen laufend neue Anwendungsfelder, die den messbaren Nutzen von Big Data erhöhen: IT-gestützte Prozesse analysieren, Beschaffungspreise verifizieren, Maschinenstörungen minimieren, Absatzprognosen präzisieren und vieles mehr.

Big Data ist somit der vielleicht größte Trend in der Wirtschaft – dennoch agiert man in weiten Teilen des Mittelstands noch sehr zurückhaltend. In Umfragen werden dafür vorrangig die hohen Investitionskosten für entsprechende Big Data Technologien genannt. Darüber hinaus mangelt es flächendeckend an Data Scientists, die über hervorragende Kenntnisse u.a. in Statistik, Datenbanken, Netzwerktechnik und Programmierung verfügen. Das Statistik-Portal Statista schätzte einen Bedarf von mehr als vier Millionen Fachkräfte für 2015 und die vielen neuen Stellenangebote im Bereich Data Science und Big Data unterstreichen dies. Die überschaubare Anzahl von Data Scientists wird von großen Konzernen umworben und da sich insbesondere jüngere Fachkräfte vor allem auf Großstädte konzentrieren, geht der deutsche Mittelstand zumeist leer aus. Wollen mittelständische Unternehmen in diesem wichtigen Big Data-Trend nicht den Anschluss verlieren und für den neuen Wettbewerb vorbereitet sein, bedarf es flexibler Kooperationsmodelle – Data Science auf Abruf.

Hier setzt DATANOMIQ als Lösungs- und Servicepartner für Big Data Analytics und Data Science mit seinem einzigartigen Data Lab für den Mittelstand an: Durch eine Zusammenarbeit mit DATANOMIQ können selbst kleinere Firmen die messbaren Vorteile und neuen Möglichkeiten von Business Analytics, Data Science und Industrie 4.0 entlang der gesamten Wertschöpfungskette nutzen – günstig und flexibel. Hohe Investitionen in Technologien sind dafür nicht erforderlich, auch nicht der Kauf von Software. Wir liefern Ihnen die fertigen Ergebnisse. Partner und Kunden greifen dabei auf ein beispielloses Technologie- und Methodenportfolio und einem erstklassigen Data Science Team zurück und können somit in vollem Umfang von den Möglichkeiten und Potenzialen profitieren.

Über DATANOMIQ

DATANOMIQ ist ein Lösungs- und Service-Partner für Business Analytics, Data Science und Industrie 4.0. Wir erschließen die gewaltigen Ergebnispotenziale durch Big Data erstmalig in allen Bereichen der Wertschöpfungskette. Dabei setzen wir auf die besten Köpfe und das umfassendste Methoden- und Technologieportfolio in unserer Branche.

Kontakt

DATANOMIQ GmbH
Ostendstraße 25
D-12459 Berlin
I: www.datanomiq.de
E: info@datanomiq.de

DATANOMIQ stellt Keynote-Speaker des Industrie 4.0 & Big Data Symposiums

München/Berlin, September 2015: Benjamin Aunkofer, Geschäftsführer von DATANOMIQ (www.datanomiq.de) ist Keynote Speaker des Industrie 4.0 & Big Data Symposiums für datengestützte Produktion & Logistik am 15.10.2015 in München. Dabei behandelt Herr Aunkofer als führender Experte die Bedeutung von Data Science für die Industrie 4.0. Das Entscheiderforum informiert darüber hinaus gezielt über die zentralen Entwicklungen und weitere Themenfelder.
Die Besonderheit der Veranstaltung liegt darin, dass erstmalig abgeschlossene Projekte und damit vorhandene Erfahrungswerte für die Teilnehmer aus erster Hand vorgestellt werden. Als weitere Referenten treten namhafte Vertreter global führender Unternehmen und Organisationen auf, u.a. Siemens, General Electric, SAP, Wincor Nixdorf, SKF und Fraunhofer. Aktuell sind noch letzte Plätze verfügbar. Weitere Informationen erhalten Sie bei Connected Industry e.V. (www.connected-industry.com).

 

Über DATANOMIQ
DATANOMIQ ist ein Lösungs- und Service-Partner für Business Analytics, Data Science und Industrie 4.0. Wir erschließen die gewaltigen Ergebnispotenziale durch Big Data erstmalig in allen Bereichen der Wertschöpfungskette. Dabei setzen wir auf die besten Köpfe und das umfassendste Methoden- und Technologieportfolio in unserer Branche. DATANOMIQ erzielt messbare Resultate, die den Arbeitsalltag einfacher und erfolgreicher machen – ‚simplicity at work‘.

 

Pressekontakt

DATANOMIQ GmbH

Herrn Christoph Gabath
Ostendstraße 25
D-12459 Berlin
Tel: +49 (0) 30 20653828
I: www.datanomiq.de
E: gabath@datanomiq.de

CGa

 

Industrie 4.0: »Deutschland gibt das Heft aus der Hand«

Droht die deutsche Wirtschaft bei Industrie 4.0 gegenüber der US-amerikanischen und chinesischen ins Hintertreffen zu geraten? Ja, behauptet Datanomiq-Geschäftsführer Benjamin Aunkofer in seinem Gastkommentar und erläutert, warum.

DCIM232909

Benjamin Aunkofer, Geschäftsführer von Datanomiq, Lösungs- und Service-Partner für Business Analytics, Data Science und Industrie 4.0, gab August 2015 exklusiv auf elektroniknet.de ein Interview zum Thema Industrie 4.0 und der deutschen Wettbewerbsfähigkeit.

Deutschland ist mit seinen Marktführern im Industriegeschäft der Ausrüster der Welt. Und noch profitieren wir von der globalen Nachfrage nach deutschen Gütern. Eine kontinuierlich größer werdende Kluft entsteht jedoch in der Internet-Industrie, wo Deutschland von den Amerikanern und Chinesen auf die Plätze verwiesen wird. Und genau hier – durch die Vernetzung von realer und digitaler Welt – entsteht der Wettbewerb der Zukunft. Die fatalen Auswirkungen durch das Festhalten an klassischen Geschäftsmodellen und Produktionsmethoden könnten bereits kurzfristig sichtbar werden. Gefragt sind eine Offenheit und höhere Geschwindigkeit bei Industrie 4.0, damit wir weiter Akteur und nicht Zuschauer bleiben.

Lesen Sie das ganze Interview auf Elektroniknet.de unter folgendem Link: http://www.elektroniknet.de/automation/sonstiges/artikel/122730/

 

Big Data Datenbanken: SQL und NoSQL

Angesichts der stetig wachsenden Datenmengen in jedem Bereich der Wertschöpfung bilden intelligente und zielgerichtete Datenanalysen einen entscheidenden Erfolgsfaktor für die gesamte Unternehmensleistung. Welche Unternehmen hier die Nase vorn haben, wird immer stärker durch die richtige Kombination von Methoden und Technologien entschieden. Die Vielfalt an Schlüsseltechnologien für Big Data Analytics wird immer undurchsichtiger und komplexer. Vor diesem Hintergrund möchten wir mit dieser Artikel-Reihe die wichtigsten Technologien vorstellen.

Die Speicherung und Analyse von großen Datenmengen aus unterschiedlichsten Quellen wird für alle Fachbereiche im Unternehmen von Jahr zu Jahr wichtiger. Big Data Analytics gilt in den meisten Branchen bereits als Must-Have-Kompetenz, um nicht bereits kurzfristig den Anschluss an den Wettbewerb zu verlieren. Die neue Herausforderung ist dabei aber nicht nur die bloße Menge an Daten, sondern die vielen unterschiedlichen Datenformate.

Der Klassiker: Relationale Datenbanken und SQL

Die bisher noch am häufigsten eingesetzten Datenbanken gehören der Familie der relationalen Datenbanken an. In relationalen Datenbanken werden Datdatenbankmodellen in strukturierten Tabellen gespeichert und untereinander für Schlüsselpaare verbunden. Dies sind zeilenorientierte Datenbanken. Die korrespondierende Sprache zum Zugriff auf die Daten ist SQL (Structured Query Language) und sehr verbreitet. SQL gilt als eine der wichtigsten Kernkompetenzen im Bereich Business Analytics, für Advanced Analytics führt jedoch kaum ein Weg um NoSQL vorbei.

 

Während strukturierte Geschäftsdaten, wie etwa Bankverbindungen, Adressen, Bestellungen oder Produktinformationen, in einer relationalen Datenbank sehr gut gespeichert und auch mit SQL ausgewertet werden können, lassen sich unstrukturiert vorliegende Daten, z. B. Texte oder Bilder, zwar in einer solchen Datenbank übertragen, können jedoch nicht effizient verarbeitet oder ausgewertet werden.

Relationale Datenbanken gewährleisten, Daten konsistent  und – bei angewendeter Normalisierung – dank Vermeidung von Redundanzen auch platzsparend abzuspeichern. Dieser von vielen Unternehmen geschätzte Vorteil wird jedoch genau dann zum Nachteil, wenn die Datenmengen zu groß werden und komplizierte Analyse-Abfragen durchgeführt werden sollen, die bei führenden Unternehmen auf der Tagesordnung stehen.

Structured Storage / NoSQL

NoSQL ist ein aktueller Trendbegriff und steht für Datenbanken, die auch unstrukturierte Daten optimal und in großen Mengen verarbeiten können. Der Begriff NoSQL ist allerdings irreführend und stattdessen besser von Structured Storage gesprochen werden, denn dieses Akronym steht für Not only SQL. NoSQL bezeichnet zudem nicht ein einziges Datenbankmodell, sondern sehr viele unterschiedliche, die in vier Kategorien unterschieden werden können:

Key-Value-Datenbanken

Key-Value-Datenbanken sind eine Urform von Datenbanken – jeder Software-Entwickler hat bereits bewusst oder unbewusst mit der (meistens flüchtigen) Speicherung von Daten in Key-Value-Paaren gearbeitet. Im Grunde sind Key-Value-Datenbanken vergleichsweise primitiv, speichern Daten dafür in Rekordzeiten und rufen diese ebenso schnell wieder ab. Komplexe Geschäftslogiken lassen sich direkt in der Datenbank jedoch eher weniger abbilden. Die Analyse muss an externer Stelle, also außerhalb der Datenbank, erfolgen.

In reinen Key-Value-Datenbanken werden üblicherweise große Datenmengen unter schnellsten Zugriffszeiten verarbeitet, beispielsweise Sensordaten von Produktionsanlagen.

Key-Value-Datenbanken beschreiben ein grundlegendes Konzept, welches in fast allen anderen strukturierten Datenbanken aufgegriffen wird. Mit anderen Worten: Ein bisschen Key-Value steckt auch in den anderen NoSQL-Datenbanken.

Spaltenorientierte Datenbanken

Spaltenorientierte Datenbanken sind im Vergleich zu zeilenorientierten Datenbanken (relationale Datenbanken) sehr viel schneller im Hinzufügen von neuen Datensätzen (jeweils eine neue Spalte!). Solche Datenbanken können ähnlich komplexe Datenmodelle abbilden, wie zeilenorientierte Datenbanken, haben demgegenüber jedoch einen enormen Geschwindigkeitsvorteil, wenn Daten in nahezu Realtime in die Datenbank geschrieben und ausgewertet werden sollen. Der Nachteil an der Spaltenorientierung ist, dass die Abänderung von bestehenden Datensätzen umständlich und langsam ist, daher ist die Eignung für transaktionsintensive Datenbanken in der Regel nicht gegeben.

Spaltenorientierte Datenbanken spielen ihren Vorteil im Data Warehousing sowie für OLAP-Analysen aus. Ferner werden spaltenorientierte Datenbanken häufig für die Speicherung und Auswertung von Maschinendaten eingesetzt.

Dokumentenorientierte Datenbanken

Dokumentenorientierte Datenbanken sind die flexibelste Form der Datenspeicherung. Auf Relationen oder sonstige Verknüpfungen (z. B. zur Konsistenzprüfung) zwischen Daten wird komplett verzichtet. Somit müssen diese außerhalb der Datenbank über externe Abfrage/Programmiersprachen hergestellt werden. Dafür speichern dokumentenorientierte Datenbanken jegliche Datenformate (z. B. strukturierte meistens im XML- oder JSON-Format, aber auch unstrukturierte, wie Bilder oder Videos als Binärdateien) ab. Dokumentenorientierte Datenbanken sind frei von festgelegten Schemata und können dadurch Daten sehr flexibel speichern, ohne dass die Datenbank strukturell angepasst werden müsste.

Dokumentenorientierte Datenbanken bleiben auch bei sehr großen Datenmengen sehr schnell und bieten eine maximale Flexibilität. Intensiv vernetzte Daten können in einer solchen Datenbank jedoch nicht optimal gespeichert und abgerufen werden. In der Regel können solche Datenbanken auch sehr transaktionsintensive Anwendungsfällen gerecht werden, die Auswertung der Daten muss jedoch außerhalb erfolgen.

Graphenorientierte Datenbanken

Graphenorientierte Datenbanken bilden die Königsklasse, wenn es um vernetzte bzw. verlinkte Daten geht. Die meisten Datenbanken knicken bei Abfragen über viele Verbindungspfade hinsichtlich ihrer Performance schnell ein, nicht jedoch graphenorientierte Datenbanken, die genau solche Daten sehr schnell und überaus tiefgreifend speichern und schnell auswerten können.

Für weniger vernetzte Daten eignen sich graphenorientierte Datenbanken jedoch tendenziell eher nicht, da diese den Fokus auf die Auswertung von Graphen legen und hierauf optimiert wurden.

Fazit

NoSQL wird SQL niemals gänzlich ersetzen, denn relationale Datenbanken sind für strukturierte Geschäftsdaten immer noch die beste Wahl. Bei der Auswertung von unstrukturierten Daten oder Daten in besonders großen Mengen oder in besonders komplexen Strukturen, führt jedoch kein Weg an spezialisiertere NoSQL-Datenbanken vorbei.

 

Über DATANOMIQ

DATANOMIQ ist ein führender Lösungs- und Service-Partner für Business Analytics, Data Science und Industrie 4.0. Wir erschließen die gewaltigen Ergebnispotenziale durch Big Data erstmalig in allen Bereichen der Wertschöpfungskette. Dabei setzen wir auf die besten Köpfe und das umfassendste Methoden- und Technologieportfolio in unserer Branche. DATANOMIQ erzielt messbare Resultate, die den Arbeitsalltag einfacher und erfolgreicher machen – ‚simplicity at work‘.

Pressekontakt

DATANOMIQ GmbH

Herrn Christoph Gabath
Ostendstraße 25
D-12459 Berlin
Tel: +49 (0) 30 20653828
I: www.datanomiq.de
E: gabath@datanomiq.de

Big Data Analytics mit Hadoop und MapReduce

Angesichts der stetig wachsenden Datenmengen bilden intelligente und zielgerichtete Datenanalysen die Grundlage für die gesamte Unternehmensleistung. Welche Unternehmen hier die Nase vorn haben, wird immer stärker durch die richtige Kombination von Methoden und Technologien entschieden. Die Vielfalt an Schlüsseltechnologien für Big Data Analytics wird immer undurchsichtiger und komplexer. Vor diesem Hintergrund möchten wir mit dieser Artikel-Reihe die wichtigsten Technologien vorstellen.

Hadoop – Der Big Data Befähiger

Hadoop ermöglicht als Open-Source-Technologie ein simultan verteiltes Verarbeiten von Massendaten. Dabei werden die Daten durch mehrere Rechner eines Netzwerkes gleichzeitig verarbeitet. Das zugrundeliegende Dateisystem für die auf mehrere Rechner eines Netzwerkes verteilte Datenbearbeitung wird als Hadoop Distributed File System (HDFS) bezeichnet. Dieses Dateisystem ermöglicht die Verteilung und parallele Verarbeitung von Daten über mehrere, an ein Netzwerk verbundene Rechner in einem sogenannten Hadoop-Cluster. Um einen Hadoop-Cluster betreiben zu können, wird nicht mehr als handelsübliche Hardware benötigt. Auf softwareseitig setzt Hadoop geringe Ansprüche, denn jeder Hadoop-Rechner (Node) benötigt nicht mehr als Linux als Betriebssystem und Java als Framework.

Die Fähigkeit der Verarbeitung von großen Datenmengen schöpft Hadoop durch Parallelisierung der Mapping-Prozesse im MapReduce-Algorithmus, mit dem sich sehr gut auch unstrukturierte Daten auswerten lassen. Erst bei der Verarbeitung von Datenbeständen im mehrstelligen Terabyte-Bereich kommen die Vorteile von Hadoop mit dem verteilten und parallelen Rechnen besonders zur Geltung, da jeder einzelne Rechner nur eine Teilmenge auswertet und nur kurz vor dem Reducer-Prozess die Daten wieder fusioniert werden.

Das Prinzip von MapReduce lässt sich leicht durch folgendes Beispiel erläutern:
Angenommen, in einem Social Media Netzwerk (wie etwa Facebook) sollen die jeweils höchste Altersangabe pro Wohnort ermittelt werden, um die Frage zu klären, welche Stadt den ältesten Menschen hat, der noch am Leben ist. Da etablierte Social Media Netzwerke sehr viele Daten verwalten, sind die Daten über mehrere Server verteilt. Ein Map-Prozess würde auf allen Servern (Data-Nodes) jeweils alle Lebensjahre pro aktives Mitglied tabellarisch sammeln und dann dem jeweiligen Wohnort zuweisen. Hier werden also alle Altersangaben zu eindeutigen Wohnorten gemappt. Da jeder Node diese Aufgabe für sich selbst auf Basis seines eigenen Datenbestands bewerkstelligt, ist dieser Mapping-Prozess parallelisiert. Weiterlesen