TY - THES U1 - Master Thesis A1 - Müller, Daniel T1 - Apache Spark: Untersuchung der Möglichkeiten zur verteilten Datenverarbeitung und Analyse von Streaming Data N2 - Über die letzten Jahre entstanden unterschiedlichste Gerätschaften, besonders im mobilen Bereich und der Industrie 4.0, die große Datenmengen generieren. Diese müssen in entsprechenden Netzwerken entgegengenommen, verarbeitet und ggf. analysiert werden um einen Mehrwert zu erzielen. Ein Vertreter für die Umsetzung von Echtzeit-Datenverarbeitung ist Apache Spark, ein Open Source Framework, welches für die Analyse von Informationsströmen und Datenbeständen eingesetzt werden kann. Im Rahmen dieser Masterarbeit wird die Apache Spark Plattform von Grund auf erläutert und auf ihre Einsatzfähigkeit im Bereich der verteilten Datenverarbeitung untersucht. Durch die theoretische Einleitung in die Themen Big Data, Streaming Data, Data Mining und Real-Time Analytics wird ein grundlegendes Verständnis für die Aufgaben und Herausforderungen dieses Sachgebiets vermittelt. Es wird die Entwicklung von der Batch- zur Streamingverarbeitung vorgestellt und die Anforderungen, sowie Voraussetzungen für die Umsetzung von Echtzeitsystemen aufgezeigt. Nachdem diese Grundlagen vermittelt wurden, folgt eine Vorstellung des Projektumfangs der Apache Software Foundation, in welchen sich auch das Spark Projekt einordnen lässt. Die Arbeit erläutert die Grundkonzepte von Apache Spark, wie die Entwicklung, Architektur und der Clusterbetrieb der Plattform. Dabei stützen sich die Untersuchungen auf praktische Beispiele, um die Arbeitsweise von Apache Spark näher aufzuzeigen. Die vorgestellten Themen fallen in die Bereiche der parallelen Datenverarbeitung mit Spark und beschäftigen sich mit den Voraussetzungen für das Erstellen von Anwendungen, die den verteilten Aufbau und die horizontale Skalierbarkeit von Spark ausnutzen. Spark bringt über eigene Bibliotheken auch Funktionalitäten für die Datenverarbeitung in speziellen Aufgabengebieten mit sich. In dieser Arbeit werden ebenfalls die beiden Bibliotheken MLlib, welche im Bereich des maschinellen Lernens Einsatz findet, und Spark Streaming, die Bibliothek für Verarbeitung von Datenflüssen, vorgestellt und deren Funktionsumfang untersucht. Das Kernthema dieser Arbeit bildet die Modellierung von Lösungsmöglichkeiten zur Analyse von Streaming Data. Es wird hierdurch die Funktionsweise von Spark und dessen Streaming Bibliothek anhand von kompletten Applikationen zur Ausreißererkennung in Datenströmen im Detail aufgezeigt. Die Arbeit zeigt auf, dass Spark durchaus für den Einsatz zur verteilten Datenverarbeitung geeignet ist. Auch der Umgang mit Streaming Data wird durch den Bau der Prototypen nachgewiesen. In dem abschließenden Fazit werden die Erkenntnisse der Arbeit zusammengefasst und die Einsetzbarkeit von Spark diskutiert. KW - Apache Spark Y2 - 2015 U6 - https://nbn-resolving.org/urn:nbn:de:bsz:ofb1-opus4-10249 UN - https://nbn-resolving.org/urn:nbn:de:bsz:ofb1-opus4-10249 SP - XVI, 160 S1 - XVI, 160 CY - Offenburg ER -