Apache Spark: Untersuchung der Möglichkeiten zur verteilten Datenverarbeitung und Analyse von Streaming Data

  • Über die letzten Jahre entstanden unterschiedlichste Gerätschaften, besonders im mobilen Bereich und der Industrie 4.0, die große Datenmengen generieren. Diese müssen in entsprechenden Netzwerken entgegengenommen, verarbeitet und ggf. analysiert werden um einen Mehrwert zu erzielen. Ein Vertreter für die Umsetzung von Echtzeit-Datenverarbeitung ist Apache Spark, ein Open Source Framework, welchesÜber die letzten Jahre entstanden unterschiedlichste Gerätschaften, besonders im mobilen Bereich und der Industrie 4.0, die große Datenmengen generieren. Diese müssen in entsprechenden Netzwerken entgegengenommen, verarbeitet und ggf. analysiert werden um einen Mehrwert zu erzielen. Ein Vertreter für die Umsetzung von Echtzeit-Datenverarbeitung ist Apache Spark, ein Open Source Framework, welches für die Analyse von Informationsströmen und Datenbeständen eingesetzt werden kann. Im Rahmen dieser Masterarbeit wird die Apache Spark Plattform von Grund auf erläutert und auf ihre Einsatzfähigkeit im Bereich der verteilten Datenverarbeitung untersucht. Durch die theoretische Einleitung in die Themen Big Data, Streaming Data, Data Mining und Real-Time Analytics wird ein grundlegendes Verständnis für die Aufgaben und Herausforderungen dieses Sachgebiets vermittelt. Es wird die Entwicklung von der Batch- zur Streamingverarbeitung vorgestellt und die Anforderungen, sowie Voraussetzungen für die Umsetzung von Echtzeitsystemen aufgezeigt. Nachdem diese Grundlagen vermittelt wurden, folgt eine Vorstellung des Projektumfangs der Apache Software Foundation, in welchen sich auch das Spark Projekt einordnen lässt. Die Arbeit erläutert die Grundkonzepte von Apache Spark, wie die Entwicklung, Architektur und der Clusterbetrieb der Plattform. Dabei stützen sich die Untersuchungen auf praktische Beispiele, um die Arbeitsweise von Apache Spark näher aufzuzeigen. Die vorgestellten Themen fallen in die Bereiche der parallelen Datenverarbeitung mit Spark und beschäftigen sich mit den Voraussetzungen für das Erstellen von Anwendungen, die den verteilten Aufbau und die horizontale Skalierbarkeit von Spark ausnutzen. Spark bringt über eigene Bibliotheken auch Funktionalitäten für die Datenverarbeitung in speziellen Aufgabengebieten mit sich. In dieser Arbeit werden ebenfalls die beiden Bibliotheken MLlib, welche im Bereich des maschinellen Lernens Einsatz findet, und Spark Streaming, die Bibliothek für Verarbeitung von Datenflüssen, vorgestellt und deren Funktionsumfang untersucht. Das Kernthema dieser Arbeit bildet die Modellierung von Lösungsmöglichkeiten zur Analyse von Streaming Data. Es wird hierdurch die Funktionsweise von Spark und dessen Streaming Bibliothek anhand von kompletten Applikationen zur Ausreißererkennung in Datenströmen im Detail aufgezeigt. Die Arbeit zeigt auf, dass Spark durchaus für den Einsatz zur verteilten Datenverarbeitung geeignet ist. Auch der Umgang mit Streaming Data wird durch den Bau der Prototypen nachgewiesen. In dem abschließenden Fazit werden die Erkenntnisse der Arbeit zusammengefasst und die Einsetzbarkeit von Spark diskutiert.show moreshow less

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Daniel Müller
Place of publication:Offenburg
Year of Publication:2015
Year of first Publication:2015
Pagenumber:176
Language:German
GND Keyword:Apache Spark
DDC classes:000 Allgemeines, Informatik, Informationswissenschaft
Advisor:Stephan Trahasch
Publishing Institution:Hochschule Offenburg
Granting Institution:Hochschule Offenburg, Fakultät Elektrotechnik und Informationstechnik (E+I)
Date of final exam:2015/09/29
Document Type:Master's Thesis
Acces Right:Frei zugänglich
SWB-ID:165813284X
Release Date:2015/11/24
Licence (German):License LogoVeröffentlichungsvertrag für Publikationen mit Print on Demand
URN:urn:nbn:de:bsz:ofb1-opus4-10249