Apache Spark: Untersuchung der Möglichkeiten zur verteilten Datenverarbeitung und Analyse von Streaming Data

Müller, Daniel

Über die letzten Jahre entstanden unterschiedlichste Gerätschaften, besonders im mobilen Bereich und der Industrie 4.0, die große Datenmengen generieren. Diese müssen in entsprechenden Netzwerken entgegengenommen, verarbeitet und ggf. analysiert werden um einen Mehrwert zu erzielen. Ein Vertreter für die Umsetzung von Echtzeit-Datenverarbeitung ist Apache Spark, ein Open Source Framework, welchesÜber die letzten Jahre entstanden unterschiedlichste Gerätschaften, besonders im mobilen Bereich und der Industrie 4.0, die große Datenmengen generieren. Diese müssen in entsprechenden Netzwerken entgegengenommen, verarbeitet und ggf. analysiert werden um einen Mehrwert zu erzielen. Ein Vertreter für die Umsetzung von Echtzeit-Datenverarbeitung ist Apache Spark, ein Open Source Framework, welches für die Analyse von Informationsströmen und Datenbeständen eingesetzt werden kann. Im Rahmen dieser Masterarbeit wird die Apache Spark Plattform von Grund auf erläutert und auf ihre Einsatzfähigkeit im Bereich der verteilten Datenverarbeitung untersucht. Durch die theoretische Einleitung in die Themen Big Data, Streaming Data, Data Mining und Real-Time Analytics wird ein grundlegendes Verständnis für die Aufgaben und Herausforderungen dieses Sachgebiets vermittelt. Es wird die Entwicklung von der Batch- zur Streamingverarbeitung vorgestellt und die Anforderungen, sowie Voraussetzungen für die Umsetzung von Echtzeitsystemen aufgezeigt. Nachdem diese Grundlagen vermittelt wurden, folgt eine Vorstellung des Projektumfangs der Apache Software Foundation, in welchen sich auch das Spark Projekt einordnen lässt. Die Arbeit erläutert die Grundkonzepte von Apache Spark, wie die Entwicklung, Architektur und der Clusterbetrieb der Plattform. Dabei stützen sich die Untersuchungen auf praktische Beispiele, um die Arbeitsweise von Apache Spark näher aufzuzeigen. Die vorgestellten Themen fallen in die Bereiche der parallelen Datenverarbeitung mit Spark und beschäftigen sich mit den Voraussetzungen für das Erstellen von Anwendungen, die den verteilten Aufbau und die horizontale Skalierbarkeit von Spark ausnutzen. Spark bringt über eigene Bibliotheken auch Funktionalitäten für die Datenverarbeitung in speziellen Aufgabengebieten mit sich. In dieser Arbeit werden ebenfalls die beiden Bibliotheken MLlib, welche im Bereich des maschinellen Lernens Einsatz findet, und Spark Streaming, die Bibliothek für Verarbeitung von Datenflüssen, vorgestellt und deren Funktionsumfang untersucht. Das Kernthema dieser Arbeit bildet die Modellierung von Lösungsmöglichkeiten zur Analyse von Streaming Data. Es wird hierdurch die Funktionsweise von Spark und dessen Streaming Bibliothek anhand von kompletten Applikationen zur Ausreißererkennung in Datenströmen im Detail aufgezeigt. Die Arbeit zeigt auf, dass Spark durchaus für den Einsatz zur verteilten Datenverarbeitung geeignet ist. Auch der Umgang mit Streaming Data wird durch den Bau der Prototypen nachgewiesen. In dem abschließenden Fazit werden die Erkenntnisse der Arbeit zusammengefasst und die Einsetzbarkeit von Spark diskutiert.… show more

Document Type:	Master's Thesis
Zitierlink:	https://opus.hs-offenburg.de/1024
Bibliografische Angaben
Title (German):	Apache Spark: Untersuchung der Möglichkeiten zur verteilten Datenverarbeitung und Analyse von Streaming Data
Author:	Daniel Müller Staff Member
Advisor:	Stephan Trahasch, Sascha Niro
Year of Publication:	2015
Year of first Publication:	2015
Date of final exam:	2015/09/29
Publishing Institution:	Hochschule Offenburg
Granting Institution:	Hochschule Offenburg
Place of publication:	Offenburg
Page Number:	XVI, 160
URN:	https://urn:nbn:de:bsz:ofb1-opus4-10249
Language:	German
Inhaltliche Informationen
Institutes:	Fakultät Elektrotechnik und Informationstechnik (E+I) (bis 03/2019)
Institutes:	Abschlussarbeiten / Master-Studiengänge / INFM
DDC classes:	000 Allgemeines, Informatik, Informationswissenschaft
GND Keyword:	Apache Spark
Formale Angaben
Open Access:	Open Access
Licence (German):	Veröffentlichungsvertrag für Publikationen mit Print on Demand
SWB-ID:	165813284X

Open Access

Apache Spark: Untersuchung der Möglichkeiten zur verteilten Datenverarbeitung und Analyse von Streaming Data

Download full text files

Export metadata

Additional Services

Statistics