@phdthesis{Mueller2015, type = {Master Thesis}, author = {Daniel M{\"u}ller}, title = {Apache Spark: Untersuchung der M{\"o}glichkeiten zur verteilten Datenverarbeitung und Analyse von Streaming Data}, address = {Offenburg}, url = {https://nbn-resolving.org/urn:nbn:de:bsz:ofb1-opus4-10249}, pages = {XVI, 160}, year = {2015}, abstract = {{\"U}ber die letzten Jahre entstanden unterschiedlichste Ger{\"a}tschaften, besonders im mobilen Bereich und der Industrie 4.0, die gro{\"s}e Datenmengen generieren. Diese m{\"u}ssen in entsprechenden Netzwerken entgegengenommen, verarbeitet und ggf. analysiert werden um einen Mehrwert zu erzielen. Ein Vertreter f{\"u}r die Umsetzung von Echtzeit-Datenverarbeitung ist Apache Spark, ein Open Source Framework, welches f{\"u}r die Analyse von Informationsstr{\"o}men und Datenbest{\"a}nden eingesetzt werden kann. Im Rahmen dieser Masterarbeit wird die Apache Spark Plattform von Grund auf erl{\"a}utert und auf ihre Einsatzf{\"a}higkeit im Bereich der verteilten Datenverarbeitung untersucht. Durch die theoretische Einleitung in die Themen Big Data, Streaming Data, Data Mining und Real-Time Analytics wird ein grundlegendes Verst{\"a}ndnis f{\"u}r die Aufgaben und Herausforderungen dieses Sachgebiets vermittelt. Es wird die Entwicklung von der Batch- zur Streamingverarbeitung vorgestellt und die Anforderungen, sowie Voraussetzungen f{\"u}r die Umsetzung von Echtzeitsystemen aufgezeigt. Nachdem diese Grundlagen vermittelt wurden, folgt eine Vorstellung des Projektumfangs der Apache Software Foundation, in welchen sich auch das Spark Projekt einordnen l{\"a}sst. Die Arbeit erl{\"a}utert die Grundkonzepte von Apache Spark, wie die Entwicklung, Architektur und der Clusterbetrieb der Plattform. Dabei st{\"u}tzen sich die Untersuchungen auf praktische Beispiele, um die Arbeitsweise von Apache Spark n{\"a}her aufzuzeigen. Die vorgestellten Themen fallen in die Bereiche der parallelen Datenverarbeitung mit Spark und besch{\"a}ftigen sich mit den Voraussetzungen f{\"u}r das Erstellen von Anwendungen, die den verteilten Aufbau und die horizontale Skalierbarkeit von Spark ausnutzen. Spark bringt {\"u}ber eigene Bibliotheken auch Funktionalit{\"a}ten f{\"u}r die Datenverarbeitung in speziellen Aufgabengebieten mit sich. In dieser Arbeit werden ebenfalls die beiden Bibliotheken MLlib, welche im Bereich des maschinellen Lernens Einsatz findet, und Spark Streaming, die Bibliothek f{\"u}r Verarbeitung von Datenfl{\"u}ssen, vorgestellt und deren Funktionsumfang untersucht. Das Kernthema dieser Arbeit bildet die Modellierung von L{\"o}sungsm{\"o}glichkeiten zur Analyse von Streaming Data. Es wird hierdurch die Funktionsweise von Spark und dessen Streaming Bibliothek anhand von kompletten Applikationen zur Ausrei{\"s}ererkennung in Datenstr{\"o}men im Detail aufgezeigt. Die Arbeit zeigt auf, dass Spark durchaus f{\"u}r den Einsatz zur verteilten Datenverarbeitung geeignet ist. Auch der Umgang mit Streaming Data wird durch den Bau der Prototypen nachgewiesen. In dem abschlie{\"s}enden Fazit werden die Erkenntnisse der Arbeit zusammengefasst und die Einsetzbarkeit von Spark diskutiert.}, language = {de} }