Refine
Document Type
- Master's Thesis (4)
- Bachelor Thesis (1)
Has Fulltext
- yes (5)
Is part of the Bibliography
- no (5)
Keywords
- Maschinelles Lernen (5) (remove)
Institute
Open Access
- Closed Access (5) (remove)
Das Verstehen und Extrahieren von Informationen aus Dokumenten stellt eine Herausforderung dar, welche den Einsatz weiterer Technologien bedarf. Vorliegende
Masterarbeit untersucht die Anwendbarkeit von Methoden des maschinellen Lernens im Bereich der Wissensextraktion auf Basis von Angebotsdokumenten. Hierbei gilt die Frage zu klären, inwiefern sich diese Dokumente eignen, um Strukturen
für die Modellierung mit einem Produktkonfigurator zu lernen. Kern der Arbeit stellen die Datenaufbereitung von PDF-Dokumenten sowie das Modeling multimodal
lernender Algorithmen dar. Abgesehen von Texten werden zusätzlich Layoutinformationen für das Lernen der Strukturen genutzt. Zudem werden die Ergebnisse der
erstellten Modelle evaluiert und die Güte in Anbetracht des vorliegenden Problems
bewertet.
Mit der prototypischen Implementierung einer automatisierten Dokumentengenerierung wird demonstriert, wie das extrahierte Wissen in der Software CAS Configurator Merlin genutzt werden kann.
Organizations striving to achieve success in the long term must have a positive brand image which will have direct implications on the business. In the face of the rising cyber threats and intense competition, maintaining a threat-free domain is an important aspect of preserving that image in today's internet world. Domain names are often near-synonyms for brand names for numerous companies. There are likely thousands of domains that try to impersonate the big companies in a bid to trap unsuspecting users, usually falling prey to attacks such as phishing or watering hole. Because domain names are important for organizations for running their business online, they are also particularly vulnerable to misuse by malicious actors. So, how can you ensure that your domain name is protected while still protecting your brand identity? Brand Monitoring, for example, may assist. The term "Brand Monitoring" applies only to keep tabs on an organization's brand performance, reception, and overall online presence through various online channels and platforms [1]. There has been a rise in the need of maintaining one's domain clear of any linkages to malicious activities as the threat environment has expanded. Since attackers are targeting domain names of organizations and luring unsuspecting users to visit malicious websites, domain monitoring becomes an important aspect. Another important aspect of brand abuse is how attackers leverage brand logos in creating fake and phishing web pages. In this Master Thesis, we try to solve the problem of classification of impersonated domains using rule-based and machine learning algorithms and automation of domain monitoring. We first use a rule-based classifier and Machine Learning algorithms to classify the domains gathered into two buckets – "Parked" and "Non-Parked". In the project's second phase, we will deploy object detection models (Scale Invariant Feature Transform - SIFT and Multi-Template Matching – MTM) to detect brand logos from the domains of interest.
Künstliche Intelligenz (KI) und maschinelles Lernen (ML) sind zwei der großen Schlüsseltechnologien zur Automatisierung intelligenten Verhaltens mit einer großen Anzahl von Anwendungsbereichen. Neben dem Einsatz von Servicerobotern, autonomen Fahrzeugen und intelligenten Suchmaschinen erschließen sich nach und nach weitere Einsatzfelder dieser jungen Wissenschaft. Diese Arbeit verfolgt das Ziel, zu prüfen, ob ein beispielhaftes Problem aus der IT-Security für die Bearbeitung durch maschinelle Lernverfahren geeignet ist, ein entsprechendes Open-Source Toolkit, das JMLT (Java Machine Learning Toolkit) zu dessen Bearbeitung zu entwickeln und mit diesem das Problem zu bearbeiten und die erhaltenen Ergebnisse auszuwerten, um letztendlich die Beantwortung der Eingangsfrage zu verifizieren.
Mit dieser Arbeit entsteht ein frei zugängliches, umfangreiches Open-Source Toolkit, dass jedem Interessierten zur freien Verfügung gestellt wird. Dieses bietet eine ganze Palette an Möglichkeiten, Daten zu verarbeiten, zu modifizieren, mit verschiedenen Methoden des maschinellen Lernens zu bearbeiten und die Ergebnisse grafisch anzuzeigen. Die Mächtigkeit dieses Toolkits wird sich im Laufe dieser Arbeit ergeben. Zur Verwendung sind grundlegende Java-Kenntnisse notwendig.
In der vorliegenden Thesis werden Empfehlungsalgorithmen zur Verbesserung von Wein-Empfehlungen evaluiert. Der Algorithmus wird zur Entscheidung zwischen zwei Weinen eingesetzt, so dass der jeweils für den Kunden geeignetere Wein empfohlen wird. Das derzeitige System setzt Collaborative Filtering durch den Alternating Least Squares (ALS) Algorithmus um. Bei Kunden und Weinen, die nicht die notwendigen Bedingungen für die Anwendung von ALS erfüllen, wird durch Zufall entschieden.
Dem bestehenden Ansatz wurden folgenden Verfahren gegenübergestellt: Content-based Filtering mit einen Autoencoder und Hybrid Filtering mit einem neuronalen Netz sowie mit der Empfehlungsbibliothek LightFM. Die neuen Ansätze berücksichtigen immer die Weineigenschaften und können für noch nicht gekaufte Weine eingesetzt werden (Cold-Start Problem). Verglichen wurden die Ansätze durch zwei Ranking-Methoden und einen selbst-entwickelten offline A/B-Test.
Unter den neuen Ansätzen schnitt LightFM am besten ab. ALS lieferte insgesamt die besten Ranking-Werte. Durch ein online A/B-Test zwischen ALS und LightFM konnten keine signifikanten Ergebnisse ermittelt werden. Insgesamt konnte auf Basis der in den Tests gesammelten Daten keine Verbesserung der Empfehlungslogik gegenüber dem bestehenden Verfahren mittels ALS nachgewiesen werden. Für eine abschließende statistisch signifikante Beurteilung müssten mehr online A/B-Tests durchgeführt werden.
Much of the research in the field of audio-based machine learning has focused on recreating human speech via feature extraction and imitation, known as deepfakes. The current state of affairs has prompted a look into other areas, such as the recognition of recording devices, and potentially speakers, by only analysing sound files. Segregation and feature extraction are at the core of this approach.
This research focuses on determining whether a recorded sound can reveal the recording device with which it was captured. Each specific microphone manufacturer and model, among other characteristics and imperfections, can have subtle but compounding effects on the results, whether it be differences in noise, or the recording tempo and sensitivity of the microphone while recording. By studying these slight perturbations, it was found to be possible to distinguish between microphones based on the sounds they recorded.
After the recording, pre-processing, and feature extraction phases we completed, the prepared data was fed into several different machine learning algorithms, with results ranging from 70% to 100% accuracy, showing Multi-Layer Perceptron and Logistic Regression to be the most effective for this type of task.
This was further extended to be able to tell the difference between two microphones of the same make and model. Achieving the identification of identical models of a microphone suggests that the small deviations in their manufacturing process are enough of a factor to uniquely distinguish them and potentially target individuals using them. This however does not take into account any form of compression applied to the sound files, as that may alter or degrade some or most of the distinguishing features that are necessary for this experiment.
Building on top of prior research in the area, such as by Das et al. in in which different acoustic features were explored and assessed on their ability to be used to uniquely fingerprint smartphones, more concrete results along with the methodology by which they were achieved are published in this project’s publicly accessible code repository.