AKI
Refine
Year of publication
- 2024 (9)
Document Type
- Bachelor Thesis (9)
Has Fulltext
- yes (9)
Is part of the Bibliography
- no (9)
Keywords
- Maschinelles Sehen (4)
- Computer Vision (3)
- Künstliche Intelligenz (3)
- Neuronales Netz (2)
- AMT (1)
- Aktives maschinelles Lernen (1)
- Automatic Music Transcription (1)
- Brustkrebs (1)
- Datenerfassung (1)
- Datenqualität (1)
Open Access
- Closed (6)
- Closed Access (2)
- Diamond (1)
- Open Access (1)
Diese Arbeit befasst sich mit dem Konzept des Active Learning. Sinn davon ist es, beim Training von Machine Learning Modellen Daten einzusparen. Indem das Modell aussucht, welche Daten besonders interessant sind, soll das Labeling von weniger nützlichen Daten vermieden werden. Der Prozess wird am Beispiel der Objekterkennung auf Bildern evaluiert. Bei den durchgeführten Versuchen wird zu dem Ergebnis gekommen, dass das Active Learning in gewissen Fällen eine Datensparrate von bis zo 50% erzielen kann. Jedoch muss diese Methode gut auf den jeweiligen Anwendungsfall angepasst werden. Bei einer fehlerhaften Verwendung kann das Active Learning negative Auswirkungen auf das Training haben.
Die vorliegende Arbeit befasst sich mit der Untersuchung verschiedener Ansätze zur automatisierten Klassifikation von Mammographieaufnahmen, um die Erkennung von Brustkrebs zu verbessern. Im Rahmen der Evaluierung wurden insbesondere Convolutional Neural Networks (CNNs) wie InceptionV3 sowie das Foundation Model CLIP und ConvNeXtSmall berücksichtigt. Im Rahmen der Experimente wurden sowohl binäre als auch mehrklassige Klassifikationen unter Verwendung der DDSM- und MIAS-Datensätze durchgeführt. Ein Zero-Shot-Learning wurde für CLIP angewandt, jedoch ohne zufriedenstellendes Resultat. Die Ergebnisse legen nahe, dass InceptionV3 beim Nachtrainieren eine überlegene Leistung erbringt, während ConvNeXtSmall durch die Verwendung von Feature-Maps in Kombination mit einem Random Forest-Klassifikator bessere Ergebnisse zeigt als beim Nachtrainieren. Der Vergleich der hier vorgestellten Ansätze liefert wertvolle Einblicke und Perspektiven für künftige Forschungsarbeiten im Bereich der automatisierten Brustkrebsdiagnostik.
Die zentrale Frage dieser Arbeit war, ob sich das Residual Shuffle-Exchange Network, das als Alternative zum Transformer auf dem MusicNet-Datensatz für die Automatic Music Transcription (AMT) gute Leistungen erzielte, als PyTorch-Version realisieren und mit mehr Daten, einschließlich synthetischer Daten, skalieren lässt, um eine bessere Generalisierung zu erzielen.
Die Ergebnisse konnten auf Basis eines bestehenden GitHub-Repositories in PyTorch mit leichten Einbußen reproduziert werden. Es wurde eine Codebasis entwickelt, die es ermöglichte, die Architektur in verschiedenen Konfigurationen zu testen und schließlich effizient mit dem MAESTRO-Datensatz sowie mit dem synthetisierten ADLPiano-Datensatz zu trainieren. Dabei entstand ein Modell, das 2 Millionen Parameter größer ist, jedoch durch den Einsatz von bfloat16 den Bedarf an VRAM um 8% reduziert und die Transkriptionsgeschwindigkeit durch eine verringerte Auflösung um 18% erhöht.
Das Modell zeigt verbesserte Fähigkeiten zur Generalisierung auf unbekannten Klavierstücken. In Kombination mit einer verbesserten Nachverarbeitung konnte auf dem MAESTRO Testdatensatz ein Onset-F1-Score von 92% erreicht werden.
In the contemporary retail environment, the extraction of price information from promotional brochures is labor-intensive and time-consuming. This thesis addresses this challenge by developing and evaluating an automated system to extract prices, crossed-out prices, and discounts from images. The proposed system aims to enhance the data acquisition process’s efficiency and accuracy, thus enabling timely and precise information retrieval while reducing manual effort. The research begins with a comprehensive review of existing methods for text recognition and extraction, highlighting the strengths and weaknesses of various approaches. Based on these insights, several models, including Parseq, DTrOCR, and CLIP4STR, are compared to identify the most effective solution for the task. The CLIP4STR model, leveraging a dual encoder-decoder architecture that integrates visual and cross-modal branches, is found to be particularly well-suited for recognizing and extracting prices from complex visual contexts in promotional images. Experiments are conducted to evaluate the performance of these models using a dataset comprising promotional images from five different retailers. The CLIP4STR model demonstrates superior performance, achieving high accuracy in extracting price information. Additionally, the system’s robustness is validated through various test scenarios, including handling discounts and crossed-out prices. The results of this thesis underscore the potential of applied artificial intelligence to transform retail data processing. By automating price extraction, businesses can significantly improve their data collection processes, leading to more informed decision-making and resource allocation. Future work will focus on refining the model, expanding the dataset, and integrating the system into real-world operational settings to further enhance its applicability and performance. This research contributes to the field of retail data processing by providing a scalable and efficient solution for price information detection, laying a strong foundation for future advancements in automated data extraction systems.
Die vorliegende Bachelorarbeit mit dem Titel "Ableitung von Bruchflächen-Topographien mittels künstlicher neuronaler Netze" ist eine Machbarkeitsstudie, in der eine Möglichkeit untersucht wird, hochauflösende Raster-Elektronen-Mikroskop (REM)-Bilder zur präzisen Bestimmung der Topographie von Bruchflächen in Materialien zu nutzen. Ziel der Arbeit ist es, ein Verfahren zu entwickeln, das durch den Einsatz künstlicher Intelligenz den langwierigen und komplexen Prozess der manuellen Topographieerfassung ersetzt. Dies soll die Effizienz in der Materialprüfung steigern und tiefere Einblicke in das Verhalten von Materialien unter Belastung ermöglichen. Die Vision, die dadurch angestrebt wird, ist zukünftig, wichtige Zähigkeitskennwerte anhand von Bruchflächeninformationen abzuleiten.
Ein großer Teil der Machbarkeitsstudie behandelt die Datenentstehung und Datenvorverarbeitung. Mit einem Raster-Elektronen-Mikroskop werden hochauflösende Graustufenbilder von Bruchflächen erzeugt. Das Weißlichtinterferometer scannt die Bruchfläche und erzeugt eine passende Topographie.
Während der Datenvorverarbeitung werden die anfangs fehlerbehafteten Daten anhand mehrerer Methoden präpariert und für das Modell vorbereitet. Mithilfe geometrischer Transformationen wie Drehen oder Beschneiden werden das REM-Bild und die Topographie gemappt. Eine Gradient-basierte Helligkeitsfunktion soll unerwünschte Helligkeitsunterschiede auf Bruchflächenbildern vermeiden, sodass diese nicht zu viel Einfluss auf das Modell nehmen.
Anschließend wird ein U-Net trainiert, welches das Graustufenbild als Input nimmt und eine dazugehörige Topographiematrix generieren soll. Häufig auftretende Artefakte bei Convolutional Neural Networks, wie Schachbrettmuster oder ein, durch das Zero-Padding entstehender, schwarzer Rahmen, werden mit besonderen Features in der Modellarchitektur vermieden. In diesem Modell ersetzt ein Reflective-Padding das standardmäßige Zero-Padding, um den Effekt des schwarzen Rahmens zu umgehen. Für das Hochskalieren der Bilder während der Up-Convolution bedient sich das Modell an einer nearest neighbor Interpolation.
Die Ergebnisse werden durch Metriken wie Root-Mean-Squared-Error oder prozentuale Abweichung evaluiert. Dabei werden die Vorhersagen auf den unterschiedlichen Bereichen der Bruchfläche analysiert. Das Modell zeigt vielversprechende Ergebnisse in der Topographie-Generierung und bietet eine Grundlage für weitere Forschungen in diesem Gebiet.
In der folgenden Arbeit wird die Entwicklung einer Menüsteuerung für Füllstandsensoren dokumentiert. Diese soll es ermöglichen, die Sensoren auch innerhalb von explosionsgefährdeten Bereichen zu bedienen. Alle verwendeten Ansätze analysieren dabei Geräuschsignaturen, die durch die Interaktion eines Benutzers mit dem Gehäuse des Füllstandsensors entstehen und klassifizieren diese unter Verwendung von künstlicher Intelligenz. Dabei wird in zwei Ansätze mit unterschiedlichen Gehäusen unterteilt: das bereits vorhandene Gehäusedesign und eine modifizierte Version davon. Für jedes Gehäuse wurden mehrere Lösungsansätze entwickelt und deren Ergebnisse miteinander verglichen. Dabei wird vor allem auf Bild- und Zeitreihen-Klassifikation mithilfe von Convolutional Neural Networks eingegangen.
Für diese Arbeit wurden Trainingsdaten mit beiden Gehäusetypen aufgezeichnet und die Aufnahmen anschließend mit Labeln im Dateinamen versehen. Dabei wurden zunächst vier Klassenlabel definiert, die in beiden Ansätzen klassifiziert werden sollen. Bei der Arbeit mit dem modifizierten Gehäusedeckel wurde eine zusätzliche Rauschklasse definiert. Anhand dieser Datensätze wurden verschiedene Ansätze implementiert und evaluiert.
Die Lösungsansätze mit dem bestehenden Gehäusedesign konnten keine zufriedenstellenden Ergebnisse liefern. Das modifizierte Gehäuse hingegen erreicht mit einem Zeitreihen-Convolutional-Neural-Network eine finale Accuracy von ca. 95%. Dazu wurden einige Augmentierungs- und Optimierungsschritte durchgeführt.
Die Ansätze, die das Standard-Gehäusedesign zur Signalgenerierung verwenden, hatten einen Nachteil bei der Aufnahme des Datensatzes. Durch die Rundung des Gehäuses und der fehlenden Führung kam es häufig zum Abrutschen oder zu unvollständigen Signalen während der Aufnahmen, was die Klassifizierung erschwert hat. Die späteren Ansätze mit dem modifizierten Gehäuse konnten dieses Problem umgehen und unter anderem dadurch deutlich bessere Ergebnisse erzielen.
Jeder Mensch ist ständig unfreiwillig von einer Flut akustischer Reize umgeben. Diese Situation stellt für Menschen mit Hörverlust eine besondere Herausforderung dar. Menschen mit Hörverlust hören durch Hörgeräte zwar alles verstärkt, jedoch stellt sich die Frage, ob ein Hörgerät lediglich eine einfache Verstärkung von Schallwellen ist oder ob es darüber hinausgehende Funktionen bieten kann.
Die vorliegende Thesis widmet sich der akustischen Szenenanalyse in Hörgeräten, wobei der Schwerpunkt auf der Integration von Machine Learning liegt. Das Ziel besteht darin, eine automatisierte Erkennung und Anpassung an verschiedene akustische Situationen zu ermöglichen. Die Arbeit konzentriert sich insbesondere auf die Analyse grundlegender Szenarien wie: Sprache in Ruhe, absolute Ruhe, Sprache in Störgeräuschen und Störgeräuschen in Audiodaten.
In dieser Arbeit wird die Identifikation von Trägheitsparametern von Mehrkörpersystemen, am Beispiel eines ein aus vier Segmenten bestehenden Roboterarms untersucht. Es werden verschiedene neuronale Netzarchitekturen zur Identifikation der Trägheitsparameter des Roboterarms exploriert. Als Referenz für das Abschneiden der Ansätze wird ein vorab implementierter numerischer Optimierungsansatz, welcher mittels der Software „Matalb“ umgesetzt wurde, benutzt. Der Ansatz zum Aufstellen der benötigten Bewegungsgleichungen und die Formulierung des Regressionsproblems unterscheidet sich von den in der Literatur verwendeten Ansätzen, und beruht auf einem neu entwickelten Sensorkonzept der Hochschule Offenburg (des Sweaty Labors).
Der numerische Ansatz, insbesondere nach Linearisierung des Problems, erzielte herausragende Ergebnisse und konnte die idealen Parameterwerte präzise identifizieren. Demgegenüber standen die neuronalen Netzwerke, deren Potenzial trotz umfassender Untersuchung verschiedener Architekturen und Ansätze nicht vollends ausgeschöpft werden konnte. Die Resultate zeigen deutlich die Grenzen und Herausforderungen bei der Anwendung maschineller Lernmethoden in der spezifischen Aufgabenstellung der Trägheitsparameteridentifikation auf.
Diese Arbeit leistet einen Beitrag zum Verständnis der Möglichkeiten und Grenzen bei der Anwendung neuer Messtechnologien und Berechnungsverfahren in der Robotik. Die überlegene Leistung des numerischen Solvers gegenüber den neuronalen Netzansätzen unterstreicht die Bedeutung weiterer Forschungen in diesem Bereich.
Garbage in, Garbage out: How does ambiguity in data affect state-of-the-art pedestrian detection?
(2024)
This thesis investigates the critical role of data quality in computer vision, particularly in the realm of pedestrian detection. The proliferation of deep learning methods has emphasised the importance of large datasets for model training, while the quality of these datasets is equally crucial. Ambiguity in annotations, arising from factors like mislabelling, inaccurate bounding box geometry and annotator disagreements, poses significant challenges to the reliability and robustness of the pedestrian detection models and their evaluation. This work aims to explore the effects of ambiguous data on model performance with a focus on identifying and separating ambiguous instances, employing an ambiguity measure utilizing annotator estimations of object visibility and identity. Through accurate experimentation and analysis, trade-offs between data cleanliness and representativeness, noise removal and retention of valuable data emerged, elucidating their impact on performance metrics like the log average miss-rate, recall and precision. Furthermore, a strong correlation between ambiguity and occlusion was discovered with higher ambiguity corresponding to greater occlusion prevalence. The EuroCity Persons dataset served as the primary dataset, revealing a significant proportion of ambiguous instances with approximately 8.6% ambiguity in the training dataset and 7.3% in the validation set. Results demonstrated that removing ambiguous data improves the log average miss-rate, particularly by reducing the false positive detections. Augmentation of the training data with samples from neighbouring classes enhanced the recall but diminished precision. Error correction of wrong false positives and false negatives significantly impacts model evaluation results, as evidenced by shifts in the ECP leaderboard rankings. By systematically addressing ambiguity, this thesis lays the foundation for enhancing the reliability of computer vision systems in real-world applications, motivating the prioritisation of developing robust strategies to identify, quantify and address ambiguity.