Refine
Document Type
- Bachelor Thesis (2)
- Master's Thesis (2)
Language
- German (4)
Has Fulltext
- yes (4)
Is part of the Bibliography
- no (4) (remove)
Keywords
- Bildverarbeitung (4) (remove)
Institute
Open Access
- Closed Access (3)
- Closed (1)
Diese Arbeit befasst sich mit der Redigitalisierung von ausgedruckten Architektur-zeichnungen mit möglichst einfachen Mitteln. So sollen Fotos von herkömmlichen Smartphones die Grundlage für die Extraktion von Maßstab und Raumgeometrien sein.
Der erste der drei Schritte, die das Foto dabei durchläuft, ist die Beseitigung von perspektivischen Verzerrungen (Rektifizierung). Die hierfür benötigten Punkte werden durch ein, in dieser Arbeit trainiertes, Convolutional Neural Network (CNN) detektiert. Die so ermittelten Positionen stellen im zweiten Schritt, der Ermittlung eines Maßstabes, die Grundlage für das Auslesen der Maßzahlen mittels optical character recognition (OCR) dar. Da Räume nicht als solche in Bauzeichnungen eingezeichnet sind, werden im letzten Schritt, zuerst Wände, Türen und Fenster, durch mehrere mathematische Faltungen (convolutions) lokalisiert und innerhalb dieser Elemente, mittels wachsender Regionen, nach Räumen und Fluren gesucht.
Nach dem ein Foto diese Schritte durchlaufen hat, werden die ermittelten Geometrien sowie der Maßstab in einer Liste abgespeichert und im rektifizierten Bild, zusammen mit den berechneten Flächeninhalten, visualisiert. So kann ein Anwender schnell und einfach den Erfolg des Programmoutputs beurteilen.
Eine Versuchsreihe mit einigen Fotos ergab, dass ein Schattenwurf auf dem Papierplan bei Aufnahme des Lichtbildes zu vermeiden ist, da dieser sowohl bei der Auswertung durch das CNN, als auch innerhalb des OCR-Vorgangs zu Problemen führt, die in einigen Fällen eine Rektifizierung oder Maßstabsermittlung verhinderten.
Bei den übrigen fünf Fotos wurden durchschnittlich 31,8 von 32 Räumen detektiert, dabei wurde zwischen zwei und zwölf mal fälschlicherweise die Fensterbank als Fußboden detektiert. Die Standardabweichung der Flächeninhalte aller Räume betrug dabei 0,66 m², werden nur die Räume betrachtet, bei denen die Fensterbank korrekt erkannt wurde, beträgt die Standardabweichung lediglich 0,25 m².
Insgesamt werden die in dieser Arbeit erzielten Ergebnisse als „gut“ eingestuft, es bleiben jedoch auch einige Optimierungsmöglichkeiten an verschiedenen Stellen, besonders bei der Suche nach Räumen, bestehen.
Ziel der Thesis war zuerst eine kurze Literatur-Recherche und eine Einarbeitung in die Automatisierungstechnik (insbesondere in Robotik, speicherprogrammierbare Steuerungen, Bildverarbeitung und Kommunikationsmöglichkeiten), dann die Konzeption und der Aufbau eine Schulungszelle, mit der die Studenten in die Praxis umsetzen können, was sie im Labor gelernt haben und am Ende die Herstellung von Schulungsunterlagen.
Dafür wurde eine mehrstufige Lösung ausgewählt und betrachtet. Diese Lösung besteht in erster Linie in der Erforschung über die verschiedenen verfügbaren Komponenten. das heißt, die Bedienung und die Programmierung eines Universalroboters(UR5e), einer Sensopart-Kamera, eines Wago-PLC mit der Festo Pick-Place didaktisch Station und natürlich die Steuerung ihrer verschiedenen Software zu beherrschen. Dann folgen die Konzeption und der Aufbau der Schulungszelle, die Programmierung einer didaktischen Applikation, die den Studenten als Beispiel dient, und schließlich die Erstellung einer Anleitung dieser Applikation.
Bei der Produktion von Solarzellen aus multikristallinem Silizium haben Defekte aus der Kristallisationsphase starken Einfluss auf die Materialqualität der Wafer und damit auf den Wirkungsgrad der späteren Solarzelle. Ein Verständnis des Kornwachstums in multikristallinem Silizium während des Kristallisationsprozesses kann zur Optimierung desselben beitragen. In dieser Arbeit werden Methoden untersucht, optische Flüsse zwischen Korngrenzenbildern multikristalliner Si-Wafer mittels neuronaler Netze zu berechnen. Hierfür wird die Architektur eines ausgereiften faltungsbasierten neuronalen Netzes zur optischen Fluss-Berechnung genutzt und durch angepasstes Training auf Waferstrukturen zugeschnitten. Dies umfasst die Synthese eigener, auf Waferbilder basierender Trainingsdaten und das Training mit einer angepassten Fehlerfunktion zur Bewertung der Zuordnungsgenauigkeit von Körnern zwischen Wafern durch den optischen Fluss. Beide Maßnahmen zusammen führen zu einer Reduktion des Zuordnungsfehlers von Körnern zwischen Waferbildern um 45 % gegenüber einem hochoptimierten, auf allgemeine optische Flüsse trainierten Modell basierend auf demselben Netzwerk. Die geschätzte Zuordnungsgenauigkeit des besten Modells beträgt 92,4 % der Pixel der Korngrenzenbilder eines Wafers. Weiteres Verbesserungspotenzial ist vorhanden.
In dieser Arbeit wird der Bildbearbeitungsprozess von Dokumenten mithilfe von einem schlicht gehaltenem Neuronalen Netzwerk und Bearbeitungsoperationen optimiert. Ziel ist es, abfotografierte Dokumente zum Drucken aufzubereiten, sodass die Schrift gut lesbar, gerade und nicht verzerrt ist und Störfaktoren herausgefiltert werden. Als API zur Verfügung gestellt, können Bilder von Dokumenten beliebiger Größe und Schriftgröße bearbeitet werden. Während ein unter schlechten Bedingungen schräg aufgenommenes Bild nach Tesseract keine Buchstaben enthält, wird mit dem bearbeiteten Bild davon eine Buchstabenfehlerrate von 0,9% erreicht.