1. Projekt: Aufbau einer Pipeline zur automatischen Prozessierung von bestehenden Dokumenten
Aufgaben:
-
Explorative Dokumentensichtung zur Identifikation von relevanten Informationen und Strukturen
-
Aufbau einer Pipeline zur Konvertierung von PDF-Dateien zu Plain-Text in der AWS-Cloud unter Zuhilfenahme von AWS Textract
-
Extraktion von definierten Kennzahlen wie Geo-Koordinaten aus den Dokumenten mittels Python und AWS Lambda
-
Orchestrierung der Lambdafunktionen mittels AWS StepFunctions sowie Automatisierung der Pipeline mittels CloudWatch/CloudTrail, sodass automatisch beim Upload neuer Dateien diese mittels der oben beschriebenen Technologien verarbeitet werden
-
Umstrukturierung des Codes zur Kostenoptimierung und Anpassung der Lambda-Funktionen hinsichtlich Größe und Runtime
-
Versionierung des Codes mittels GIT
-
Integration der Koordinaten in ein Geo-Informationssystem (GIS), sodass diese mit den dazugehörigen extrahierten Informationen auf einer Karte visualisiert werden konnten und für den Endnutzer abrufbar waren
-
Dokumentation des Codes und der Ergebnisse
Skills:
AWS, AWS Lambda, Python, AWS StepFunction, AWS Lambda, GIS, GIT, AWS CloudWatch, AWS CloudTrail, AWS S3
2. Projekt: Data Warehouse
Aufgaben:
Projektthemen: Ergebnisbericht, Leistungsdialog, Tower Architektur
• Erstellung und Analyse von Schnittstellenspezifikation
• Erstellung von Jobs für die File Lieferung aus dem DWH
• Erstellung von Job Flows
• Erstellung von Fachtests
• Produktivsetzung von ETL-Jobs
• Einbindung neuer Tabellen und Spalten in das DWH
• Verwaltung der Metadatenstrukturen
• Überwachung und Wartung der ETL Bewirtschaftung im Betrieb
• Analyse fehlgeschlagener/abgebrochener Jobs sowie deren Fehlerbehebung
• Ablösung von Pl1 Programmen und Überführung in SQL
• Dokumentation des Entwicklungs- und Anbindungsprozesses
Skills:
SAS Base, SQL Unix Shell, PL1, Confluence, Lotus Notes, MS Teams, Eclipse, Visual Studio Code, SAS EG, JIRA, Teradata, DB2, DBeaver, IBM Spectrum