Thesis/Abschlussarbeiten « AG Netzbasierte Informationssysteme

Ablauf von Abschlussarbeiten bei NBI

Abschlussarbeiten bei NBI sind möglich indem der der/die Kandidat/in ein Thema aus den hiesigen Vorschlägen wählt oder ein eigenes Thema vorschlägt. In beiden Fällen ist es wichtig, dass die Vorkenntnisse des/der Kandidat/in für das Thema nützlich sind, der/die Kandidat/in wirkliches fachliches Interesse an dem Thema hat und das Thema für NBI interessant ist.

Es können keine neuen Abschlussarbeiten bei Prof. Tolksdorf begonnen werden.

1. Für die Anmeldung der Abschlussarbeit müssen a) ein Exposé der Arbeit und b) eine Gliederung der Arbeit mit konkreten Überschriften und einem Mengengerüst vorliegen. Gerne können wir daraus einen Projektplan für das Schreiben der Arbeit erstellen. Bitte beachten Sie, dass bei Herrn Prof. Tolksdorf ein einseitiges Exposé vorgesehen ist, während Prof. Müller-Birn mit einer eigenen Vorlage arbeitet, deren Umfang größer ist.

2. Nach Anmeldung findet eine Betreuung statt durch regelmässige Treffen mit Diskussion und Präsentation des jeweiligen Stands, dessen Abgleich mit dem Projektplan und Detailkorrektur einiger Seiten der Arbeit.

3. Gegen Ende der Arbeit muss der/Die Kandidat/in die Verantwortung für die Arbeit selber übernehmen, es gibt also weniger Betreuung. Korrekturen und Vorbewertungen des Stands der Arbeit kurz vor Abgabe sind nicht möglich.

4.Die Arbeit muss immer auch elektronisch als PDF direkt an NBI-Gutachter per Mail oder

… [...Weiterlesen/more...]

Ermittlung von örtlichen Assoziationen zu Personen und Organisationen aus Web-Quellen

Für Geotagging und Geokodierung stehen für einige Medien (z.B. Bilder) und Informationsarten (z.B. Anschriften) vielfältige Verfahren und Dienste zur Verfügung. Die Zuordnung von Orten zu Personen und Organisationen gestaltet sich aus verschiedensten Gründen (Zeitbezug, Mobilität, mehrfache Verortung) schwierig. In der Arbeit soll ein pragmatischer Weg gefunden werden um Personen und Institutionen einen räumlichen Bezug zu geben, der nicht immer feingranular sein muss und eine Qualitätsabstufung tragen kann.

Die konkrete Anwendung sind Arbeiten an der Web-Site Lombardi Networks mit der Zeichnungen erschlossen werden sollen die Personen und Organisationen in losen Bezügen im Rahmen von Finanzskandalen oder verdecktem Waffenhandel zeigen. Für eine erweiterte Visualisierung sollen die Akteure regional zugeordnet werden, mithin das Layout der vorhandenen Netzwerke an Geokoordinaten in einer Karte ausgerichtet werden. Die Akteure sind durch Namen identifiziert, so existiert eine Liste von Namen die in verschiedenen Arbeiten auftreten oder in Literatur zum Künstler.

In der Arbeit sollen verschiedene Dienste – z.B. dbpedia, Open Calais oder der Analyse von themenspezifischen Textbeständen – geeignet verwendet werden um zu einem Namen eine räumliche Zuordnung geeigneter Granularität (Land, Stadt etc.) zu finden. Dazu ist eine entsprechende Heuristik zu entwickeln, ihre Ergebnisse zu evaluieren um gegebenenfalls die Heuristik zu verfeinern. Die erstellte Software … [...Weiterlesen/more...]

Bau eines interaktiven Informationssystems am Beispiel Deutscher Lobbyverbände

Netzbasierte Informationssysteme fügen herkömmlichen Datenbanken Visualisierung, Dynamik und Interaktion hinzu. In der Arbeit soll exemplarisch ein vorhandener Datenbestand durch Informationsextraktion verarbeitbar gemacht werden, in einem Web-System möglich vielfältig visualisiert. Implizite Informationen sollen ermittelt werden sowie externe Vernetzungen zu anderen Informationsbeständen genutzt werden. Bei einer Ausrichtung als Masterarbeit wird erhöhtes Augenmerk auf die Ermittlung impliziter und zusätzliche Informationen gelegt.

Das zu erstellende Informationssystem soll sich mit den beim Deutschen Bundestag registrierten Verbände und deren Vertreter – kurz auch „Lobbyverbände“ – beschäftigen. Die dort in einem strukturierten PDF angebotenen Informationen sind entsprechend zu extrahieren und zu verarbeiten. Möglichkeiten zur Anreicherung dieser Informationen sind zu konzipieren und umzusetzen. Es gibt schon einfache Visualisierungen einzelner Facetten davon, diese sind aber nicht interaktiv. In der Arbeit soll mit Hilfe eines geeigneten Web-Frameworks zur Visualisierung gearbeitet werden um eine facettierte Exploration der Informationen zu ermöglichen. Wo möglich sollen externe Bezüge zu anderen Informationsbeständen eingebettet werden.

Art der Arbeit: Bachelorarbeit, oder mit anspruchsvollerer Informationareicherung Diplom- oder Masterarbeit

Voraussetzungen: Kenntnisse in Informationsextraktion, Visualisierung, Webtechnologien

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Web-Extraktion und Anreicherung kunstwissenschaftlicher Fachinformationen

In den Geisteswissenschaften beginnt die Verwendung digitaler Informationen für die Forschung in zunehmenden Maß. Ein Problem dabei ist, dass außerhalb wohlstrukturierter Archivdatenbanken Informationen oft nicht in einem Format vorliegen, die deren Weiterverarbeitung erlaubt. Ein Beispiel sind Metadaten zu den agierenden Personen am Black Mountain College, einer Ende der 1940er Jahre führenden Kunstschule. Vereinzelt lassen sich Informationen auffinden, diese liegen aber nur auf menschenlesbaren Webseiten vor.

In der Arbeit sollen die Informationsbestände des Black Mountain College Projects, insbesondere die dort gesammelten Biographien und darin enthaltene Metadaten aus dem Web extrahiert und zu einem angereicherten Datenbestand mit weiteren Quellen integriert werden. Weitere Quellen können beispielsweise über die Wikipedia oder Texte erschlossen werden. Die extrahierten Daten sollen als RDF bereitgestellt werden, somit also als ein Netzwerk repräsentiert sein Der Datenbestand soll über einen Triplestore bereitgestellt werden.

Die Arbeit umfasst die Erstellung entsprechenden Crawler und Extraktoren sowie die Überführung der Daten in RDF in einem TripleStore.

Art der Arbeit: Bachelorarbeit

Voraussetzungen: Kenntnisse in Web Technologien, Web-Scraping, Datenbanken, RDF TripleStore

Betreuung: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Phonetische Suche in CiviCRM

CiviCRM ist ein auf die Belange von Non-Profit-Organisationen (NPO) zugeschnittenes Constituent Relationship Management (CRM) System. Es wird als Open Source Software entwickelt und ist seit 2010 von der Free Software Foundation zur Kontaktverwaltung für NPOs empfohlen. In den USA wird die Software bereits von mehreren tausend Organisationen eingesetzt. Seit 2012 arbeitet der Verein „Software für Engagierte e.V.“ an einer Deutschen Lokalisierung. Ein erstes Treffen der Berliner Community fand im Februar 2013 statt.

Phonetische Suche erlaubt einem Anwender, auch mit einer ungefähren Schreibweise eines Wortes einen Datenbanktreffer zu erzielen. Das ist vor allem für die Suche nach Eigennamen wichtig. Wenn beispielsweise ein Nutzer in der Adressdatenbank nach „Christoph Meyer“ sucht, sollen auch „Christoph Meier“ oder „Kristof Mair“ als mögliche Treffer angezeigt werden. Es funktioniert also ähnlich, wie wenn man sich beim Googlen vertippt und Google einem mit „meinten Sie: …“ antwortet. Hierzu werden Approximate String Matching-Algorithmen verwendet, auch als Fuzzy-String-Suche bezeichnet. Als Distanzmaß kann der Levenshtein-Abstand (ähnlich wie der Hamming-Abstand, aber auch für Wörter verschiedener Länge) genutzt werden, oder auch differenzierte Metriken, die sich auf die phonetische Gestalt des Wortes stützen (z.B. Kölner Phonetik, Phonet-Verfahren).

In der Arbeit soll CiviCRM (auf der Basis von Drupal) aufgesetzt werden und um die Funktion … [...Weiterlesen/more...]

Digital Openness Assessment

Öffentlicher Körperschaften wie Städte und Gemeinden leisten in steigendem Ausmaß Beiträge zu digitalen Gemeingütern wie Daten, Informationen, Wissen und Infrastruktur. Allerdings gibt es große Unterschiede, in welchen Bereichen diese Beiträge geleistet werden und wie offen der Zugang zu diesen digitalen Gemeingütern gestaltet wird. Das von den Vereinen Digitale Gesellschaft e.V. (Deutschland), „Freie Netze. Freies Wissen“ (Österreich) und Digitale Allmend (Schweiz) initiierte Projekt „Digitaler Offenheitsindex“ [do:index] versucht deshalb, Beiträge zu digitaler Offenheit sicht- und vergleichbar zu machen. Ziel ist auf Basis eines offenen Indikatorenkatalogs ein Ranking von ausgewählten, öffentlichen Gebietskörperschaften zu erstellen sowie ein Software zur Datenvorbereitung, -erhebung (Selbsteinstufung) und -auswertung zu entwickeln.

In dieser Masterarbeit werden zwei zentrale Ziele verfolgt:

Entwurf und Umsetzung eines adaptierbaren Algorithmus zur Index-Berechnung basierend auf formativen Indikatoren [1] und
Konzeption und Umsetzung eines modular aufgebauten, quelloffenen Tools zur Unterstützung des systematisch-quantitativen Vergleichs digitaler Offenheit von öffentlichen Gebietskörperschaften [2].

Im ersten Schritt soll vorhandene Open Source Software im Bereich Datenerhebung, Auswertung und Darstellung identifiziert und kategorisiert werden – eine Integration in eine WordPress-Umgebung oder die Nutzung bestehender Open-Source-Survey-Anwendungen wie Survey-Monkey sollte geprüft werden. Im Rahmen des nutzerzentrierten Designprozesses [3] sollen Anforderungen und Bedürfnisse der Nutzer (vor allem des [do:index] Projektteams) erhoben werden. Es soll dabei insbesondere … [...Weiterlesen/more...]

Evaluation of Hadoop and S4 distributed memory management and computing

Im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Verbundprojekts “DigiPolis” entwickelt die AG NBI einen verteilten selbst-organisierenden semantischen Speicherdienst (S4) auf der Basis vonnaturinspirierten Algorithmen und Schwarmintelligenz. Ziel dieser Bachelorarbeit soll es sein, den Speicherdienst S4 mit dem Speicherdienst von Apache™ Hadoop™ gegenüberzustellen. Im Zuge der Arbeit sollen entsprechende Vergleichstests geschrieben und ausgewertet werden.
Hierbei sollen folgende Aspekte in Betracht gezogen werden.

Wie verhält sich die Skalierbarkeit der Speicherdienste bezogen auf die Anzahl der zum Einsatz kommenden Clientrechner?
Wie robust sind die Speicherdienste in Hinblick auf Ausfallsicherheit?
Wie verhält sich die Performance in Hinblick auf die Zugriffszeiten bei großen Datenmengen?

Betreuer: Prof. Robert Tolksdorf… [...Weiterlesen/more...]

Visualisierung von offenen Verwaltungsdaten

Auf dem fünften nationalen IT-Gipfel im Dezember 2010 vereinbarten die Teilnehmer des Gipfels aus Politik, Wissenschaft und Wirtschaft bis zum Jahr 2013 „[den] Aufbau einer zentral zugänglichen, den Interessen der Nutzer an einem einheitlichen, leichten und benutzerfreundlichen Zugriff gerecht werdenden Open-Data-Plattform“. Dieses Ziel hat längst prominente Vorbilder, insbesondere im angelsächsischen Raum (z.B. [1], [2]). In Deutschland existieren auch erste Projekte (z.B. [3]), offene Verwaltungsdaten frei und öffentlich anzubieten. Der erste Schritt ist es die Daten anzubieten, aber der nun folgende Schritt ist es, das Verwertungspotential der Daten aufzuzeigen. Um dieses Verwertungspotential zu evaluieren, wurde unter anderem die Initiative Apps4Deuschland [4] ins Leben gerufen, die bereits im ersten Durchgang interessante Ergebnisse lieferte.

In dieser Bachelorarbeit sollen Kriterien aus bestehenden formalen Spezifikationen für Grafiken (Bertin’s Semiologie von Graphiken, Mackinlay’s APT System, Polari) analysiert und daraufhin untersucht werden, inwieweit sie für den vorliegenden Anwendungsbereich geeignet sind. Das übergeordnete Ziel soll es sein, den Nutzer bei dem Prozess der Datenanalyse visuell zu unterstützen. Es sollen dazu Daten, aus unterschiedlichen Datenquellen verknüpft werden. Das Ergebnis der Verknüpfung und die darauf aufbauende Visualisierung soll auch anderen Nutzern zur Verfügung gestellt werden. Die theoretischen erarbeiteten Kriterien sollen auf vorhandene Webtechnologien übertragen (was ist überhaupt möglich?) und danach innerhalb … [...Weiterlesen/more...]

Einsatz des MapReduce Frameworks zur nebenläufigen Berechnung von Netzwerkanalysemetriken

Webapplikationen wie Twitter, Google, Facebook und Wikipedia ermöglichen, dass riesige Datenmengen analysiert werden können, um Entitäten wie Personen, Inhalte und deren Interaktionen zu untersuchen. Zur Analyse dieser digitalen Spuren finden vor allem Prinzipien aus dem Bereich der Parallelen Programmierung Anwendung. In dieser Bachelorarbeit soll das MapReduce Software-Framework bzw. deren Open Source Implementierung Hadoop eingesetzt werden, um eine Webapplikation aufzubauen, die für die Analyse von komplexen Netzwerken genutzt werden kann.

Innerhalb der wissenschaftlichen Analyse von Datensätzen ist es notwendig, eine bestehende, häufig komplexe Fragestellung in Teilanalyseschritte zu zerlegen. Gerade bei großen Netzwerken kann die Berechnung von Metriken viel Zeit in Anspruch nehmen, daher soll in dieser Bachelorarbeit, der Nutzer bei der Analyse von großen Netzwerken unterstützt werden. Durch den Aufbau einer Webapplikation soll der analytische Prozess in Teilschritte zerlegt werden. Als Input sollen grundsätzlich alle Daten dienen, die in einem bestimmten Format (z.B. graphml, csv) vorliegen. (*) Mit Hilfe der Webapplikation soll eine Analyse der Daten in einzelnen, durch den Nutzer definierten Schritten möglich sein. In jedem Teilschritt soll bestimmt werden, ob und wie das Ergebnis weiterbearbeitet wird. So kann eine einzelne Berechnung bereits das finale Ergebnis darstellen oder aber als Input für einen weiteren Analyseschritt genutzt werden. Die Berechnung der … [...Weiterlesen/more...]

User Engagement in Open Data Anwendungen

Open Government Data sind frei verfügbare Verwaltungsdaten des öffentlichen Sektors, die im Interesse der Allgemeinheit stehen. Derzeit existieren vielfältige Bestrebungen, öffentliche Daten dem Bürger, Unternehmen aber auch anderen Verwaltungen einfacher verfügbar zu machen. Der Schwerpunkt liegt dabei auf der Standardisierung des Datenformats und der einfachen Bereitstellung der Daten. Es gibt mittlerweile eine Vielzahl von solchen Angeboten in Form von Datenkatalogen (z.B. Offene Daten Berlin). Dabei werden potentielle Nutzer als reine Datenkonsumenten verstanden. Sie verarbeiten diese Daten, um beispielsweise mit Webanwendungen oder mobilen Anwendungen einen Mehrwert zu erzeugen. Das Nutzer auch potentieller Wissensträger wird vernachlässigt. Das vorhandene Wissen kann aber zur Verbesserung der offenen Daten z.B. in Form der Prüfung der Aktualität, der Anreicherung der Daten basierend auf Erfahrungswerten, der Ergänzung von geographischen Information genutzt werden. Eine zentrale Frage lautet: Wie können Nutzer gewonnen werden, um vorhandene offene Daten mit ihrem Wissen zu ergänzen. Welche Funktionen sind dabei erfolgversprechend?

In dieser Arbeit geht es darum in einen bestehenden Datenkatalog oder in eine eigene, prototypisch umgesetzte Open-Data-Anwendung Funktionen einzubringen, die den Nutzern erlauben, vorhandene offene Daten, um ihr eigenes, vorhandenes Wissen zu ergänzen und diese angereicherten Daten dann wieder der Allgemeinheit zur Verfügung zu stellen. Anhand von Nutzerstudien sollen implementierte Funktionen bewertet werden.

Literaturempfehlungen:… [...Weiterlesen/more...]

AG Netzbasierte Informationssysteme

Adresse und Kontakt