Bachelorarbeit « AG Netzbasierte Informationssysteme

Ermittlung von örtlichen Assoziationen zu Personen und Organisationen aus Web-Quellen

Für Geotagging und Geokodierung stehen für einige Medien (z.B. Bilder) und Informationsarten (z.B. Anschriften) vielfältige Verfahren und Dienste zur Verfügung. Die Zuordnung von Orten zu Personen und Organisationen gestaltet sich aus verschiedensten Gründen (Zeitbezug, Mobilität, mehrfache Verortung) schwierig. In der Arbeit soll ein pragmatischer Weg gefunden werden um Personen und Institutionen einen räumlichen Bezug zu geben, der nicht immer feingranular sein muss und eine Qualitätsabstufung tragen kann.

Die konkrete Anwendung sind Arbeiten an der Web-Site Lombardi Networks mit der Zeichnungen erschlossen werden sollen die Personen und Organisationen in losen Bezügen im Rahmen von Finanzskandalen oder verdecktem Waffenhandel zeigen. Für eine erweiterte Visualisierung sollen die Akteure regional zugeordnet werden, mithin das Layout der vorhandenen Netzwerke an Geokoordinaten in einer Karte ausgerichtet werden. Die Akteure sind durch Namen identifiziert, so existiert eine Liste von Namen die in verschiedenen Arbeiten auftreten oder in Literatur zum Künstler.

In der Arbeit sollen verschiedene Dienste – z.B. dbpedia, Open Calais oder der Analyse von themenspezifischen Textbeständen – geeignet verwendet werden um zu einem Namen eine räumliche Zuordnung geeigneter Granularität (Land, Stadt etc.) zu finden. Dazu ist eine entsprechende Heuristik zu entwickeln, ihre Ergebnisse zu evaluieren um gegebenenfalls die Heuristik zu verfeinern. Die erstellte Software … [...Weiterlesen/more...]

Bachelorarbeit Web-Extraktion und Anreicherung kunstwissenschaftlicher Fachinformationen

Als Teil von Aktivitäten von NBI im Bereich digitale Geisteswissenschaften werden Interessent/inn/en für Bachelorarbeit „Web-Extraktion und Anreicherung kunstwissenschaftlicher Fachinformationen“ gesucht. Thema ist die Extraktion von Webinformationen zu der Ende der 1940er Jahre führenden Kunstschule Black Mountain College.… [...Weiterlesen/more...]

Web-Extraktion und Anreicherung kunstwissenschaftlicher Fachinformationen

In den Geisteswissenschaften beginnt die Verwendung digitaler Informationen für die Forschung in zunehmenden Maß. Ein Problem dabei ist, dass außerhalb wohlstrukturierter Archivdatenbanken Informationen oft nicht in einem Format vorliegen, die deren Weiterverarbeitung erlaubt. Ein Beispiel sind Metadaten zu den agierenden Personen am Black Mountain College, einer Ende der 1940er Jahre führenden Kunstschule. Vereinzelt lassen sich Informationen auffinden, diese liegen aber nur auf menschenlesbaren Webseiten vor.

In der Arbeit sollen die Informationsbestände des Black Mountain College Projects, insbesondere die dort gesammelten Biographien und darin enthaltene Metadaten aus dem Web extrahiert und zu einem angereicherten Datenbestand mit weiteren Quellen integriert werden. Weitere Quellen können beispielsweise über die Wikipedia oder Texte erschlossen werden. Die extrahierten Daten sollen als RDF bereitgestellt werden, somit also als ein Netzwerk repräsentiert sein Der Datenbestand soll über einen Triplestore bereitgestellt werden.

Die Arbeit umfasst die Erstellung entsprechenden Crawler und Extraktoren sowie die Überführung der Daten in RDF in einem TripleStore.

Art der Arbeit: Bachelorarbeit

Voraussetzungen: Kenntnisse in Web Technologien, Web-Scraping, Datenbanken, RDF TripleStore

Betreuung: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Analyse von synchronen Kommunikationsstrukturen in der Open Source Software Entwicklung

Bei der Entwicklung von Open Source Software ist der Chat ein wichtiges Instrument der synchronen Kommunikation. Es werden aktuelle Änderungen am Source Code dokumentiert, Probleme bei der Softwareentwicklung diskutiert, Nutzerfragen beantwortet oder aber auch Diskussionen zu den unterschiedlichsten Themen geführt.

Die Frage ist, was für Personen beteiligen sich an den Gesprächen? Wie viele sind aktiv oder hören einfach nur zu? Wie lang „hören“ nicht aktive Nutzer zu, bevor sie aktiv werden? Ist es möglich, bei den aktiven Nutzern bestimmte Kommunikationsrollen zu identifizieren? Welche Formen der Partizipation existieren innerhalb des Chats? An welchen Themen beteiligen sich die Nutzer an der Diskussion? Beteiligen sich Nutzer in Abhängigkeit von der Art des Thema an der Diskussion?

Um diese Frage beantworten zu können, ist es notwendig, bestehende Kommunikationsstrukturen im Zeitverlauf zu untersuchen und die Beteiligung der einzelnen Nutzer zu analysieren.

Im Rahmen dieser Arbeit sollen bestehende Kommunikationsstrukturen im open source software Projekt MediaWiki untersucht werden. Bestehende IRC (Internet Relay Protocol) Logdaten (Übersicht über Channels) sollen programmatisch in eine Netzwerkbeschreibung überführt, beteiligte Personen und ihre Interaktionen beschrieben und analysiert werden. Eine Analyse der Netzwerke kann mit Hilfe bestehender Werkzeuge/Bibliotheken wie beispielsweise visone, gephi oder igraph erfolgen. Ebenfalls werden Werkzeuge, wie beispielsweise PieSpy … [...Weiterlesen/more...]

DigiPolis: Selbst-Organisierender Semantischer Speicherdienst (S4)

Im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Verbundprojekts „DigiPolis“ entwickelt die AG NBI einen verteilten selbst-organisierenden semantischen Speicherdienst (S4) auf der Basis von naturinspirierten Algorithmen und Schwarmintelligenz. Im Zuge dieser Entwicklung sind verschiedene, für Abschlussarbeiten passende Themen zu bearbeiten:

Erstellung einer vergleichenden Studie zwischen unterschiedlichen Organisationsprinzipien (Hash Tables, Lookup Trees,..) für verteilte Systeme mit dem Ziel, für S4 passende Einsatzszenarien zu identifizieren und zu beschreiben.
Entwurf, Implementierung und Analyse eines integrierten Evaluationswerkzeuges, mit dem S4 für verschiedene Konfigurationen und Datensets getestet werden kann. Wichtiger Punkt ist die Aufzeichnung von Testresultaten für nachgelagerte Untersuchungen.
~~Untersuchung und Umsetzung eines Verfahrens zur Vermeidung von Überlast auf den Netzwerkverbindungen zwischen den verschiedenen Knoten („Overpathing“) für S4.~~
~~Untersuchung, Erstellung und Implementierung von Heuristiken für die Einstellungen verschiedene Parameter des selbstorganisierenden Systems.~~
~~Untersuchung und Umsetzung eines Verfahrens zur Behandlung von Ausfällen und Wiedereingliederung einzelner Knoten des verteilten Systems.~~

Sollten Sie an einem dieser Themen Interesse haben, wenden Sie sich bitte an einen der unten genannten Betreuuer.

Art
Bachelorarbeit
Wichtig: Wegen der begrenzten Projektlaufzeit können leider keine weiteren Master- oder Diplomarbeiten zu diesen Themen vergeben werden. Bacheloararbeiten müssen spätestens Ende August angemeldet werden.

Voraussetzungen
Kenntnisse in Programmierung mit Java, Vorkenntnisse in Verteilten … [...Weiterlesen/more...]

Neue Themen für Abschlussarbeiten bei NBI

Neue Themen für Abschlussarbeiten bei NBI:

Analyse der Koherausgeberschaft von wissenschaftlichen Zeitschriften der Informatik
Blog Klassifikation durch Tag Analyse
Normennetzwerke: Werkzeug zur Generischen Analyse von Standards
Temporale Analyse von Informationsnetzwerken in Tagging-Systemen
Unternehmensbeteiligung in open-source Projekten: Wie ehrenamtlich ist die Entwicklung von open source Software am Beispiel von Apache?
Visualisierung der Autorenbeiträge/der Artikelqualität in Wikipedia zur Beeinflussung des Nutzerverhaltens
Entwicklung der Community-Struktur in Abhängigkeit von der Artikelqualität in Wikipedia
Visualisierung von G-Sequenz-Patterns in Ontologienutzungsdaten
Semantische Annotation von Bildern und Videos

… [...Weiterlesen/more...]

Blog Klassifikation durch Tag Analyse

Blogs sind zumeist themenspezifisch. Das technorati.com Blog Directory listet mehr als 1,2 Millionen Blogs in einer Themenhierarchie. Dabei wird die jeweilige Klassifikation vom Blogautoren bei der Anmeldung bei technorati vorgenommen. Könnte man diese Klassifikation automatisieren? In der Arbeit soll die Hypothese untersucht werden, dass die jeweiligen Tags eines Blog eine solche Klassifikation ermöglichen.

Über eine Blog Verzeichnis soll eine hinreichende Menge von Blogs herausgegriffen werden. Für jedes dieser Blog sollen die verwendeten Tags extrahiert und ein Tag-Vektor erzeugt werden. Damit soll nun überprüft werden ob es für eine Kategorie des Blog Verzeichnis einen charakteristischen Vektor gibt. Für eine Untermenge von Kategorien soll überprüft werden ob mit Hilfe dieses Vektors ein zufällig ausgewähltes Blog zutreffend kategorisiert werden kann. Weiterhin ist eine Recherche über eventuell schon vorhandene Arbeiten zu der Thematik zu erstellen (bislang sind nur unbeantwortete Nachfragen bekannt).

Art der Arbeit: Bachelor- oder Studienarbeit

Voraussetzungen: Kenntnisse in Web Technologien, Information Retrieval

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Firmennetzwerke: Startups und Finanzierungen

Websites wie deutsche-startups.de oder gruenderszene.de listen regelmäßige Neuigkeiten zu Finanzierungen, Beteiligungen, Übernahmen und auch Insolvenzen zu deutschen Startups. Weiterhin sind Verzeichnisse von Startups und Investoren vorhanden. Unternehmen und Investoren bilden durch die Verbindung über Investments in einem Netzwerk. Im Rahmen dieser Arbeit soll dieses Netzwerk ermittelt und analysiert werden.

Dazu müssen die verteilt vorliegenden Online-Informationen geeignet analysiert werden. In der Arbeit sind die Informationen von den genannten Sites zu extrahieren (z.B. durch einen Crawler, einen Screen Scraper wie scrapy oder geeignete eigene Scripte). Nach der Extraktion des genannten Netzwerks mit mehreren Kanten- und Knotentypen ist eine Analyse der sich ergebenden Netzwerkstruktur und dessen temporale Entwicklung mit Hilfe eines geeigneten Werkzeugs durchzuführen. Insgesamt sollen Aussagen über die Struktur des deutschen Beteiligungsmarktes für IT-Startups gemacht werden.

Art der Arbeit: Studien- oder Bachelorarbeit

Voraussetzungen: Kenntnisse in einfacher Textextraktion, Netzwerken, Statistik

Betreuer: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen… [...Weiterlesen/more...]

Visualisierung von Ontologienutzungsdaten in SONIVIS

Die Analyse der Nutzung von Webseiten stellt schon heute eine wichtige Grundlage für bedarfsorientierte Angebote im Web dar. Kommen die Technologien des Semantic Web zur Anwendung, wird diese Analyse ungleich schwieriger, weil reine HTTP-Antworten des Servers zum Beispiel keine Aussage darüber zulassen, ob und welche Daten durch eine SPARQL-Anfrage an einem Endpoint gefunden wurden. Für die Betreiber von semantischen Datenrepositories verbergen sich aber hinter ebendiesen Infomrationen interessante Rückschlüsse auf die Qualität der Daten im Bezug zu den Anforderungen der Nutzer bzw. der Anwendungen, die diese Daten nutzen. Im Rahmen eines Promotionsvorhabens wurde eine Methode zur Sammlung solcher Nutzungsinformationen entworfen und implementiert und es liegen erste Beispieldaten über die Nutzung des DBpedia 3.3 Datensets vor.

Im Rahmen dieser Arbeit sollen nun die Beispieldaten und die ihnen zugrunde liegenden Ontologien durch eine Erweiterung der quelloffenen Software SONIVIS als Netzwerk visualisiert werden. Darüberhinaus sollen, ebenfalls für das SONIVIS Tool, Metriken entworfen und implementiert werden, die unterschiedliche Sichten auf diese Netzwerke ermöglichen. Ein Beispiel hierfür wären sogenannte Heat Maps, d.h. eine Visualisierung, die anhand der Anfragehäufigkeit Konzepte der Ontologie größer oder kleiner darstellt.

Art
Bachelor- oder Studienarbeit

Voraussetzungen
Kenntnisse in Programmierung mit Java und dem Umgang mit Eclipse. Kenntnisse in RCP Entwicklung von … [...Weiterlesen/more...]

Normennetzwerke: RFCs

Die Requests for Comments, RFCs definieren die Standards des Internet. Der Korpus dieser Dokumente liegt in verarbeitbarer und weit regulierter Form vor.Dokumente sind in verschiedene Kategorien eingeordnet.

Aufgabe dieser Arbeit ist die Erfassung und Analyse des kompletten RFC Korpus als Netzwerk. Beziehungen darin umfassen die definierten und in Metadaten erfassten „Obsoletes xxx“, „Obsoleted by xxx“, „Updates xxx“, „Updated by xxx“ aber auch das durch Referenzen sich ergebende Zitationsnetzwerk zu weitern RFCs einerseits und zu externen Quellen andererseits.

In der Arbeit soll eine Erfassung der vorliegenden RFC Dokumente erfolgen, eine Extraktion der Beziehungen zu anderen Dokumenten und Standards sowie eine Analyse der sich ergebenden Netzwerkstruktur mit Hilfe eines Werkzeugs wie SONIVIS erfolgen.

Die Arbeit wurde von Maciej Wienszczak bearbeitet und liegt als PDF vor: „Analyse des Normennetzwerks der Internet Requests for Comments„.… [...Weiterlesen/more...]

AG Netzbasierte Informationssysteme

Adresse und Kontakt

Ermittlung von örtlichen Assoziationen zu Personen und Organisationen aus Web-Quellen

Bachelorarbeit Web-Extraktion und Anreicherung kunstwissenschaftlicher Fachinformationen

Web-Extraktion und Anreicherung kunstwissenschaftlicher Fachinformationen

Analyse von synchronen Kommunikationsstrukturen in der Open Source Software Entwicklung

DigiPolis: Selbst-Organisierender Semantischer Speicherdienst (S4)

Neue Themen für Abschlussarbeiten bei NBI

Blog Klassifikation durch Tag Analyse

Firmennetzwerke: Startups und Finanzierungen

Visualisierung von Ontologienutzungsdaten in SONIVIS

Normennetzwerke: RFCs

Tags

Recent Changes