Extraktion von Produktdaten- und Rezensionen aus unstrukturierten Webquellen

Extraktion von Produktdaten- und Rezensionen aus unstrukturierten Webquellen (Bachelor Informatik)

Moderne Verfahren zur Textanalyse ermöglichen die Extraktion von Merkmalen aus unstrukturierten Texten, wie z.B. Produkte, Personen oder auch Meinungen. Um jedoch im Web verfügbare Informationen analysieren zu können, ist zunächst eine Vorverarbeitung der Texte notwendig. Im Detail müssen relevante Inhalte aus dem Inhalt einer Website identifiziert und entnommen werden. Zwar gibt es mit schema.org (siehe [1]) Ansätze, mit denen Web-Markup semantisch strukturiert werden können, um die Entnahme von Textelementen zu erleichtern, jedoch werden diese bisher nur vereinzelt eingesetzt. Daher liegt das Ziel dieser Arbeit darin, ein Verfahren zur Extraktion und Aufbereitung unstrukturierter Daten zu realisieren, um Textdaten für die weitere Analyse zu gewinnen.

Inhalt der Arbeit

Die Aufgaben der Abschlussarbeit teilen sich in mehrere Bestandteile. Zunächst soll ein einheitliches Modell für die Ablage von Produktdaten und Rezensionen entworfen werden, welches sich an den Vorgaben von Schema.org richtet. Anschließend soll, für eine zu definierende Auswahl von Websites, ein Crawler und Parser geschrieben werden, welcher Inhalte in das entsprechende Format überführt. Dabei ist auf eine möglichst generische bzw. flexible Implementation zu achten, um das System leicht an andere Quellen anpassen zu können.

Vorkenntnisse

Kenntnisse im Bereich der Relationen Datenbanken sollten vorhanden sein. Fortgeschrittene Programmierkenntnisse für die Umsetzung des Konzeptes werden erwartet.

Material

[1] http://schema.org

Supervisor

Werner Gaulke

Former team member

Resources

Share thesis topic