IMPRO

Ein integrativer Ansatz aus Bibliometrie und Text Mining zur vollautomatischen Inhaltsanalyse von Zitationsumgebungen

Rheinisch-Westfälische Technische Hochschule Aachen

In der Bibliometrie wird bis dato die Anzahl der erhaltenen Verweise gleichgesetzt mit der Relevanz einer Arbeit. Jedoch können sich Zitationen hinsichtlich ihrer Beziehung zum zitierenden Text stark unterscheiden. So werden manche Studien nur für eine bestimmte methodische Verfeinerung zitiert, andere lediglich für Begriffsdefinitionen herangezogen. Die Fortschritte im Bereich Big Data und Data Mining erlauben es nun, mittels Verfahren der maschinellen Sprachverarbeitung große, unstrukturierte Datenmengen automatisiert auszuwerten. Diese Fortschritte sollen im Rahmen dieses Projekts genutzt werden, um die Zitationsanalyse und die Beurteilung von Impact durch die automatische Auswertung von Zitationskontexten aussagekräftiger zu machen.

Das vorgeschlagene Projekt zielt somit auf die Entwicklung einer neuartigen Methode ab, den thematischen Kontext von Zitationen automatisch zu extrahieren und auszuwerten. Dazu werden zunächst die Zitationen innerhalb einer Menge von Dokumenten identifiziert und die Textumgebungen der Zitationen extrahiert. Die Zitationsumgebungen werden nach Aufbereitung mit Verfahren aus dem Natural Language Processing mittels Text-Clustering gruppiert. Die resultierenden Gruppen repräsentieren dann die Themen, für die Publikationen tatsächlich verwendet werden. Daraus lässt sich ein Themenprofil erzeugen, welches den tatsächlichen Impact veranschaulicht, d.h. die tatsächliche Nutzung innerhalb der wissenschaftlichen Gemeinschaft visualisiert.

Geplantes Ergebnis ist eine neue Methode zur Messung des thematischen Impacts wissenschaftlicher Artikel, welches als dokumentierter Quellcode zugänglich gemacht werden soll. Dadurch ergeben sich neue Untersuchungsmöglichkeiten zur Offenlegung von Strukturen wissenschaftlicher Disziplinen. Unternehmen und öffentlichen Institutionen wird ein Instrument zur präziseren Erfassung des Impacts wissenschaftlicher Publikationen und der damit verbunden Individuen und Institutionen geboten.


Zuwendungsempfänger:

Rheinisch-Westfälische Technische Hochschule Aachen
Projektleitung: Prof. Thorsten-Oliver Salge, Ph.D.

FKZ: 01PU17020
Betrag: 355.818,60 EUR
Laufzeit: 01.08.2018 – 31.07.2021