YAWN: A semantically annotated Wikipedia XML corpus

Ralf Schenkel, Fabian Suchanek, Gjergji Kasneci

Publikation: Beitrag in Buch/Bericht/KonferenzbandKonferenzbeitragBegutachtung

73 Zitate (Scopus)

Abstract

The paper presents YAWN, a system to convert the well-known and widely used Wikipedia collection into an XML corpus with semantically rich, self-explaining tags. We introduce algorithms to annotate pages and links with concepts from the WordNet thesaurus. This annotation process exploits categorical information in Wikipedia, which is a high-quality, manually assigned source of information, extracts additional information from lists, and utilizes the invocations of templates with named parameters. We give examples how such annotations can be exploited for high-precision queries.

OriginalspracheEnglisch
TitelDatenbanksysteme in Business, Technologie und Web, BTW 2007 - 12th Fachtagung des GI-Fachbereichs "Datenbanken und Informationssysteme" (DBIS), Proceedings
Seiten277-291
Seitenumfang15
PublikationsstatusVeröffentlicht - 2007
Extern publiziertJa
Veranstaltung12th Symposium of the German Informatics Society Section "Databases and Information Systems" (DBIS) on Database Systems in Business, Technology and Web, BTW 2007 - Aachen, Deutschland
Dauer: 7 März 20079 März 2007

Publikationsreihe

NameDatenbanksysteme in Business, Technologie und Web, BTW 2007 - 12th Fachtagung des GI-Fachbereichs "Datenbanken und Informationssysteme" (DBIS), Proceedings

Konferenz

Konferenz12th Symposium of the German Informatics Society Section "Databases and Information Systems" (DBIS) on Database Systems in Business, Technology and Web, BTW 2007
Land/GebietDeutschland
OrtAachen
Zeitraum7/03/079/03/07

Fingerprint

Untersuchen Sie die Forschungsthemen von „YAWN: A semantically annotated Wikipedia XML corpus“. Zusammen bilden sie einen einzigartigen Fingerprint.

Dieses zitieren