IR

Google Research: Relation Corpus

One of the most difficult tasks in NLP is called relation extraction. It’s an example of information extraction, one of the goals of natural language understanding. A relation is a semantic connection between (at least) two entities.

Und weil es sich um so eine schwere Aufgabe handelt veröffentlicht Google ein Set an Daten, dass anderen Wissenschaftlern beim Trainieren von Information Retrival bzw. Relation-Extraction-Systemen helfen soll. Es handelt sich um 10.000 “place of birth”, und mehr als 40.000 “attended or graduated from an institution” Beziehungen, die aus der Wikipedia extrahiert und von jeweils mindestens fünf menschlichen Gutachtern als richtig beurteilt wurden. Die Daten liegen als "Prädikat Subjekt Objekt" Tripel vor, zahlreiche weitere Daten wie Links oder Judgement-Details sind auch dabei. Außerdem sollen weitere Relations folgen. Alle Details dazu im Google Research Blog:

50,000 Lessons on How to Read: a Relation Extraction Corpus

API für Zeit Online

Über diese Schnittstelle kann auf Inhalte und zugehörige Metadaten aus dem Archiv der ZEIT seit 1946 und von ZEIT ONLINE zugegriffen werden kann. Wir laden alle an Programmierung, Datenanalyse und Visualisierung Interessierten ein, den Index aus mehreren hunderttausenden Artikeln zu erkunden. Die Benutzung der Schnittstelle ist für nicht-kommerzielle Anwendungsfälle kostenlos.

Zeit Online Content API
Die Zeit Online