Corpus

Modern Times Corpus

Charlie Chaplin.jpgIn 2012 and 2013 at the Hamburg Center for Language Corpora (HZSK) I compiled the Hamburg Modern Times Corpus (HaMoTiC). It consists of transcribed audio recordings of learners of German at different proficiency levels who renarrate a few scenes from the silent film “Modern Times” (USA 1936, Charles Chaplin). The main objective was to create a linguistic resource that is both based on and comparative to previous Modern Times corpora (esp. Perdue 1993), and makes use of the tools and methods for transcription, annotation and analysis of spoken language corpora that were implemented at the HZSK, in order to demonstrate their functionality (EXMARaLDA). In terms of their content, the Hamburg Map Task Corpus (HAMATAC) and HaMoTiC complement each other in reference to their authenticity and controllability of learner language. See more details on HaMoTiC at the Virtual Language Observatory by CLARIN.

Image: „Charlie Chaplin“ by P.D Jankens - Fred Chess. Wikimedia Commons.

Google Research: Relation Corpus

One of the most difficult tasks in NLP is called relation extraction. It’s an example of information extraction, one of the goals of natural language understanding. A relation is a semantic connection between (at least) two entities.

Und weil es sich um so eine schwere Aufgabe handelt veröffentlicht Google ein Set an Daten, dass anderen Wissenschaftlern beim Trainieren von Information Retrival bzw. Relation-Extraction-Systemen helfen soll. Es handelt sich um 10.000 “place of birth”, und mehr als 40.000 “attended or graduated from an institution” Beziehungen, die aus der Wikipedia extrahiert und von jeweils mindestens fünf menschlichen Gutachtern als richtig beurteilt wurden. Die Daten liegen als "Prädikat Subjekt Objekt" Tripel vor, zahlreiche weitere Daten wie Links oder Judgement-Details sind auch dabei. Außerdem sollen weitere Relations folgen. Alle Details dazu im Google Research Blog:

50,000 Lessons on How to Read: a Relation Extraction Corpus

Deutsche Asterix Volltextsuche

Sie möchten wissen, wer was wann gesagt hat? Wie oft Belenus und Teutates angerufen wurden oder wer das Wort "Idiot" verwendet hat? Dann ist dieser Themenbereich "Asterix im Volltext" genau das Richtige für Sie! Ganz egal ob der Text als Textkasten, Sprechblase oder Schildaufschrift in den Asterix-Heften steht, insgesamt mehr als 23.500 Texte stehen in der Volltextsuche zur Verfügung. Insgesamt ein Dutzend Asterix-Fans haben sich die Mühe gemacht, jeden Band abzutippen und in die Volltextsuche einzupflegen.

Deutsches Asterix Archiv