Text+Berg-Korpus

Release_131, 2. September 2010

Übersicht

Im Text+Berg-Projekt digitalisieren und erschliessen wir alpine Texte. Aktuell arbeiten wir an den Jahrbüchern des Schweizer Alpenclub (SAC).

Dieses Release enthält die Bände der Jahre 1864 bis 1995. Es handelt sich um

  • Das Jahrbuch des SAC (1864-1923)
  • Die ALPEN (1925-1995)
    • Seit 1957 gibt es Die ALPEN in parallelen deutschen und französischen Versionen. Das Release_131 enthält sowohl die deutschen wie auch die französischen Bände von 1957 bis 1995. Die parallelen Bände enthalten grösstenteils übersetzte Artikel, aber auch identische Artikel. Wir haben die Duplikate aus den französichen Bänden entfernt und durch einen Verweis auf den jeweils entsprechenden Artikel im deutschen Band ersetzt. Ausserdem enthalten die übersetzten Artikel je einen Verweis auf den anderssprachigen Artikel im Parallelband, also eine Alignierung der Artikel. Wenn die Information verfügbar ist, haben wir die Originalsprache vermerkt.
  • In den Jahren 1870, 1915 und 1924 sind keine Bände erschienen. Deshalb enthält das Release_131 insgesamt 168 Bände (90 Bände von 1864 bis 1956 in je einer Version, plus 39 Bände von 1957 bis 1995 in sowohl deutscher und französischer Version).
  • Insgesamt enthält das Release 28,78 Millionen Wörter (rund 4,58 Millionen unterschiedliche Wörter) von knapp 72'000 Buchseiten.

Das Release_131 unterscheidet sich vom Release_118 durch

  • Weniger OCR-Fehler durch das Zusammenführen der Ausgabe von zwei unterschiedlichen OCR-Systemen. Die Entscheidung zwischen den beiden OCR-Systemen wurde durch ein erweitertes Sprachmodell und intelligenteres Rückzugsverfahren verbessert.
  • Zusätzliche Muster-basierte OCR-Korrekturen. Diese sind wichtig bei Wörtern, die die OCR-Systeme nicht kennen (z.B. Vanii --> Vanil, Hessen --> liessen, Thai --> Thal)
  • Verbesserte Erkennung der Artikelgrenzen
  • Markierung von Bergnamen (als Stand-off Annotation in separaten Dateien)
  • Zusätzliche Information zur Alignierung von deutschen und französischen Artikeln. Die Übersetzungsrichtung wird jetzt angegeben, soweit bekannt. Diese Information steht in einem neuen Attribut des article-Tags namens 'orig-lang'.
  • Verbesserte Tokenisierung durch Erweiterung der Abkürzungsliste
  • Geändertes Part-of-Speech Tagset für das Französische (folgt jetzt der Le Monde-Treebank)
  • Sprachidentifikation für das Rätoromanische und das Schweizerdeutsche
  • Verbesserung der Sprachidentifikation durch Einführung von Konfidenzintervallen. Verwendung von Lingua Ident 1.7.
  • Die eindeutigen Wortbezeichner (token identifier) sind jetzt TEI-konform.
  • Fehlerkorrektur in der Erkennung der Bergnamen, es wurden zu wenige Namen erkannt. Neu werden 95'433 Namen erkannt.

OCR-Fehler

Die folgenden Bände wurden manuell kontrolliert und OCR-Fehler (grösstenteils) korrigiert:

  • Vollständig: 1890, 1899, 1907, 1910, 1911, 1912, 1927, 1928, 1929, 1930, 1933, 1934, 1935, 1945, 1950
  • Teilweise: 1913, 1916, 1923, 1925, 1926

Alle anderen Bände wurden nach dem OCR automatisch korrigiert. Dabei wurden zunächst die Ausgaben von zwei unterschiedlichen OCR-Systemen verglichen und automatisch die "beste" Lösung gewählt. Ausserdem wurden "typische" OCR-Fehler wie 'ii' --> 'ü' korrigiert. Andere OCR-Fehler sind weiterhin enthalten.

Format

Wir verteilen die Bände in einem XML-Format mit Artikelstruktur (Titel, Autor), mit Tokenisierung und Satzendeerkennung, Sprachidentifikation pro Satz, Fussnoten und Bildunterschriften, Part-of-Speech Tags und Lemmas (nach Massgabe des PoS-Taggers).

Zusätzlich verteilen wir die manuell kontrollierten Inhaltsverzeichnisse in Tabellenform (.cvs). Diese sind nicht Bestandteil des Release. Bitte kontaktieren Sie uns bei Bedarf.

Hinweise zum XML-Format:

  • Inhaltsverzeichnisse, Abbildungsverzeichnisse sowie Buchende-Indizes wurden aus dem Korpus eliminiert.
  • Die Seitenumbrüche sind mit der XML-Marke <pb> angegeben. Die Attribute zu <pb> bezeichnen einerseits die Nummer der physikalischen Seite (d.h. der Nummer des Images im Stapel) und andererseits die gedruckte Seitenzahl. Die Identifikation der Seitenzahl ist nicht trivial, da es Seiten gibt, auf denen die Zahl nicht erscheint (z.B. auf der Startseite eines Kapitels), aber auch Seiten, die nicht gezählt werden (z.B. Seiten mit Vollbildern).
  • Der Beginn und das Ende eines Artikels werden mit der XML-Marke article markiert. Bei übersetzten Artikeln steht ein Attribut translation-of mit einem Verweis auf den anderssprachigen Artikel und - soweit bekannt - die Angabe zur Ausgangssprache (orig-lang). Bei eliminierten Duplikaten steht eine Artikel-Marke mit dem Attribut duplicate-of. Zusätzlich gibt es die Marke tocEntry mit Angaben zu Titel, Autor und Sprache aus dem Inhaltsverzeichnis.
  • Die Sprachidentifikation erfolgte automatisch mit dem Programm Lingua-Ident von Michael Piotrowski. Wir ermitteln damit automatisch die Sprache für jeden Satz, der länger ist als 75 Zeichen. Bei kürzeren Sätzen ist das Programm nicht zuverlässig, und es wird deshalb die Sprache des Artikels eingesetzt. Zur Zeit erkennen wir Sätze in Deutsch, Französisch, Italienisch und Englisch. Sätze in Rhätoromanisch, Schweizer Mundart (CH-DE) und anderen Sprachen werden nicht automatisch erkannt. Es werden jedoch kurze Sätze (75 Zeichen oder kürzer) in rhätoromanischen Artikeln oder Schweizer Mundartartikeln mit der entsprechenden Sprachkennzeichnung versehen.
  • Part-of-Speech Tags: Das PoS-Tagging erfolgte mit dem TreeTagger und den standardmässig verfügbaren Parameter-Dateien für das Deutsche, Französische, Italienische und Englische. Informationen über die verwendeten Tagsets finden sich hier. Der Tagger wurde nicht eigens für die Text+Berg-Dokumente trainiert, und es sind deshalb fehlerhafte Annotationen besonders bei den älteren Texten zu erwarten. Sätze in Schweizer Mundart (CH-DE) erhalten PoS-Tags des Deutschen. Sätze in Rhätoromanisch erhalten keine PoS-Tags.
  • Die Benennungen der XML-Marken sind weitgehend TEI-konform.
XML-Marke Bedeutung Attribute
book Buch id (identifier)
article Artikel n (number), duplicate-of, translation-of, orig-lang (original language)
div Absatz -
caption Bildlegende -
graphic Abbildung url
pb Seitenumbruch facs (facsimile), n (number)
s Satz n (number), lang (language)
tocEntry Eintrag aus dem Inhaltsverzeichnis title, author, lang (language), category
w Wort pos (Part-of-Speech), lemma, n (number)

Markierung der Bergnamen

Zur automatischen Erkennung von Bergnamen verwenden wir die Namen aus der SwissTopo-Liste "SwissNames25". Für das aktuelle Release haben wir aus dieser Liste die Namen der Kategorien "Massiv, HGipfel, KGipfel, GGipfel, Grat" extrahiert und mit genauer Übereinstimmung im Korpus gesucht. Um falsche Treffer zu vermeiden, wurden die auffälligsten Homographen entfernt. Die Namensliste umfasst so 6227 Einträge und führt über dem gesamten Korpus zu 95'433 Treffern. Die Treffer sind je in einer separaten Datei aufgelistet und verweisen auf die Tokenbezeichner im Korpustext.

Beispiel: Zur Jahrbuch-Datei 1890 SAC-Jahrbuch_1890_mul.xml gibt es die Bergnamen-Datei SAC-Jahrbuch_1890_mul-ner.xml Dort finden sich Einträge wie:

<m stid="7307916" span="2-180-7" id="m_14" level="mountains"/>
<m stid="0" span="2-274-9" id="m_16" level="mountains"/>
<m stid="18300407" span="8-501-20, 8-501-21" id="m_128" level="mountains"/>

Der erste Eintrag verweist auf das Token 2-180-7, d.h. Artikel 2, Satz 180, Token 7. In der Jahrbuch-Datei finden wir dort das "Finsteraarhorn". Dieses hat die SwissTopo-Id "7307916". Unter dieser Identifikationsnummer bietet SwissTopo Zusatzinformationen: Höhe des Berges (4273 m), Gemeinde (Fieschertal), Kanton (Wallis).

Der zweite Eintrag verweist auf das Token 2-274-9 "Schafberg". Dieser Eintrag enthält z.Zt. keine SwissTopo-Id, da dieser Bergname mehrfach in der SwissTopo-Liste auftritt und wir gegenwärtig kein Disambiguierungsmodul haben, das zuverlässig entscheiden kann, welcher Berg gemeint ist.

Der dritte Eintrag verweist auf die Tokenfolge 8-501-20 und 8-501-21 "Punta Nera" mit der SwissTopo-Id "18300407". Auf diese Weise beschreiben wir mehrgliedrige Bergnamen.

Die folgenden Homographen wurden manuell aus der Bergnamenliste entfernt.

Achs, Aff, Atlas,
Bire, Blueme, Burg,
Chamm, Chanzel, Chilchli, Chirchli, Chopf, Chrüz, Chulm, Cima,
Egg, Esel,
Fil, First, Freiheit,
Gibel, Grat, Grätli, Gwächte, Gwächten,
Hahnen, Hane, Hanen, Haupt, Hengst, Heustock, Heustöckli, Hora, Horen, Horn, Horst, Hubel, Huet, Höch,
Kamel, Kamm, Krone,
Leist, Luser, Läden, Lückli,
Mittelgrat, Moor, Mörder,
Nase, Nasen, Nüssen,
Ochs, Ochse, Ofen, Ostgrat,
Pfaff, Pfaffe, Pfaffen,
Rad,
Sattel, Schopf, Spital, Spitz, Spitzli, Stand, Stein, Stock, Stollen, Stoss, Stube, Stöckli, Sunnig, Sätteli,
Tschudi, Tuba, Tube, Turm, Turner,
Wart,
Ziger

Verwendung und Zitierung

Das Korpus darf nur für wissenschaftliche Zwecke und nicht kommerziell verwendet werden. Die Herkunft der Daten (www.textberg.ch) muss immer angegeben werden. Für das Zitieren des Korpus schlagen wir vor:

@MISC{TextBerg_Release_131_2010,
editor = {Noah Bubenhofer and Martin Volk and Adrian Althaus and  Maya Bangerter and Torsten Marek and Beni Ruef},
year = 2010,
title = {{Text+Berg}-Korpus (Release 131)},
note = {Digitale Edition des Jahrbuch des SAC 1864-1923 und  Die Alpen 1925-1995},
howpublished = {XML-Format},
school = {Institut für Computerlinguistik, Universität Zürich}
}

Danksagung

Wir danken Hanno Biber und dem Team des Austrian Academy Corpus (AAC) in Wien für das Scannen der ersten 10 Bände (1864 - 1874).

Wir danken den Studierenden und Mitarbeitern, die beim Scannen, bei der Korrektur und der Verarbeitung der Jahrbücher mitgewirkt bzw. diese massgeblich durchgeführt haben:

  • Adrian Althaus (Koordination)
  • Sara Bärtschi
  • Maya Bangerter (Programmierung)
  • Adrian Beer
  • Lenz Furrer (Programmierung)
  • Anne Göhring
  • Alexandra Hartmann
  • Stefanie Herzig
  • Silvan Jegen
  • Torsten Marek (Programmierung)
  • Stephanie Odok
  • Beni Ruef (Programmierung)
  • Patricia Scheurer
  • Rico Sennrich (Programmierung)
  • Silvan Tarnutzer
  • Martin Warin (Programmierung)

Noah Bubenhofer, Martin Volk