Konferenzbeitrag

Evaluating DBMS-based Access Strategies to Very Large Multi-layer Corpora

Linguistic query systems are special purpose IR applications. As text sizes, annotation layers, and metadata schemes of language corpora grow rapidly, performing complex searches becomes a highly computational expensive task. We evaluate several storage models and indexing variants in two multi-processor/multi-core environments, focusing on prototypical linguistic querying scenarios. Our aim is to reveal modeling and querying tendencies – rather than absolute benchmark results – when using a relational database management system (RDBMS) and MapReduce for natural language corpus retrieval. Based on these findings, we are going to improve our approach for the efficient exploitation of very large corpora, combining advantages of state-of-the-art database systems with decomposition/parallelization strategies. Our reference implementation uses the German DeReKo reference corpus with currently more than 4 billion word forms, various multi-layer linguistic annotations, and several types of text-specific metadata. The proposed strategy is language-independent and adaptable to large-scale multilingual corpora.

Urheber*in: Schneider, Roman

In copyright

Language: Englisch

Subject: Linguistik

Event: Geistige Schöpfung

(who): Schneider, Roman

Event: Veröffentlichung

(who): Paris : European Language Resources Association (ELRA)

(when): 2016-04-26

URN: urn:nbn:de:bsz:mh39-48124

Last update: 06.03.2025, 9:00 AM CET

Data provider

This object is provided by:
Leibniz-Institut für Deutsche Sprache - Bibliothek. If you have any questions about the object, please contact the data provider.

Show original at data provider

Object type

Konferenzbeitrag

Associated

Schneider, Roman
Paris : European Language Resources Association (ELRA)

Time of origin

2016-04-26

Other Objects (12)

Konferenzbeitrag

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

Konferenzbeitrag

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Hochschulschrift

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

Hochschulschrift

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Konferenzbeitrag

Using a domain ontology for the semantic-statistical classification of specialist hypertexts

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

Konferenzbeitrag

GenitivDB - a corpus-generated database for German genitive classification

Buchbeitrag

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Artikel

Vorwort

Konferenzbeitrag

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Buchbeitrag

Texttechnologie und Grammatik

Artikel

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

Konferenzbeitrag

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

Konferenzbeitrag

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Hochschulschrift

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

Hochschulschrift

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Konferenzbeitrag

Using a domain ontology for the semantic-statistical classification of specialist hypertexts

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

Konferenzbeitrag

GenitivDB - a corpus-generated database for German genitive classification

Buchbeitrag

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Artikel

Vorwort

Konferenzbeitrag

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Buchbeitrag

Texttechnologie und Grammatik

Artikel

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

Konferenzbeitrag

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

Konferenzbeitrag

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Hochschulschrift

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

Hochschulschrift

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Konferenzbeitrag

Using a domain ontology for the semantic-statistical classification of specialist hypertexts

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

Konferenzbeitrag

GenitivDB - a corpus-generated database for German genitive classification

Buchbeitrag

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Artikel

Vorwort

Konferenzbeitrag

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Buchbeitrag

Texttechnologie und Grammatik

Artikel

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

Cultural heritage institutions wishing to register will find more information here.

Fields marked * need to be filled in.

Username*

Please enter your username

Email*

Please enter your email address

Please do not fill this field

First name

Last name

Password*

Please enter your password

Confirm password*

Please enter the same password

I have read the terms of use and the privacy policy for the collection of personal data and accept them. *

This field is required.

I would like to subscribe to the newsletter of the Deutsche Digitale Bibliothek. See newsletter subscription info.

Account created

Your "My DDB" account has been successfully created. Before you can log in to your account, you must click the confirmation link in the message we just sent to the email address you provided.

Evaluating DBMS-based Access Strategies to Very Large Multi-layer Corpora

Download

Object Details

Classification and Topics

Contributors, Places and Time

Further information

Data provider

Object type

Associated

Time of origin

Other Objects (12)

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Using a domain ontology for the semantic-statistical classification of specialist hypertexts

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

GenitivDB - a corpus-generated database for German genitive classification

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Vorwort

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Texttechnologie und Grammatik

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Using a domain ontology for the semantic-statistical classification of specialist hypertexts

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

GenitivDB - a corpus-generated database for German genitive classification

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Vorwort

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Texttechnologie und Grammatik

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

A Functional Database Framework for Querying Very Large Multi-Layer Corpora

A Corpus Linguistic Perspective on Contemporary German Pop Lyrics with the Multi-Layer Annotated "Songkorpus"

Vergleichende Untersuchung über histologische und immunfluoreszenzoptische Befunde bei bullösem Pemphigoid, Dermatitis herpetiformis und lineärer IgA-Dermatose

Durch Kobaltintoxikation am Meerschweinchen erzeugte Organveränderungen und über Versuche, die toxische Wirkung von Kobalt durch Calciumgaben aufzuheben : (lichtmikroskop. u. ultrastrukturelle Befunde)

Using a domain ontology for the semantic-statistical classification of specialist hypertexts

“… jetzt auch im praktischen Hypertextformat” – Die Anfänge der Grammatik mit der Maus

GenitivDB - a corpus-generated database for German genitive classification

„... jetzt auch im praktischen Hypertextformat“ - Die Anfänge der Grammatik mit der Maus

Vorwort

Eine Ontologie für die Grammatik. Modellierung und Einsatzgebiete domänspezifischer Wissensstrukturen

Texttechnologie und Grammatik

Zwischen Schriftlichkeit und Mündlichkeit: Songtexte in der deskriptiven Sprachforschung

Related objects

Reset password