ZDB Index
Anforderungen
- Suche über den Erscheinungsort
- Suche über den Titel der Zeitung Zeitung
- Sortierung nach Titel
- Sortierung nach Erscheinungsort
Datenquelle
Der ZDB Index wird mit Hilfe der Newspaper Spark App aus dem ZDB Dump aufgebaut.
Schema
Code Block |
---|
<?xml version="1.0" encoding="UTF-8" ?> <schema name="newspaper" version="1.6"> <similarity class="org.apache.lucene.search.similarities.ClassicSimilarity" /> <fieldType name="string" class="solr.TextField" sortMissingLast="true" omitNorms="true"> <analyzer> <tokenizer class="solr.KeywordTokenizerFactory" /> </analyzer> </fieldType> <fieldType name="sort" class="solr.TextField" sortMissingLast="true" omitNorms="true"> <analyzer type="index"> <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt" /> <charFilter class="solr.PatternReplaceCharFilterFactory" pattern="([^a-zA-Z0-9])" replacement=""/> <tokenizer class="solr.KeywordTokenizerFactory" /> <filter class="solr.LowerCaseFilterFactory" /> </analyzer> </fieldType> <fieldType name="text" class="solr.TextField" positionIncrementGap="100"> <analyzer> <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt" /> <tokenizer class="solr.WhitespaceTokenizerFactory" /> <filter class="solr.LowerCaseFilterFactory" /> <filter class="solr.TrimFilterFactory" /> <filter class="de.fhg.iais.cortex.search.analyzer.LengthTrimFilterFactory" length="32766" /> </analyzer> </fieldType> <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true" /> <field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" /> <field name="title" type="text" indexed="true" stored="true" required="true" multiValued="true" /> <field name="language" type="string" indexed="true" stored="true" required="false" multiValued="true" /> <field name="frequency" type="string" indexed="true" stored="true" required="false" multiValued="true" /> <field name="locationUri" type="text" indexed="true" stored="true" required="false" multiValued="true" /> <field name="location" type="text" indexed="true" stored="true" required="false" multiValued="true" /> <field name="progress" type="string" indexed="true" stored="true" required="false" multiValued="true" /> <field name="hasFulltext" type="boolean" indexed="true" stored="true" required="false" multiValued="false" /> <field name="thumbnail" type="string" indexed="true" stored="true" required="false" multiValued="false" /> <field name="sort.title" type="sort" indexed="true" stored="false" required="true" multiValued="false" /> <field name="sort.location" type="sort" indexed="true" stored="false" required="false" multiValued="false" /> <!-- Field to use to determine and enforce document uniqueness. Unless this field is marked with required="false", it will be a required field --> <uniqueKey>id</uniqueKey> </schema> |
Besonderheiten
...
Queries zum Bedienen der Anforderungen
...
Zeitungsausgabenindex
Anforderungen
Der Zeitungsausgabenindex bedient die folgenden Use cases:
- Die Suche nach Zeitungsausgaben: Anhand der Nutzereingabe werden Zeitungsausgaben gesucht und in einer Liste dargestellt. Die Suchergebnisliste enthält den Titel der Zeitung, das Datum und ein Vorschaubild der Ausgabe sowie ein Textsnippet mit dem gefundenen Suchbegriff. Desweiteren wird die Anzahl der Treffer in der Ausgabe angezeigt. Die Suchergebnisse müssen sich mit Hilfe von Facettenwerte weiter einschränken lassen.
- Die Suche über den Erscheinungstermin (Facetten für Jahr und Datum)
- Die Suche innerhalb einer Ausgabe: Anhand der Nutzereingabe wird innerhalb einer Zeitungsausgabe gesucht. Die Trefferliste enthält neben einer Referenz auf die Seite Textsnippets mit den gefundenen Suchbegriffen und Informationen wo auf der gescannten Seite der Suchbegriff zu finden ist.
Datenquelle
Die primäre Datenquelle für diesen Index ist die in Cassandra gespeicherte Outbox, also das Transformationsergebnis. Dieses wird von der Newspaper-Spark-App eingelesen, aufbereitet, mit Daten aus dem ZDB Index ergänzt und in den Index geschrieben.
Schema
Dieser Index arbeitet mit Nested Documents um sowohl die Zeitungsausgaben als auch die Einzelseiten der Ausgaben zu speichern. Die Menge der im Schema definierten Felder enthält also die für die Ausgaben so wie auch die für die Einzelseiten.
...
Dieser Index benutzt das SOLR-OCR-Plugin des MDZ um die Volltexte und inkl. der Wortpositionen aus den gelieferten ALTO Dateien zu indexieren.
Beispiel-Queries zum Bedienen der Anforderungen aus dem Klickdummy
https://xd.adobe.com/view/e385a318-37bf-4ea7-56d8-2774adbf7d11-95b4/
...
- Objektseite Suchen (DFG Viewer)
- Volltext Suche innerhalb einer Ausgabe: /select?hl.ocr.fl=page.fulltext&hl=true&fl=id,page.number&q=+{!child%20of=%27id:4175160268881036%27}%20+page.fulltext:%22Fernsprecher%22
Beispiel-Queries zum Bedienen der Anforderungen des Ingest-Prozesses
- sind für eine Zeitung (zdb-id) Volltexte geladen?
http://ddb-di-vm05.fiz-karlsruhe.de:8183/solr/newspaper-issues/select?q={!parent which='zdb_id:"2728009-3"'}pagefulltext:* (Beispiel mit Treffern)
http://ddb-di-vm05.fiz-karlsruhe.de:8183/solr/newspaper-issues/select?q={!parent which='zdb_id:"809452-9"'}pagefulltext:* (Beispiel ohne Treffer)
...