...
Es gab in der Vergangenheit bereits diese Seite, die nicht mehr gepflegt wurde: DDBdash Erklärungen für Log-Dateien/Fehlermeldungen
Evtl. kann man daraus Infos hierher übertragen.
Table of Contents |
---|
Workflow
Falls ein Problem erkannt wurde, das nicht vom Dash-Nutzenden gelöst werden kann, bitte mit FIZ-Mapping-Team besprechen und evtl. nach Absprache ein Support-Ticket erstellen
...
Im JIRA-Projekt DDBTASK mit der Komponente "Support" erstellen.
Default-Assignee ist FIZ_MAPPING, sodass das Ticket zunächst geprüft und ergänzt werden kann bevor es an die Entwicklung weiter gegeben wird.
Fehlermeldungen und Erläuterungen
Bitte gerne ergänzen!
Dash-Oberfläche
Fehlerbeschreibung | FehlerFehlercode/Log-Beispiel | Ursache | Behebung | weitere Infos für Entwickler | Optimierungsmöglichkeit | Beim Export in P wurde neben einem DriverTimeoutException-Fehler auch folgender Fehler gemeldet, der mir bisher noch nicht untergekommen ist. In Q1 war der Export dagegen fehlerfrei durchgelaufen. | WriteTimeoutException: Cassandra timeout during SIMPLE write query at consistency LOCAL_QUORUM (2 replica were required but only 1 acknowledged the write)” | Die WriteTimeoutException mit unterschiedlichen Folgefehlern entsteht, wenn zu große Datenmengen gleichzeitig ins Cassandra-Cluster geschrieben werden. Der Treiber in den Spark Apps meldet dann, dass das Cluster mit den zu schreibenden Daten überfordert ist und meldet, dass die Verbindung abgebrochen ist. Die Gegenstelle im Cluster ist dann für die Spark App nicht mehr erreichbar, daher folgt eine HeartbeatException. Der Treiber in der Spark App löst dann allgemein eine DriverTimeoutException aus. | Erneut prozessieren, wenn weniger Prozesse parallel laufen | ||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Ingest-Button reagiert nicht | FIZ: Neustart Dash Frontend + Backend + Binaries Service | In einem Fall war das Admin-Backend zwar ansprechbar, aber alle Threads waren busy, sodass nur dessen Neustart geholfen hat. Alleine das Stoppen der Prozesse hatte 15 Minuten gedauert. |
| ||||||||||
404-Fehler bei Aufruf von Institutionenseiten sowie 500-Fehler bei Aufruf von Datenbeständen in Dash
| Ein Blick auf Icinga hat gezeigt dass der Solr Server nicht läuft | Neustart SOLR |
|
| |||||||||
Prozess scheint zu hängen |
|
|
|
Prozessierung
Fehlerbeschreibung | Fehlercode/Log-Beispiel | Ursache | Behebung | weitere Infos für Entwickler | Optimierungsmöglichkeit | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Im Report zu den Binaries sind 429-Fehler. | GeneralDataException: Couldnt get Data from url https://api.digitale-sammlungen.de/iiif/image/v2/bsb10598340_00007/full/full/0/default.jpg, status: 429, data: If you need your limits raised, please contact mdz@bsb-muenchen.de. | Limitierung durch Datenpartner | Freischaltung beim Datenpartner beantragen und Re-Ingest durchführen | ||||||||||||||||||
Im Report zu den Binaries sind 404-Fehler. Die Binaries wurden mitgeliefert. | GeneralDataException: Couldnt get Data from url http://ddb-p1-vmlbp01.fiz-karlsruhe.de:8022/abcde/xxrdqfv4ym4whi74wxopi5lidziv5m3r/Eich_IX_61_3.jpg, status: 404 | Bei der Transformation kann nicht auf die entzippten Binaries zugegriffen werden.
| Prüfen:
|
| |||||||||||||||||
Dash-Prozess verharrt im Status "WAIT_FOR_BINARIES_SERVICE" | In dieser Stage werden die ALTOs gezogen. Das kann auch mal sehr lange dauern, da es sich oft um große Datenmengen handelt. Solange eine Queue im Binaries Service abgearbeitet wird, ist alles okay. | warten FIZ kann prüfen: |
| Nutzern im Report den Status der Queue des BS anzeigen | |||||||||||||||||
Dash-Prozess verharrt im Status "PREPARE_LOCAL_BINARIES" | Der stage PREPARE_LOCAL_BINARIES ist ein Wartezustand, daher sind im Log keine Fehler sichtbar. Hier sollen Binaries auf den Local Binaries Provider hochgeladen werden. Der LBP ist aber nicht bereit bzw. verfügbar. Daher ist dieser neu zu starten. | FIZ: | Ingest-Button reagiert nicht | FIZ: Neustart Dash Frontend + Backend + Binaries Service | Reports zu Export, Index, etc. nicht mehr vorhanden | UnknownHostExceptions beim Zugriff auf das Cluster und den AAS | s. | FIZ: | Netzwerker sind informiert. Expand | | |||||||||||
| |||||||||||||||||||||
Transformation läuft in Fehler beim Abruf der refId eines Binaries | XsltTransformationException: Error evaluating ((attr{position=...}, ...)) on line 85 column 40 of binaries.xsl:: HTTP 500 Internal Server Error at template create_binary on line 29 column 40 of binaries.xsl: invoked by xsl:call-template at jar:file:/data/storage/logs/spark/worker/app-20230803142938-0472/0/./ddb-mapping-new-4.21.jar!/xsl/lido/binaries/binaries.xsl#407 invoked by xsl:for-each at jar:file:/data/storage/logs/spark/worker/app-20230803142938-0472/0/./ddb-mapping-new-4.21.jar!/xsl/lido/binaries/binaries.xsl#68 In template rule with match="/" on line 66 of binaries.xsl | Binaries Service für Transformation nicht erreichbar | FIZ: |
| In Systemansichten sollte angezeigt werden, wenn konfigurierte Komponenten nicht verfügbar sind | ||||||||||||||||
Reports zu Export, Index, etc. nicht mehr vorhanden | UnknownHostExceptions beim Zugriff auf das Cluster und den AAS | s. Es trat eine UnknownHostException auf. Damit sind für den Prozess benötigten Web-Services nicht verfügbar. Der gesamte Ingest-Prozess kann dadurch nicht durchlaufen und regulär ingestieren. Daher kommt es zum unvollständigem Report, bei dem Prozessschritte nicht angezeigt werden. Sobald die Hosts der Services über DNS wieder erreichbar sind, muss der Ingest nochmal durchgeführt werden. | FIZ: | Netzwerker sind informiert. |
| ||||||||||||||||
Bei Indexierung der referenzierten Institutionen werden Fehler angezeigt, obwohl der Report-Button grün ist und die zugehörigen GND-Links über die Suche auffindbar sind | SocketTimeoutException: Read timed out http://d-nb.info/gnd/6031336-5 | Wahrscheinlich ist nur die Antwort der Abfrage verloren gegangen | Im Report zu den Binaries sind 404-Fehler. Die Binaries wurden mitgeliefert. | GeneralDataException: Couldnt get Data from url http://ddb-p1-vmlbp01.fiz-karlsruhe.de:8022/abcde/xxrdqfv4ym4whi74wxopi5lidziv5m3r/Eich_IX_61_3.jpg, status: 404 | Bei der Transformation kann nicht auf die entzippten Binaries zugegriffen werden. Entweder existiert die Datei nicht oder der Binaries Service ist prinzipiell nicht erreichbar oder aufgrund Netzwerkstörung kann nicht auf die abgelegten Binaries zugegriffen werden. | . | Der Fehler kann ignoriert werden. Bei erneuter Prozessierung sollte der Report wieder vollständig sein. | ||||||||||||||
NullPointerException bei der Indexierung | Exception: Failed to parse ZDB Entry for 3173082-6. Could not extract location and language: NullPointerException: | Während der Prozess lief, hat es einen knapp eine Minute andauernden Ausfall des Solr Servers gegeben | Erneut indexieren ohne erneute Transformation Bzw. "Wenn ich das richtig in Erinnerung habe, dann führt Fehlermeldung "Exception: Failed to parse ZDB Entry for 3181871-7. Could not extract location and language: NullPointerException:") tatsächlich "nur" dazu dass die entsprechenden Informationen fehlen, die Ausgaben aber trotzdem indexiert sind. Hier lohnt sich ein Neuindexieren in Q1 nicht, wenn sicher ist, dass es kein Problem mit den ZDB-Daten gibt. Das Laden in Q1 dient ja lediglich der Abnahme der Daten und wenn bereits andere Daten mit denselben ZDB-IDs erfolgreich geladen wurden, dann bringt ein Neuindexieren keinen Erkenntnisgewinn. " | s.
|
| ||||||||||||||||
Beim Export in P wurde neben einem DriverTimeoutException-Fehler auch folgender Fehler gemeldet, der mir bisher noch nicht untergekommen ist. In Q1 war der Export dagegen fehlerfrei durchgelaufen. | WriteTimeoutException: Cassandra timeout during SIMPLE write query at consistency LOCAL_QUORUM (2 replica were required but only 1 acknowledged the write)” | Die WriteTimeoutException mit unterschiedlichen Folgefehlern entsteht, wenn zu große Datenmengen gleichzeitig ins Cassandra-Cluster geschrieben werden. Der Treiber in den Spark Apps meldet dann, dass das Cluster mit den zu schreibenden Daten überfordert ist und meldet, dass die Verbindung abgebrochen ist. Die Gegenstelle im Cluster ist dann für die Spark App nicht mehr erreichbar, daher folgt eine HeartbeatException. Der Treiber in der Spark App löst dann allgemein eine DriverTimeoutException aus. | Erneut prozessieren, wenn weniger Prozesse parallel laufen | Als Lösung wäre hier möglich, einige Einstelllungen in den Spark Apps zu verändern, damit sich die Schreibgeschwindigkeit auf das Cassandra-Cluster verringert. | |||||||||||||||||
In Produktion nur gut 100.000 Ausgaben von der SLUB. Vor dem Ingest hatten wir ca. 400.000. Ein paar Tage später sind die Objekte da! |
| Der Ausgabenindexierungsprozess für dieses große Dataset hat so lange gedauert, dass der Prozessmonitor in Dash, der den ganzen Ablauf der Ingestierungspipeline regelt, den Kontakt zu dem Prozess verloren hat... Deshalb gibt es keinen Bericht und deshalb habt ihr falsche Zahlen erhalten als der Prozess aus eurer Sicht fertig war. Tatsächlich lief er aber noch 2 Tage weiter. |
| ||||||||||||||||||
Fehler mit der Meldung "WstxEOFException: Unexpected EOF in prolog at [row,col \{unknown-source}]: [1,0]". | WstxEOFException: Unexpected EOF in prolog at [row,col {unknown-source}]: [1,0] | Diese Meldung deutet immer auf ein fehlendes oder leeres Alto hin. Das passt ja auch zu den Binaries Fehlermeldungen. Das sind die Ausgaben die nicht indexiert wurden. Auch hier bringt eine erneute Indexierung ohne Transformation nichts, denn das Herunterladen der ALTOs wir nur bei der Transformation getriggert und macht hier sowieso erst Sinn, wenn der Fehler beim Datengeber behoben ist. |
|
Portale
Fehlerbeschreibung | Fehlercode/Log-Beispiel | Ursache | Behebung | weitere Infos für Entwickler | Optimierungsmöglichkeit | |||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
METS/MODS: Bild wird weder n der Vorschauansicht noch auf der Bildbühne angezeigt. Öffnet man den METS-Viewer ist es allerdings vorhanden. Das Bild konnte vom BinariesService scheinbar nicht korrekt geladen werden (Breite und Höhe betragen 0. |
| Das Bild war beim Herunterladen kaputt. | FIZ: | |||||||||||||||||||||||
Im Portal sind weniger DS vorhanden als in Dash angezeigt werden. In Q1 dagegen hat die Dash-Anzahl mit der Portal-Anzahl übereingestimmt. |
| Solr-Replikation hat nicht funktioniert | Auf nächste Replikation warten | |||||||||||||||||||||||
PDFs werden zwar vom Medienviewer angezeigt, man kann sie aber nicht öffnen. In dash gibt es keine Binary-Fehler. |
| In den Daten werden keine PDFs geliefert, sondern .jpg. Da aber in lido:resourceType/lido:term=text geliefert wird, wird davon ausgegangen, dass es sich um PDFs handelt. Der Medientyp des Objektes kann trotzdem "Text" sein. | Medientyp bei den gelieferten Binaries anpassen, nicht bei Art des Mediums des gelieferten Objekts. |
| ||||||||||||||||||||||
Fehlerhafte Objekte bei Ingest in q1 | UnavailableException: Not enough replicas available for query at consistency LOCAL_QUORUM (2 required but only 1 alive) | Speicherplatt ist vollgelaufen | ||||||||||||||||||||||||
Zeitungsportal-Daten Anzeige in Q1 liefert internen Serverfehler | Interner Serverfehler - 500 | Neustart Q1 Frontend |
| |||||||||||||||||||||||
Zeitungsportal: | Probleme bei der Übermittlung der ALTO-URLs an den Binaries Service. | Neue Revision erstellen, Dataset wird neu transformiert, dann ingestieren. |
| |||||||||||||||||||||||
Diskrepanz zwischen der Anzahl der Suchergebnisse in der regulären DDB-Suche und im Zeitungsportal | lässt sich immer mit Fehlern bei der Indexierung erklären. Es gibt die "normale" Indexierung die den Suchindex für das Hauptportal aufbaut und die Ausgabenindexierung die die Daten in den Suchindex für das Zeitungsportal schreibt. Wenn in einem der Schritte Fehler auftauchen, können die Daten in dem entsprechenden Index fehlen. | |||||||||||||||||||||||||
Logos der Institutionen werden nicht aktualisiert | Fehlender Parameter bei einem der beiden Binaries-Aufrufe im Mapping | Mapping korrigieren |
| |||||||||||||||||||||||
Logo einer Institution oder Bild eines Objektes erscheint schwarz bzw. mit schwarzem Hintergrund oder falscher Hintergrundfarbe (Binaries werden invertiert dargestellt) | zu sehen z.B. in einem Bildbetrachter, wie z.B. IrfanView: | Transparenz in der Bilddatei | Logo als Jpeg hochladen |
|