Effizientes Re-indexing in Apache Solr: eine Schritt-für-Schritt-Anleitung
Effizientere Datenbereitstellung durch intelligentes Re-Indexing mit Apache Solr

15. Juli 2025, 12:01 Uhr · Quelle: Pressebox
In dieser Anleitung lernen Sie den Prozess des Re-Indexings in Apache Solr kennen, einschließlich Vorbereitungen und wichtigen Details. Erfahren Sie, wie Sie Ihre Daten erfolgreich migrieren.

Augsburg, 15.07.2025 (PresseBox) - Haben Sie gerade das Schema für Ihren Solr-Index geändert und können das neue Schema nicht mit Ihren vorhandenen Daten und Dokumenten verwenden? Oder haben Sie einen neuen Index mit mehr Shards und besserem Routing erstellt und müssen Ihre Daten in diesen neuen Index verschieben? Oder haben Sie eine neue Infrastruktur mit besserer Hardware aufgebaut und möchten Ihre Sammlungen samt Daten auf die neuere Infrastruktur verlagern? Ein Re-Indexing ist die Antwort auf Ihre Fragen.

Im Gegensatz zu Elasticsearch ist das Re-Indexing in Apache Solr leider nicht als Funktion vorgesehen. Es gab eine Zeit, in der Sie den Datenimport-Handler (DIH) verwenden konnten, um mit Hilfe eines Skripts ein Re-Indexing durchzuführen, aber DIH werden von Apache Solr nicht mehr offiziell unterstützt. Um Ihre Daten zuverlässig von einer Sammlung in eine andere zu verschieben, ist das Schreiben eines eigenen Skripts und die Optimierung dieses Skripts der einfachste und schnellste Weg, diese Herausforderung zu lösen.

Die Idee, Daten von einer Sammlung oder einem Index in einen anderen neu zu indizieren, scheint so einfach zu sein, als würden die Dokumente einzeln aus dem Quellindex geholt und an den neuen Zielindex gesendet. Allerdings gibt es beim Re-indexing kleine aber entscheidende Details, die unbedingt beachtet werden müssen. Besonders wenn es sich um zig Millionen Dokumente handelt, kann das Verschieben entmutigend sein und das Fehlen eines kleinen Details kann viel Zeit und Ressourcen kosten.

In diesem Artikel veranschaulichen wir das Re-indexing in Solr und zeigen alle Details, die Sie im Auge behalten müssen. Dazu gehen wir von einem Szenario aus, in dem wir das Schema des Index geändert und einen neuen Index mit diesem neuen Schema erstellt haben und nun Dokumente aus der alten Sammlung in die neue Sammlung neu indizieren möchten. Der Quellindex umfasst etwa 5 Millionen Dokumente. Wir haben in jedem Dokument mehrere Attribute. Um das Re-indexingsskript zu schreiben werden wir Python verwenden, da es eine „Pysolr“-Bibliothek enthält, mit der problemlos Anfragen an Solr-Instanzen gestellt werden können.

Inhaltsverzeichnis

  1. Vorbereitungen
  2. Reihenfolge der Re-Indexierung
  3. Vorverarbeitung
  4. Bulk-Processing
  5. Abschluss
Vorbereitungen

Zunächst müssen wir sicherstellen, dass genügend Platz für den neuen Index verfügbar ist. Falls es sich auf derselben oder einer neuen Infrastruktur befindet, sollte mindestens so viel Speicherplatz verfügbar sein, wie bereits belegt ist. Sie können dies überprüfen, indem Sie zum Solr-Dashboard gehen und dann im Abschnitt „Cloud“ auf „Knoten“ klicken. Hier in den Details können Sie sehen, wie viel Platz jede Sammlung auf jedem Knoten verbraucht. Das Zweite, was überprüft werden muss, ist das Netzwerk. Da der Re-indexingsprozess lange dauern kann, ist es wichtig, dass die Kommunikation zwischen dem Skript und der Solr-Instanz nicht unterbrochen wird. Ideal wäre es, das Skript im selben Netzwerk wie die Solr-Instanz auszuführen, da dies aufgrund geringer Netzwerkverzögerungen auch die Re-indexingsgeschwindigkeit verbessert.

Reihenfolge der Re-indexing

Es gibt zwei Arten von Sammlungen, die neu indiziert werden könnten. Ein Typ enthält statische Daten, die überhaupt nicht geändert werden, und der zweite Typ enthält Live-Daten, die regelmäßig aktualisiert werden. Wenn es sich um einen Index mit statischen Daten handelt, ist die Sache viel einfacher. Hier kann man die eindeutigen IDs verwenden, um Daten sequenziell von einem Index zum anderen zu verschieben.

Viel komplizierter wird es jedoch, wenn Sie mit einem Index arbeiten, der während des Re-indexingsprozesses aktualisiert wird. Für dieses Szenario benötigen wir ein Referenzattribut, das zur Identifizierung aktualisierter oder aktueller Dokumente verwendet werden kann. Idealerweise sollten die Dokumente über ein Datumsfeld verfügen. Dies könnte ein Feld „createdDate“ oder „lastUpdated“ sein. Das Feld „lastUpdated“ trägt dazu bei, dass die Re-indexing wesentlich genauer wird. Dadurch behalten Sie den Überblick über die neuesten Dokumente. Sobald die Hauptindizierung abgeschlossen ist, müssen Sie nur noch die neuesten Dokumente neu indizieren, die in den letzten Minuten eingegangen sind.

Auch hier gilt es zu beachten, dass bei der Verwendung von Datumsangaben die Zeitzonen berücksichtigt werden sollten. Möglicherweise unterscheidet sich die Zeitzone auf der Solr-Instanz von der Zeitzone auf der Instanz, auf der das Skript ausgeführt wird.

Vorverarbeitung

Nachdem Sie die Dokumente aus dem Quellindex erhalten haben, müssen Sie höchstwahrscheinlich einige Anpassungen an den Dokumenten vornehmen, bevor Sie sie an den neuen Index senden. Eine Änderung, die Sie unbedingt vornehmen müssen, besteht darin, das Attribut „_version_“ aus den Dokumenten zu entfernen. Es handelt sich um ein von Solr reserviertes Attribut, und Solr lehnt Dokumente ab, die dieses Attribut enthalten. Und falls Sie den Typ eines Attributs geändert haben, müssen Sie dies auch im Skript berücksichtigen. Sie haben beispielsweise ein Attribut im neuen Schema entfernt oder den Typ eines Attributs von String in Integer geändert.

Bulk-Processing

Wenn wir beginnen, Dokumente einzeln aus einer Sammlung abzurufen und an eine neue Sammlung zu senden, während sich Millionen von Dokumenten im Quellindex befinden, kann es Monate dauern, bis wir das Re-Indexing abgeschlossen haben. Um dieses Problem zu lösen, müssen wir die von Solr bereitgestellte BULK-Indizierungsfunktion nutzen. Wir müssen jedoch darauf achten, nicht 100.000 Dokumente in einer einzigen Anfrage zu senden, da dies zu Netzwerk- und Zeitüberschreitungsproblemen führen kann. Für statische Daten können, wie bereits erwähnt, die UUID/eindeutigen IDs verwendet werden, um Datenblöcke ähnlicher Größe zu erstellen. Unter der Annahme, dass die UUID-Ziffern Werte im Bereich von 0,1,2,3,4…9,a,b,c,d,e,f haben können, wäre es klug, alle Dokumente mit UUIDs mit 0000 beginnen zu lassen und dann alle Dokumente beginnen mit 0001 und dann 0002 und so weiter und so weiter. Hier gehen wir davon aus, dass die Anzahl der Dokumente, die mit 0000 oder 0001 beginnen, im Durchschnitt etwa 1000–5000 Dokumente beträgt. Wenn es noch viel mehr ist, könnten Sie mit 00000 und dann 00001 beginnen.

Im Fall von Live-Daten und wenn Datumsangaben zur Erstellung von Blöcken verwendet werden, könnte man Blöcke für jede Stunde, jeden Tag oder jede Woche erstellen, je nachdem, wie viele Dokumente für jede Stunde, jeden Tag oder jede Woche vorhanden sind. Idealerweise sollte die Anzahl bei etwa 1000 bis 5000 Dokumenten liegen.

Abschluss

Ein Re-Indexing in Solr kann schwierig sein, ist aber möglich. Funktionen wie die Verwendung von Filter-Abfragen zum Suchen und Teilen von Daten und die Verwendung des Bulk-Indexing können den Prozess exponentiell beschleunigen. Ein weiterer Tipp besteht darin, zunächst eine Testsammlung zu erstellen und einen Unterabschnitt der Dokumente neu zu indizieren. Sie können diesen Index zunächst testen und prüfen, ob er die Anforderungen erfüllt und alle Dokumente, die ein Kriterium erfüllen, erfolgreich indiziert wurden oder nicht.Ein Beispielskript zur Re-Indexierung eines Live-Index finden Sie hier.

Software / Apache Solr / Re-Indexing / Datenmigration / Pysolr
[pressebox.de] · 15.07.2025 · 12:01 Uhr
[0 Kommentare]
Vögtlin Instruments feiert 40 Jahre Präzision in der Gasdurchfluss-Mess- und Regeltechnik
Muttenz, 04.06.2026 (PresseBox) - Seit der Gründung im Jahr 1986 hat sich Vögtlin Instruments zu einem international anerkannten Anbieter für präzise Gasdurchflussmessung und -regelung entwickelt. Das Unternehmen verbindet technologische Innovation in enger Zusammenarbeit mit Kunden und Partnern – und richtet nach 40 Jahren „Spirit of Flow“ den Blick […] (01)
vor 12 Stunden
Protestkundgebung zum Sparkasseneinbruch in Gelsenkirchen
Gelsenkirchen/Essen (dpa) - Es geht um einen der größten Einbruchs-Coups der deutschen Kriminalgeschichte mit möglicherweise dreistelligem Millionen-Schaden. Nach Weihnachten 2025 drangen Unbekannte in eine Gelsenkirchener Sparkassen-Filiale ein und räumten mehr als 3.000 Schließfächer aus. Am 11. Juni starten beim Essener Landgericht die ersten beiden […] (00)
vor 4 Minuten
Turmdrehkran als 3D-Drucker: Weltpremiere aus Australien könnte den Hochbau verändern
Türmdrehkrane gehören seit Jahrzehnten zum festen Bild jeder größeren Baustelle. Der australische Robotik- und 3D-Druckhersteller Luyten aus Melbourne hat nun etwas grundlegend Neues vorgestellt: den Ascend, den weltweit ersten Turmdrehkran, der gleichzeitig als robotischer 3D-Betondrucker arbeitet. Das System kann Gebäude bis zu 100 Meter Höhe direkt […] (00)
vor 9 Stunden
Fortschritte im Glasfaserausbau Laut dem Bundesdigitalministerium hat mittlerweile jeder zweite Haushalt in Deutschland Zugang zu einem Glasfaseranschluss. Diese Entwicklung markiert einen signifikanten Fortschritt im Ausbau der digitalen Infrastruktur, der für zukünftiges Wachstum und Innovation in der deutschen Wirtschaft entscheidend ist. Bis Ende 2025 wird prognostiziert, dass fast 50 Prozent der Haushalte über einen direkten Anschluss bis ins Gebäude oder in die Wohnung verfügen können. Dies stellt […] (01)
vor 16 Stunden
Star Wars Zero Company: Der geleakte Release-Termin katapultiert das XCOM-Erbe mitten in den Sommer
Star Wars Zero Company steht vor einem überraschend frühen Start. Neuen Leaks zufolge soll das rundenbasierte Taktikspiel der Firaxis-Veteranen von Bit Reactor bereits am 27. August 2026 erscheinen – als clever positionierter Ausweichmanöver vor dem vollgepackten September. Doch die durchgesickerten Editionsdetails werfen Fragen auf: Warum verzichtet EA […] (00)
vor 6 Stunden
Histoire TV blickt auf Boris-Jelzin-Wahlkampf
Der Sender zeigt Anfang Juli eine Dokumentation über Boris Jelzins überraschenden Wahlsieg sowie eine sechsteilige Reihe über spektakuläre Kriminalfälle in Zügen. Dreißig Jahre nach der Wiederwahl von Boris Jelzin widmet sich Histoire TV am Mittwoch, 1. Juli, um 20.50 Uhr der Dokumentation 1996, hold-up à Moscou. Der von Madeleine Leroyer inszenierte und gemeinsam mit Tim Toidze geschriebene […] (00)
vor 1 Stunde
French Open
Paris (dpa) - Ein Halbfinale gegen Alexander Zverev war für Jakub Mensik in diesem dramatischen Moment der ersten French-Open-Woche meilenweit entfernt. Der 20 Jahre alte Tscheche hatte zwar gerade den Matchball in der zweiten Runde verwandelt, doch der mehr als viereinhalbstündige Kraftakt bei 31 Grad forderte seinen Tribut: Mensik sackte auf dem Platz […] (00)
vor 38 Minuten
bitcoin, crypto, finance, coins, money, currency, cryptocurrency, blockchain, investment, closeup
Der Bitcoin-Kurs hat einen erneuten Rückgang unter die Marke von $65.000 verzeichnet. BTC zeigt bärische Anzeichen und könnte weiter fallen, wenn er unter $62.000 sinkt. Bitcoin konnte sich nicht über $65.500 halten und verzeichnete weitere Verluste. Der Kurs handelt unter $64.000 und dem 100-Stunden-SMA (Simple Moving […] (00)
vor 43 Minuten
 
Land Hadeln/Wanna/Cuxland: Greifvögel und Eulen ganz nah
Wanna/Cuxland, 04.06.2026 (lifePR) - Wenn Greifvögel lautlos durch die Luft gleiten […] (00)
Schlüsselsuchen war gestern.
Eckernförde, 04.06.2026 (PresseBox) - Du bist gerne draußen unterwegs? Gehst gerne […] (00)
Forge Resources mit Großoffensive im Yukon: Neues Bohrprogramm auf Gold-Kupfer-Projekt gestartet
Hamburg, 04.06.2026 (PresseBox) - Forge Resources (CSE: FRG; FSE: 5YZ) läutet die […] (01)
Nahostkonflikt - Libanon
Beirut/Tel Aviv (dpa) - Ungeachtet der zwischen Israel und dem Libanon erneuerten […] (00)
French Open
Paris (dpa) - Maja Chwalinska ließ sich rücklings auf den roten Sand fallen, legte […] (01)
«Au nom de la mer, vers une pêche durable?» fragt nach der Zukunft der Fischerei
Die preisgekrönte Dokumentation beleuchtet bei Ushuaïa TV die Herausforderungen einer […] (00)
Bei Travelcircus erhaltet ihr nun wieder tolle Flash-Deals. Falls ihr euch nach einer kurzen Auszeit sehnt, checkt die Angebote doch gerne mal ab. FS BIS ZUM 11.06. – Pure Erholung in […] (01)
Erhöhte Wachsamkeit auf den Währungs Märkten Da die Energiepreise in die Höhe […] (00)
 
 
Suchbegriff