Tech Insights: Neuer Suchservice für skalierbare Wissensplattformen

08.01.2026

Der Suchservice bildet das technische Rückgrat wissensintensiver Plattformen. In diesem Tech-Insights-Beitrag zeigt unser Entwicklungsteam, wie wir einen veralteten Suchservice vollständig neu entwickelt und als skalierbare, multi-tenant-fähige Plattform aufgesetzt haben – mit klarem Fokus auf Architektur, Engineering und technische Entscheidungen.

Die Lösung realisieren wir nicht nur für ein einzelnes Projekt, sondern rollen sie plattformweit bei allen Bestandskund:innen aus. Ausgangspunkt und Referenz für die Umsetzung war das Projekt für die VG Bild-Kunst. Zum Case der VG Bild-Kunst

Kontext

Der bestehende Suchservice war technisch überholt und hielt der wachsenden Komplexität der Plattform nicht mehr stand. Wartung und Weiterentwicklung verursachten hohen Aufwand, Erweiterungen ließen sich nur schwer umsetzen und neue Anforderungen machten strukturelle Grenzen deutlich.

Insbesondere im Betrieb mehrerer Kundenprojekte zeigten sich Schwächen: Tenants mussten weitgehend separat betreut werden, was Verwaltung und Rollouts unnötig verkomplizierte. Gleichzeitig ließ die bestehende Architektur nur eingeschränkte Integrationen moderner Funktionen zu – etwa beim Crawling oder bei der Verarbeitung dokumentenbasierter Inhalte wie PDFs.

Vor diesem Hintergrund war klar: Suche und Indexierung mussten grundlegend neu gedacht werden – nicht als Feature, sondern als zentrale Backend-Fähigkeit.

Zielsetzungen der Neuentwicklung

Ziel war es, den Suchservice als langfristig betreibbares, zentrales Backend-System neu aufzusetzen, das sich konsistent in unterschiedliche Plattformen integrieren lässt.

Die Neuentwicklung verfolgte dabei folgende Zielsetzungen:

Reduktion von Wartungs- und Betriebsaufwand
Vereinheitlichung von Suche und Indexierung über mehrere Projekte hinweg
Saubere Mandantentrennung (Multi-Tenant-Betrieb)
Klare Erweiterbarkeit für neue Funktionen und Technologien
Technische Vorbereitung auf weiterführende Suchansätze wie semantische Suche

Architektur-Ansatz

Wir konzipieren den Suchservice als eigenständige, serviceorientierte Plattform und trennen Verantwortlichkeiten konsequent. Orchestrierung, Inhaltsverarbeitung und Indexierung liegen im Suchservice, während Crawling als skalierbarer Agenten-Worker ausgelagert ist. So vermeiden wir verteilte Logik in Clients und schaffen klare Integrationsschnittstellen.

Grundlegend für den Architekturansatz sind:

eine zentrale Orchestrierung aller Such- und Indexierungsprozesse
eine klare Entkopplung von Crawling, Inhaltsverarbeitung und Indexierung
die Vermeidung verteilter Suchlogik in angebundenen Systemen

Die Suchengine fungiert dabei als spezialisierte Index-Schicht, während Steuerung, Verarbeitung und Integration im Suchservice verbleiben.

Tech Stack

Der neue Suchservice basiert auf einem klar getrennten, serviceorientierten Technologie-Stack, der Skalierbarkeit, Wartbarkeit und Integration in unterschiedliche Systemlandschaften ermöglicht.

Suchservice (API & Admin-GUI)

Symfony (PHP) mit EasyAdmin – Orchestrierung, Tenant-Management, Inhaltsverarbeitung, Administration
REST-basierte APIs (API-first) – Einheitliche Schnittstellen für Clients und Agenten
PDF-Parsing & Inhaltsnormalisierung – Extraktion relevanter Inhalte vor der Indexierung

Suchservice Software Development Kit (SDK)

OpenAPI – Formale Beschreibung aller Schnittstellen
Automatische SDK-Generierung – Typsichere Clients und DTOs für konsistente Integrationen

Crawler / Agenten

Node.js – Skalierbares, paralleles Crawling
Puppeteer / Headless Chrome – Rendering und Extraktion komplexer Webinhalte
Asynchrone Job-Verarbeitung – Aufgabenabruf über APIs

Indexer & Suchengine

OpenSearch (AWS) – Volltextsuche, Relevanzbewertung, skalierbare Abfragen

Datenbank & Persistenz

Percona Server for MySQL 8.4 – Konfigurationen, Metadaten, Verwaltungsdaten

Core Features & Engineering Highlights

Zentraler Suchservice als API-Orchestrierungsschicht: Kapselt Suche, Indexierung und Crawling in einer zentralen Backend-Domäne.
Explizite Multi-Tenant-Architektur: Strikte Trennung von Konfigurationen, Datenbeständen und Suchindizes.
Zentrale Verarbeitung von Web- und Dokumenteninhalten: Strukturierte Aufbereitung von Webseiten und PDFs für konsistente Suchergebnisse.
Asynchrones, horizontal skalierbares Crawling: Entkoppelte Agenten ermöglichen hohe Durchsatzraten und kontrollierte Skalierung.
Performante Suche mit OpenSearch: Stabile Relevanzbewertung und Performance bei wachsendem Datenvolumen.

Architektur- & Designentscheidungen

Mehrere bewusste Architekturentscheidungen prägen den Suchservice:

Trennung von Crawling, Verarbeitung und Indexierung, um Wartbarkeit zu erhöhen und unabhängige Skalierung zu ermöglichen.
Zentrale Orchestrierung im Suchservice, um Such- und Indexierungslogik nicht in Clients zu verteilen.
Agentenbasiertes Crawling, um große Datenmengen effizient und parallel verarbeiten zu können.
Zentrale PDF-Verarbeitung, um konsistente Inhaltsaufbereitung sicherzustellen.
Automatisch generiertes SDK, um Integrationen zu vereinheitlichen und langfristige Wartungskosten zu reduzieren.

Technische Herausforderungen

Ein wesentlicher Teil der Entwicklung erfolgte als Forschungs- und Entwicklungsarbeit, um den produktiven Einsatz KI-gestützter Entwicklungswerkzeuge zu evaluieren. Dafür wurden drei Ansätze parallel verfolgt:

klassische Entwicklung ohne KI
Entwicklung mit Cursor AI
Entwicklung mit Claude AI

Ziel war es, Codequalität, Entwicklungsgeschwindigkeit, Wartbarkeit und technische Kontrolle vergleichbar zu machen. Die Ergebnisse zeigten: KI-gestützte Werkzeuge können die Produktivität steigern, erfordern aber klare fachliche Steuerung und konsequente Reviews – insbesondere bei Architekturentscheidungen.

Nach Bewertung der Ergebnisse entschieden wir uns für Cursor AI, da dieser Ansatz die beste Balance aus Effizienz, Kontrolle und Integration in bestehende Entwicklungsprozesse bot.

Lessons Learned

KI-gestützte Entwicklung steigert Produktivität, ersetzt aber keine fachliche Kontrolle.
Parallele Entwicklungsansätze ermöglichen fundierte technische Entscheidungen.
Eine klar strukturierte Architektur ist Voraussetzung für nachhaltige Erweiterbarkeit.
Automatisch generierte SDKs reduzieren Integrationsaufwand und Fehlerquellen.

Ausblick

Der aktuelle Suchservice implementiert eine klassische, begriffsbasierte Volltextsuche. Auch bei Tippfehlertoleranz bleiben synonyme oder semantisch verwandte Begriffe unberücksichtigt, sofern sie nicht explizit im Index enthalten sind. Weitere Erweiterungen des Suchservices werden aktuell in Betracht gezogen:

Einführung semantischer Suchmechanismen
Einsatz KI-gestützter Verfahren zur verbesserten Relevanzbewertung
Weiterentwicklung hin zu kontextbasierter Informationserschließung
Technische Vorbereitung auf Assistenz- oder dialogorientierte Nutzungsszenarien

Referenz

Die Umsetzung startete im Projekt für die VG Bild-Kunst und wurde von Beginn an als plattformfähige Lösung konzipiert. Heute bildet der Suchservice die gemeinsame Grundlage für Suche und Indexierung über mehrere Projekte hinweg. Zum Case der VG Bild-Kunst