Zum Inhalt springen
Wissen / Operations
OPERATIONS

Fulfillment-KPIs: Die 8, die wirklich zählen

Welche Kennzahlen dein 3PL dir zeigen sollte – und welche er meistens verschweigt.

VON FABIAN RICHTER29. Juni 20269 MIN

Dein 3PL hat 30 KPIs im WMS. Er zeigt dir vier. Die vier, die gut aussehen.

Ich kenne das von der anderen Seite des Tischs. Du baust ein Monatsreporting, das gefällig ist: „On-Time-Shipped 99,2 %", „Pick-Accuracy 99,8 %", grüne Ampeln, Quartalsmeeting durch. Was nicht im Report steht: dass die On-Time-Quote nur die Aufträge zählt, die überhaupt gepickt wurden — und nicht die 4 %, die nach Cut-off reinkamen und stillschweigend in den Folgetag rutschten. Dass Pick-Accuracy als „Beschwerde-Quote" gemessen wird, also nur die Reklamationen, die der Endkunde aufgemacht hat.

Hier sind die acht KPIs, die du einfordern solltest. Mit der Variante, die dein 3PL dir freiwillig zeigt — und der Variante, die du brauchst, um zu wissen, ob du gerade Geld auf den Boden wirfst.

1. Same-Day-Pickrate

Definition

Anteil der Aufträge, die vor dem definierten Cut-off eingehen und am gleichen Werktag das Lager verlassen.

Same-Day-Pickrate = (Aufträge vor Cut-off, gleiche-Tag versendet)
                    / (Aufträge vor Cut-off)

Benchmark DACH 2026

Mittlere DACH-Standorte mit Cut-off 14:00 sollten > 96 % schaffen. Top-Quartil liegt bei > 98 %. Wer unter 94 % rutscht, hat ein Steuerungsproblem — entweder in der Wellen-Planung oder beim Personal-Forecasting.

Was dein 3PL dir gerne zeigt

„Bemühenspflicht" oder „best effort" — formuliert im Vertrag als weiches Ziel, ohne Pönale. Manche Anbieter zählen außerdem nur die Aufträge mit, die das WMS erreicht haben — also nach Drop-Filter, nach Stornos, nach Inventur-Sperren. Damit verschwinden 2–3 % an Problem-Aufträgen aus dem Nenner.

Wie du es wirklich misst

Du nimmst die Order-Bestätigungszeit aus deinem Shop (nicht aus dem WMS) und gleichst sie gegen den Carrier-Scan ab. Wenn der Carrier den Auftrag bis 24:00 desselben Werktags eingescannt hat, ist er „same-day". Alles andere zählt nicht.

Was es kostet, wenn er es verfehlt

Amazon FBM-Late-Shipment-Rate liegt bei 4 % als Schwellenwert. Wer da reißt, verliert Buy-Box und Account-Health. Otto Partner Connect bewertet Lieferpünktlichkeit als Service-Level-KPI mit direktem Einfluss auf die Händler-Sortierung in den Suchergebnissen. Plus: Wiederkehrende Käufer reagieren in DACH-Studien überdurchschnittlich auf Versanddauer — Studien (Forrester u. a.) zeigen, dass rund 44 % der Käufer Warenkörbe wegen Versandkosten oder fehlender Versand-Optionen abbrechen.

2. Cut-off-Time

Definition

Die Uhrzeit, ab der eingehende Aufträge nicht mehr am selben Werktag das Lager verlassen.

Benchmark DACH 2026

  • 12:00 — schwach, typisch bei kleinen 3PLs mit nur einer Spätschicht
  • 14:00 — unteres Mittelfeld, häufigster Standard in DACH
  • 16:00 — solide, anspruchsvoll in der Wellen-Steuerung
  • 17:00–18:00 — Top-Quartil, meist DHL-Cut-off ausgenutzt

GLS SameDay setzt Cut-offs bei einzelnen Anbietern bis 16:30. DHL nimmt in der Regel bis 17:30–18:00 ab, je nach Standort.

Was dein 3PL dir gerne zeigt

Die theoretische Cut-off. Vertraglich ist sie 16:00, real liegt der Mittelwert der letzten 30 Tage aber bei 14:20 — weil die Wellen-Planung das nicht trägt, weil eine Schicht krank war, weil der Drucker Probleme machte. Niemand zieht dir das Daumenschräubchen an.

Wie du es wirklich misst

Tatsächliche Cut-off = Mittlere Carrier-Übergabe-Zeit
                       der letzten 30 Werktage
                       (Quelle: Carrier-Scan-Log)

Du willst die p90-Cut-off sehen, nicht den Mittelwert. Der zeigt dir, wann 9 von 10 Tagen das Versandfenster geschlossen ist.

Was es kostet, wenn er es verfehlt

Jede Stunde späterer Cut-off ist ein CRO-Hebel. Same-Day-Versprechen auf der Produktdetailseite („Bestelle in den nächsten 2 Std 14 Min und erhalte morgen") wirkt nachweisbar auf Conversion-Rate und Warenkorb-Wert. Wer 14:00 hat, während der Wettbewerb 17:00 fährt, verliert in den Nachmittags-Stunden — und genau dort liegen 30–35 % der Umsätze.

3. Pick-Accuracy

Definition

Anteil der ausgehenden Aufträge, die exakt die bestellten Artikel in der richtigen Menge enthalten.

Benchmark DACH 2026

Industry-Standard liegt bei 99,5 % aufwärts; best-in-class bei 99,8–99,9 %. Wer dauerhaft unter 99 % läuft (also 1 Fehler je 100 Aufträge), hat ein strukturelles Prozess- oder Scan-Problem. Mehr als 35 % der Warehouses laufen real bei 1 % Fehler oder schlechter.

Was dein 3PL dir gerne zeigt

Die beschwerde-basierte Accuracy. Heißt: Es werden nur die Fälle gezählt, in denen ein Endkunde aktiv reklamiert hat. Erfahrungsgemäß meldet sich aber nur jeder dritte bis fünfte Kunde, wenn was fehlt — der Rest behält es, retourniert es kommentarlos, oder schickt es einfach ohne Beanstandung zurück. Die Dunkelziffer ist bei diesem Mess-Modell mindestens Faktor 2.

Wie du es wirklich misst

Stichproben-Audit am Outbound-Tor. Mindestens 100 zufällige Aufträge pro Woche werden vor der Carrier-Übergabe gegen den Lieferschein geöffnet und gegengecheckt. Ergebnis ist die echte Pick-Accuracy. Zweiter Hebel: Outbound-Wiegen — jeder Karton wird vor dem Etikett gegen das Soll-Gewicht aus dem ERP verglichen. Abweichung > 5 % löst Re-Check aus.

Was es kostet, wenn er es verfehlt

Reklamations-Bearbeitung kostet je Vorfall 8–18 € (Retouren-Porto, Wieder-Versand, Customer-Service-Zeit). Plus NPS-Effekt: Ein falsch gelieferter Auftrag senkt die Wiederkauf-Wahrscheinlichkeit deutlich. Bei einer Pick-Accuracy von 99,0 % statt 99,7 % zahlst du bei 200.000 Aufträgen/Jahr extra rund 14.000–32.000 € — und verlierst Kunden.

4. Inventory-Accuracy

Definition

Übereinstimmung zwischen WMS-Bestand und tatsächlichem, physischem Bestand.

Inventory-Accuracy = |SKUs mit korrektem Bestand|
                     / |alle gezählten SKUs|

Benchmark DACH 2026

Gute 3PLs erreichen > 99,5 %. Best-in-class liegt bei 99,9 %. Unter 97 % hast du keine planbare Verfügbarkeit mehr — jeder Out-of-Stock kann ein WMS-Geist sein.

Was dein 3PL dir gerne zeigt

Die Accuracy nur über die Top-50-SKUs, weil dort sowieso täglich kommissioniert wird und der Bestand sich quasi selbst korrigiert. Die Long-Tail (ABC-C-Klasse) wird einmal pro Jahr bei der Stichtagsinventur gegengezählt — dort liegen die echten Geister.

Wie du es wirklich misst

Cycle-Counting mit ABC-Klassifikation, separat ausgewiesen:

  • A-Klasse (top-20 % SKUs, 80 % Volumen): wöchentlich gezählt, Ziel > 99,8 %
  • B-Klasse: monatlich, Ziel > 99,5 %
  • C-Klasse (Long-Tail): quartalsweise, Ziel > 98 %

Du forderst ein monatliches Cycle-Count-Reporting pro ABC-Klasse. Wenn dein 3PL „99,7 % gesamt" meldet, aber keinen Split, weißt du, dass die C-Klasse drinnen ein Loch hat.

Was es kostet, wenn er es verfehlt

Phantom-Bestand führt zu Out-of-Stock-Verkäufen, die du erst beim Picken bemerkst — dann musst du dem Kunden absagen, was wieder auf deine Late-Shipment- und Cancellation-Rate schlägt. Amazon FBM verlangt < 2,5 % Pre-Fulfillment-Cancellation-Rate; wer das reißt, riskiert das Konto. Auf der anderen Seite: Geist-Überbestand, den du nicht weißt, ist totes Kapital. Bei 1.500 SKUs und 0,5 % Abweichung liegen schnell 30.000–80.000 € Working Capital im Limbo.

5. Damage-Rate (eingehend und ausgehend)

Definition

Anteil der Pakete, die mit physischem Schaden beim Endkunden ankommen — getrennt nach Carrier-Schaden (Transport) und Lager-Schaden (Pack-Fehler, Untersicherung).

Benchmark DACH 2026

  • Ziel < 0,3 % für Standard-eCommerce
  • DACH-Realität liegt bei 0,5–1,0 % je nach Karton-Mix und Carrier
  • Industrieweite E-Commerce-Damage-Raten liegen bei 1–3 %; in DACH typischerweise im unteren Bereich, weil das Carrier-Netz dichter und Hubs jünger sind

Was dein 3PL dir gerne zeigt

Nur die Carrier-Schäden, also Fälle, in denen der Carrier-Scan einen Schaden dokumentiert hat. Pack-Schäden („Glas in Bubble-Wrap statt Karton-im-Karton") werden meist gar nicht erfasst, weil sie als Endkunden-Reklamation reinkommen und im Customer-Service ohne 3PL-Feedback bearbeitet werden.

Wie du es wirklich misst

Zwei Datenquellen zusammenführen:

  1. Inbound-Inspection bei Wareneingang (eigener Foto-Dokumentations-Prozess)
  2. Endkunden-Reklamationen mit Foto, kategorisiert nach „Karton intakt, Inhalt kaputt" (= Pack-Fehler) vs. „Karton zerquetscht" (= Carrier)

Die Quote Endkunden-Schaden / versendete Aufträge ist deine echte Damage-Rate. Carrier-Anteil und 3PL-Anteil siehst du erst nach Kategorisierung.

Was es kostet, wenn er es verfehlt

Jeder Schadensfall kostet 12–35 € operativ (Ersatz-Versand, Entsorgung, Service-Zeit). NPS-Effekt: Ein zerbrochenes Produkt im Auspack-Moment ist die ungünstigste denkbare First-Impression einer DTC-Brand. Bei Beauty/Glas/Premium-Goods kann eine 1-%-Damage-Rate einen 6-stelligen NPS-Schaden pro Jahr bedeuten.

6. Return Turnaround Time (RTT)

Definition

Zeit vom physischen Eingang der Retoure im Lager bis zur Wieder-Einbuchung in den verkaufsfähigen Bestand.

Benchmark DACH 2026

  • Standard: < 3 Werktage
  • Premium / technologie-gestützt: < 1 Werktag, teilweise < 24 Stunden
  • Industrie-Realität: 3–5 Werktage Mittelwert bei klassischen 3PLs

Was dein 3PL dir gerne zeigt

Nur die „abgeschlossenen" Retouren — also die, die durch den kompletten Prüf- und Refurbish-Prozess durch sind. Was nicht gezeigt wird: Retouren, die im Triage-Stau hängen, weil keine klare Regel hinterlegt ist (z. B. „beschädigte Ware: zurück an Brand oder Entsorgung?"). Diese hängen wochenlang in Limbo.

Wie du es wirklich misst

RTT = Timestamp Wieder-Einbuchung im WMS
      - Timestamp Wareneingang Retoure-Annahme

Du willst die p90 RTT, nicht den Mittelwert. Die p90 zeigt dir, ab wann 9 von 10 Retouren wieder im Bestand sind.

Was es kostet, wenn er es verfehlt

Jeder Retouren-Tag im Limbo ist ein Tag Out-of-Stock-Risiko. Bei einer Brand mit 25 % Retourenquote und 5 Tagen RTT statt 1 Tag liegen permanent 15–20 % deines Bestands „in Bearbeitung" — Kapital, das nicht verkauft. Bei einem 800.000-€-Warenbestand sind das 120.000–160.000 €, die du in Working Capital bindest, ohne sie zu sehen.

7. Carrier-On-Time-Delivery (OTD) und OTIF

Definition

OTD: Anteil der Sendungen, die innerhalb des vom Carrier zugesagten Service-Versprechens beim Endkunden ankommen.

OTIF (On-Time-In-Full): Strengere B2B-Variante — pünktlich und vollständig.

Benchmark DACH 2026

  • DHL Paket Deutschland: Regellaufzeit 1–2 Werktage, OTD-Quote 92–96 %, je nach Region und Saison
  • GLS in europäischen Tests: ca. 93 % on-time
  • DPD in vergleichbaren Tests: niedriger, je nach Quelle 82–90 %
  • OTIF B2B-Benchmark: 95–98 % wird im Lebensmittelhandel und Retail erwartet; Walmart verlangt 98 % und sanktioniert Unterschreitung mit 3 % COGS-Pönale

Was dein 3PL dir gerne zeigt

„OTD 96 %" — basierend auf einer Definition, in der „pünktlich" 24 Stunden Toleranz auf den zugesagten Tag enthält. Mit dieser Definition wird aus Mittwoch-versprochen-Donnerstag-geliefert ein „on-time". Aus Sicht des Endkunden ist das Mist.

Wie du es wirklich misst

Carrier-Tracking-API in dein OMS einschleifen. Du vergleichst zugesagten Zustelltag (laut Service-Produkt des Carriers, nicht „Schätzung") gegen tatsächlichen ersten Zustellversuch. Strikte Definition. Plus: Ausweisung nach PLZ-Cluster, weil die Stadt-Land-Spreizung in DACH bis zu 8 Prozentpunkte ausmacht.

Was es kostet, wenn er es verfehlt

Amazon FBM-OTDR-Mindestschwelle liegt bei 90 % (Empfehlung 95 %, Buy-Box-Cutoff ~97 %); Seller-Fulfilled-Prime verlangt 93,5 % bei strikterem Versprechen. Wer das reißt, fliegt aus dem Prime-Status, was 25–40 % Umsatzeinbruch auf Amazon bedeuten kann. Im B2B-Großhandel kostet OTIF-Verfehlung bis zu 3 % COGS in Pönale (siehe Walmart-Standard, in Europa zunehmend von Metro, Rewe, Edeka übernommen).

8. Cost per Order (CPO) / Cost per Parcel (CPP)

Definition

Vollkosten je versendetem Auftrag, inklusive aller Komponenten: Pick, Pack, Storage, Surcharges, Material, Carrier, Retouren, IT-Onboarding-Pauschalen, Mindest-Mengen-Konventionalstrafen, Inventur-Kosten.

CPO = (Σ alle 3PL- und Carrier-Rechnungen eines Monats)
      / Anzahl Outbound-Aufträge im selben Monat

Benchmark DACH 2026

Typische Range 6,50–11,00 € pro Auftrag für Standard-Ware bei mittleren Volumen (10.000–50.000 Pakete/Monat). Details im 3PL-Kostenvergleich DACH 2026. Unterhalb von 6 € ist meist nur erreichbar mit Vollautomatisierung, geringen Surcharges oder einem nicht-DACH-Standort. Oberhalb 11 € hast du entweder kleines Volumen, schweres Sortiment oder einen Premium-3PL.

Was dein 3PL dir gerne zeigt

Den „Basispreis pro Pick" — also 0,90 €. Sieht günstig aus. Was fehlt: Storage, Etikettierung, Stretchfolie, Multi-Item-Surcharge, Retouren-Bearbeitung, IT-Monthly, Mindest-Volumen-Abrechnung, Peak-Aufschläge, Carrier-Surcharges (Treibstoff, Maut, Insel, Großstadt). In der Summe macht das den echten CPO mal eben um 60–120 % höher als der Schaufenster-Preis.

Wie du es wirklich misst

Monatliche Reconciliation. Du nimmst:

  1. Alle 3PL-Rechnungen des Monats
  2. Alle Carrier-Rechnungen für den gleichen Zeitraum (Achtung: Stichtag-Versatz; Carrier rechnen oft Mitte-zu-Mitte ab)
  3. Verbrauchsmaterial (Kartons, Tape, Füllmaterial — entweder über 3PL oder eigener Einkauf)
  4. IT/Onboarding-Pauschalen pro 12 Monaten umgelegt

Teilst du durch Outbound-Auftragsanzahl. Das ist dein CPO. Alles andere ist Marketing-Material.

Was es kostet, wenn er es verfehlt

Die einzige Zahl, die für deine GuV zählt. Wenn dein CPO 0,80 € über Benchmark liegt, sind das bei 150.000 Aufträgen 120.000 € EBIT-Verlust pro Jahr — direkt, ohne Umweg. Du finanzierst die Ineffizienz deines 3PLs aus deiner Marge.

Bonus: KPIs, die dein 3PL nicht freiwillig zeigt

Vier KPIs, die in keinem Standard-Reporting auftauchen, weil sie dem 3PL unangenehme Fragen einbringen. Du solltest sie trotzdem fordern:

  • First-Pass-Yield (FPY). Anteil der Aufträge, die ohne Re-Pick, Re-Pack oder Korrekturlauf direkt verschickt werden. Ziel > 98 %. Niedrige FPY-Werte zeigen dir Prozess-Lücken, die in Pick-Accuracy noch nicht sichtbar sind — weil intern korrigiert.
  • Storage-Auslastung pro Lagertyp. Wie voll sind deine Fachgrößen? Wenn 70 % deiner SKUs in „L"-Fächern liegen, aber nur 30 % Volumen brauchen, zahlst du dauerhaft 40 % Überbemaßung.
  • KAM-Reaktionszeit (Eskalations-Hotline). Stunden zwischen Mail-an-KAM und qualifizierter Antwort. Standard sollte < 4 Std sein. Real: oft 24–48 Std. Diese KPI sagt dir, wie ernst du als Kunde genommen wirst.
  • Order-to-Ship-Cycle-Time-Distribution. Nicht Mittelwert, sondern Verteilung (p50, p90, p99). Der Mittelwert lügt: Wenn 95 % in 2 Std rauslaufen und 5 % in 36 Std, sieht der Mittelwert harmlos aus — aber genau diese 5 % sind deine Customer-Service-Tickets.

Wie du die KPIs durchsetzt

Vier Hebel — keine Diskussion, kein „best effort":

  1. KPI-Anhang im Vertrag. Jeder KPI mit Schwellenwert, Mess-Methode, Datenquelle und Mess-Frequenz. Nicht „Pick-Accuracy hoch", sondern „Pick-Accuracy gemessen per Outbound-Stichproben-Audit, > 99,5 %, monatlich gemeldet".
  2. Pönalen ab erster Unterschreitung. Standard sind 5–15 % des Monats-Pick&Pack-Volumens bei Unterschreitung von > 1 Schwelle. Wichtig: Pönalen müssen netto sein, also nicht durch Surcharge-Mehrerlös des 3PLs kompensierbar.
  3. Monatliches Reporting statt Quartal. Quartalsweise siehst du Probleme erst 90 Tage nach dem Ereignis. Monatlich kannst du eingreifen, bevor es chronisch wird.
  4. Dashboard-Zugang statt PDF. PDFs sind aufgehübschte Snapshots. Du willst Read-Only-Zugriff zum WMS-Reporting-Layer oder ein Live-Dashboard (Looker, Power BI). Wer dir den verweigert, hat etwas zu verbergen.

Schluss: Die echten KPIs ändern die Konversation

Wenn du diese 8 (plus 4 Bonus) in deinen Vertrag schreibst und monatlich gegen Benchmarks hältst, verschiebt sich das Machtverhältnis zwischen dir und deinem 3PL. Du bist nicht mehr der Kunde, der eine quartalsweise PDF entgegennimmt und nickt — du bist die operative Instanz, die weiß, was sie misst.

Das mag sich anstrengend anhören. Ist es auch. Aber zwischen einem 3PL, der seine Zahlen liefert, und einem, der dich mit grünen Ampeln einschläfert, liegen am Ende des Jahres sechsstellige EBIT-Beträge.


Brauchst du jemanden, der die Zahlen mit dir liest? Ich mache Quartals-Reviews deiner KPIs im Sparring-Retainer — wir nehmen jedes Monatsreporting auseinander, identifizieren die geschönten Stellen und schreiben dir die Fragen, die dein KAM nicht beantworten will.

Wenn der Verdacht da ist, dass dein 3PL strukturell unterperformt, ist das Fulfillment-Audit der richtige Hebel: 4 Wochen, Daten-Tiefenanalyse, klarer Befund mit Verhandlungsmunition.

ALLES ZUSAMMEN · ÜBER 50 SEITEN

Was die Branche nicht laut sagt — als PDF.

Der Artikel hier ist ein Snapshot. Der Guide bringt 23 Klauseln in einem Dokument zusammen, jede mit Wortlaut, Klartext und Gegenvorschlag.

Double-Opt-In: Du bekommst zuerst eine Bestätigungs-Mail. Erst nach Klick auf den Link wird der Guide zugeschickt. Deine E-Mail wird ausschließlich zum Versand des Guides und gelegentlicher Updates verwendet. Abmeldung jederzeit möglich.

Du zahlst zu viel
für dein Fulfillment.

Ich kann dir genau sagen, wo. 15 Minuten kostenlos. Kein Sales-Pitch. Nur ehrliche Einschätzung.

Termin buchen →