Wussten Sie schon… wie man Wörter zählt?

Immer wieder kommt es vor, dass uns Kunden fragen, wie eigentlich die Wörteranzahl berechnet wird, die auch die Grundlage für Angebote und Rechnungen bildet. Häufig haben diese Kunden selbst nachgerechnet und sind zu abweichenden Ergebnissen gekommen. Warum? Wir bringen ein wenig Licht in dieses komplexe Thema.

Es wäre natürlich am einfachsten, wenn man nur die Ausgangstexte in eine Word-Datei kopieren müsste. Dort kann man sich die Zahl der enthaltenen Wörter direkt anzeigen lassen. Aber so einfach ist es nicht. Für eine korrekte Zählung muss der Ausgangstext nämlich mit früheren Übersetzungen abgeglichen werden.

Kosten sparen durch “Übersetzungs-Recycling”

Abgeschlossene Übersetzungen werden bei Eurotext in einem Translation Memory – einem Übersetzungsspeicher – gespeichert. Diese lernende Sprachdatenbank ermöglicht es, Übersetzungen bei späteren Projekten wieder zu verwenden. Um mit den Texten möglichst effizient arbeiten zu können, werden sie dabei in der Datenbank nicht als komplette Dokumente oder gar einzelne Wörter gespeichert, sondern werden in kleinstmögliche Sinneinheiten, sogenannte Segmente zerlegt. Ein Segment kann ein einzelner Satz sein, aber auch eine Überschrift, ein Aufzählungspunkt in einer Liste oder der Inhalt einer Tabellenzelle. Ein Beispiel für ein solches Segment ist “Batterien sind im Lieferumfang nicht enthalten”.

Wenn ein neuer Text übersetzt werden soll, wird dieser zuerst mit den gespeicherten Segmenten abgeglichen. Findet die Software im Translation Memory ein passendes Segment, dann muss dieses nicht erneut übersetzt werden. Und der Kunde muss dafür natürlich auch nicht noch einmal den vollen Preis bezahlen.

Geringe Abweichung, hohe Qualität

Aber was bedeutet “passendes Segment”? Hier kommt moderne Übersetzungstechnologie ins Spiel und vergleicht die Segmente anhand verschiedener Kriterien. Dabei werden nicht nur die Buchstaben berücksichtigt, sondern auch Text-Formatierungen oder andere Meta-Informationen. Also ob z. B. ob es sich um eine Überschrift handelt, bestimmte Wörter fett gedruckt sind, ob sie mit Links versehen sind etc.

Nehmen wir an, unser Beispiel “Batterien sind im Lieferumfang nicht enthalten” wurde in einem früheren Dokument bereits übersetzt. Wenn sich exakt der gleiche Satz auch in dem neuen Text findet, handelt es sich um einen sogenannten 100%-Treffer oder 100%-Match.

Übrigens: Auch ein 100%-Treffer muss vom Übersetzer sicherheitshalber geprüft werden. Denn auch wenn das Segment völlig identisch ist, könnte es sein, dass es in einem anderen Kontext steht und die Übersetzung daran angepasst werden muss. Die Software prüft deshalb nicht nur das jeweilige Segment, sondern auch die Segmente davor und danach. Wenn auch die beiden identisch sind, handelt es sich um einen sogenannten 101%-Treffer.

Aber was, wenn das Segment nicht exakt passt? Wenn der Satz z.B. “Batterien sind nicht im Lieferumfang enthalten” lautet. Also die gleichen Wörter, aber in minimal anderer Reihenfolge.

In diesem Fall berechnet die Software, wie groß die Abweichung ist, also das sogenannte Delta. Daraus wird das Gegenteil, also die Trefferquote errechnet. Diese wird in Prozent ausgegeben, z.B. 95%. Je höher die Trefferquote, desto höher ist die Wahrscheinlichkeit, dass die vorhandene Übersetzung verwendet werden kann. Bei diesem Beispiel klappt das problemlos, die kleine Änderung in der Satzstellung ändert nichts an der Aussage, die Übersetzung bleibt gleich.

Formaler Treffer, inhaltlicher Flop

Aber eine hohe Trefferquote stellt keine Garantie für eine korrekte Übersetzung dar. Nehmen wir die beiden Beispiele “Batterien im Lieferumfang nicht enthalten” und “Batterien sind im Lieferumfang enthalten”.

In beiden Fällen ist der Unterschied zum alten Text nur ein Wort. Beim ersten fehlt das “sind”, beim zweiten das “nicht”. Die formale Abweichung ist also sehr gering und rein rechnerisch fast identisch. Inhaltlich sieht es aber ganz anders aus: Die vorhandene Übersetzung wäre im ersten Fall korrekt, im zweiten komplett falsch. Aus diesem Grund müssen auch gute Treffer stets von einem Fachübersetzer geprüft und ggf. korrigiert werden.

Kommen wir wieder zurück zum eigentlichen Thema Wörterzählung: Wie wirken sich die verschiedenen Trefferquoten darauf aus? Werden 90%-Treffer zu 90% mitgezählt?

Nein. Stattdessen sortiert die Software die Segmente nach Trefferquote. Erst dann werden die Wörter der betreffenden Segmente gezählt. In der Auswertung findet sich die Wörterzahl dann aufgeschlüsselt für alle Segmente mit der gleichen Trefferquote.

Die Analyse sieht dann z.B. so aus:

Für jeden Trefferbereich gibt es entsprechende Preise. Neuübersetzungen werden voll berechnet, Wörter mit einer hohen Trefferquote nur teilweise und “Volltreffer” unter Umständen gar nicht. Für das Angebot oder die Rechnung muss die Anzahl der Wörter nur noch mit den passenden Wortpreisen multipliziert werden. Fertig.

Fazit

Moderne Technologien haben Übersetzungen deutlich einfacher, schneller und auch günstiger gemacht. Im Bereich der Wörterzählung aber auch etwas komplexer. Für den Kunden ist deshalb nicht immer auf den ersten Blick nachvollziehbar, wie diese Zahlen zustanden kommen. Wir hoffen, wir konnten trotzdem für ein bisschen Klarheit sorgen.

Weitere Infos zu Translation Memorys:

Autor: Eurotext Redaktion

Wir erklären, wie Internationalisierung funktioniert, geben Tipps zu Übersetzungsprojekten und erläutern Technologien und Prozesse. Außerdem berichten wir über aktuelle E-Commerce-Entwicklungen und befassen uns mit Themen rund um Sprache.

Mit unseren Newsletter bleiben Sie stets gut informiert!

Jetzt abonnieren