Voraussetzungen für Sprachübertragung in IP-Netzen

Die Wiederentdeckung der Qualität

05.07.2002
Die Akzeptanz von Voice over IP steht und fällt mit der Qualität der Sprachübertragungen. Anwender müssen wissen, welche Parameter hierbei eine Rolle spielen und wie man diese vor der Implementierung und während des Betriebs überprüfen kann. Von Olaf Zäncker*

Netzwerker werfen Sprachübertragungen nur zu gerne mit anderen geschäftskritischen Anwendungen in einen Topf. Dabei übersehen sie die Besonderheiten einer solchen isochronen (iso = gleich, chronos = Zeit) Applikation. Zwar hat sich mittlerweile die Erkenntnis durchgesetzt, dass man IP-Netzwerke vor Einführung von Voice over IP (VoIP) messtechnisch untersuchen soll, jedoch sind die hierzu verwendeten Methoden oft nicht dazu geeignet, wirklich aussagekräftige Ergebnisse zu erzielen.

Doch was kann beziehungsweise sollte überhaupt gemessen werden? Bei einigen Herstellern beginnt die immer wieder betonte Offenheit bereits bei der Definition der Voraussetzungen, die ein Netz erfüllen muss, um Sprachübertragungen überhaupt zu ermöglichen. Angaben wie "fünf Prozent Packet Loss" oder "30 Millisekunden Jitter" lassen völlig offen, was hier eigentlich gemeint ist.

Eine der entscheidenden Größen für die Akzeptanz einer Sprachverbindung ist die Verzögerung bei der Übertragung, das so genannte End-to-End-Delay. Um die Einhaltung des in diesem Zusammenhang häufig zitierten ITU-T-Grenzwertes von 150 ms zu testen, werden in der Regel ICMP-Pings (Internet Control Message Protocol) benutzt. Natürlich liefert dies einen Wert für eine gegebenfalls sogar sehr gute Laufzeit. Dieser bezieht sich aber eben nur auf diese speziellen Pakete, und es darf zu Recht bezweifelt werden, dass sich ein IP-Netz bei einem kontinuierlichen, isochronen Bombardement mit Sprachpaketen (RTP-Protokoll) genauso verhält wie bei einem kurzen Ping.

Selbst Switches stoßen irgendwann an ihre Leistungsgrenze. Daher lautet die Schlussfolgerung bereits an dieser Stelle: Eine verbindliche Aussage zur VoIP-Sprachqualität auf Basis eines auf diese Weise ermittelten Delay-Snapshots ist zwangsläufig ungenau. Weitaus aussagekräftiger ist der zeitliche Delay-Verlauf während einer Sprachverbindung.

Spezialfall Sprachübertragung

Sind aufgrund der Verwendung des TCP-Protokolls Paketverluste bei reinem Datenverkehr relativ unkritisch, sollten VoIP-Übertragungen grundsätzlich verlustfrei erfolgen.

Ein einfaches Rechenexempel schafft hier Klarheit über tolerierbare Verlustraten. Je nach eingesetztem System und Codec liegen die zeitlichen Abstände zwischen einzelnen VoIP-Paketen (Zwischenpaketzeit) ungefähr im Bereich von 20 ms bis 72 ms, was einer Übertragungsrate von 50 beziehungsweise 14 Paketen pro Sekunde entspricht. Nimmt man auf Grund fehlender Herstellerangaben an, dass sich der oben erwähnte Wert von fünf Prozent Packet Loss auf ein (nur!) einminütiges Gespräch bezieht (also 150 beziehungsweise 42 Pakete umfasst), resultiert daraus immerhin schon eine Unterbrechung (Drop-out) der Sprachverbindung von drei Sekunden, sofern der Paketverlust en bloc auftritt.

Die meisten Codecs hingegen tolerieren durchaus das Fehlen einzelner Pakete, also einen gleichförmigen Paketverlust. Auch hier ist somit der wirkliche zeitliche Verlauf des Packet Loss der dubiosen, ohne Bezugsgröße völlig wertlosen Angabe einer Prozentzahl vorzuziehen.

Sprache im Datenkorsett

Noch fragwürdiger sind Kalkulationen der Bandbreite, die vorgeben, mittels einfacher Division von verfügbarer (zum Beispiel 100 MBit/s) und benötigter (zum Beispiel zirka 180 Kbit/s bei Verwendung von G.711) Bandbreite die Anzahl maximal möglicher gleichzeitiger Verbindungen ermitteln zu können. Neben der Tatsache, dass dem Ethernet ein nichtdeterministisches Übertragungsverfahren zu Grunde liegt und das Medium bekanntlich nicht bis zur nominellen Bandbreite nutzbar ist, wird hier erneut der besondere Charakter des isochronen Verkehrs in Opposition zu der endlichen Netzwerkleistung ignoriert.

Zwar sorgen Effekte wie das VoIP-Bandwidth-Grabbing eher für eine Benachteiligung des Datenverkehrs gegenüber der Sprache; jedoch sind Berechnungen dieser Art auch vor dem Hintergrund einer stochastischen Verteilung der Kommunikationsströme definitiv ungeeignet.

Bliebe noch der Jitter, der - wenn überhaupt - mit Angaben wie zum Beispiel "30 ms" beschrieben wird. Da es sich beim Jitter um die Abweichung von der Isochronität oder, anders ausgedrückt, um die Varianz der Zwischenpaketzeiten einer VoIP-Übertragung geht, kann man gerade noch interpretieren, dass hiermit ein Bereich von 30 ms für den Unterschied zwischen minimaler und maximaler Zwischenpaketzeit gemeint ist. Es ist jedoch unklar, auf welchem Niveau die Schwankung von 30 ms stattfinden darf und wie häufig diese maximale Schwankung auftritt.

Damit aus Jitter kein Drop-out wird

Ruft man sich die VoIP-typischen Zwischenpaketzeiten von zirka 20 bis 72 ms in Erinnerung, schlagen die 30 ms schon sehr unterschiedlich zu Buche. Und was die Häufigkeit der Schwankung angeht, ist leicht nachvollziehbar, dass ein einmaliger Jitter (natürlich innerhalb der zulässigen Toleranzen) wohl eher für ein stabiles und damit für VoIP geeignetes IP-Netz spricht als ständig wechselnde Zwischenpaketzeiten. Im letzteren Fall ist es häufig nur eine Frage der Zeit, bis die Grenze von 30 ms dann tatsächlich einmal überschritten wird und es somit zu den gefürchteten Drop-outs bei der Sprachverbindung kommt.

Der Tatsache, dass in einem Best-Effort-IP-Netzwerk nicht notwendigerweise von einer streng isochronen Übertragung aller Sprachpakete ausgegangen werden kann, wurde bereits in der Empfehlung H.323 der ITU-T Rechnung getragen. Sie sieht auf der Empfängerseite einen Jitter-Buffer vor, der Pakete zwischenspeichert und so in der Lage ist, Schwankungen bei der Paketlauf- beziehungsweise der -ankunftszeit auszugleichen. Allerdings handelt es sich hierbei um eine Kompromisslösung, denn die Robustheit gegenüber dem allgegenwärtigen Jitter wird mit einer zusätzlichen Verzögerung (Delay) erkauft.

Eine ernst zu nehmende Bewertung der VoIP-Sprachqualität sollte daher unter Berücksichtigung der folgenden Kriterien erfolgen:

- Test mit echten Sprachübertragungen (RTP-Pakete)

- Messung der Zeitstempel aller Sprachpakete

- Berücksichtigung des zeitlichen Parameterverlaufes statt der Verwendung von Durchschnitts- und Maximalwerten

- Sorgfältige Planung von Ort und Zeit der Messung.

Logischerweise sollte das verwendete Mess-Equipment in Bezug auf die zeitliche Auflösung mindestens eine Größenordnung besser sein als das erwartete Zeitraster. Gute praktische Erfahrungen wurden mit einer Genauigkeit von zehn Mikrosekunden erreicht, die auf dem Markt verfügbare Analyzer unterstützen.

Während man sich die kontinuierliche Bestimmung und Darstellung sowohl des End-to-End-Delays aller an einer Verbindung beteiligten RTP-Pakete als auch des Paketverlustes im zeitlichen Verlauf ebenso leicht vorstellen wie interpretieren kann, weist die Jitter-Analyse einige neue, im Hinblick auf die VoIP-Sprachqualität äußerst aussagefähige Aspekte auf. Ihnen sollte etwas mehr Aufmerksamkeit geschenkt werden.

Faktor Zwischenpaketzeit

Jedes VoIP-System sendet abhängig vom Grad der Sprachkomprimierung, also je nach verwendetem Codec, die Sprachpakete mit einer systemtypischen Datenrate, beispielsweise im Abstand von 35 ms, aus. Auf der Empfängerseite hingegen variieren die Zwischenpaketzeiten unter dem Einfluss der Übertragung selbst in Switched Networks mehr oder weniger stark. Dabei ist neben der konkreten Ausprägung der Varianz der RTP-Zwischenpaketzeiten auch von Interesse, ob und wie häufig dabei Werte oberhalb eines für den Receiverbuffer nicht mehr kompensierbaren Limits aufgetreten sind.

Leider können weder Maximal- und Durchschnittswerte noch die Standardabweichung diesen Sachverhalt zufrieden stellend beschreiben. Abhilfe schafft hier nur die auch als RTP-Jitter-Histogramm bezeichnete Häufigkeitsverteilung der RTP-Zwischenpaketzeiten. Sie vereint die Vorteile einer überblicksmäßigen Darstellung und der präzisen, jeden Wert berücksichtigenden und damit absolut unverfälschten Detailanalyse.

Ein ideales IP-Netzwerk würde die Sprachpakete in immer gleichbleibendem Abstand übertragen, sodass im genannten Beispiel nur Zwischenpaketzeiten von 35 ms aufträten. Das Histogramm würde hierfür bei 35 ms eine senkrechte Linie der Höhe 100 Prozent ausweisen. Messungen in realen IP-Netzen ergeben jedoch immer Streuungen (Varianz) um diesen Idealwert herum.

Analyse per Histogramm

Zur Darstellung selbst kleinster Werte empfiehlt sich dabei die logarithmische Teilung der y-Achse (Häufigkeit). Weist nun das Histogramm Unregelmäßigkeiten auf, so können im nächsten Schritt der konkrete zeitliche Verlauf der Zwischenpaketzeiten betrachtet und eine Korrelation zu anderen Ereignissen im Netzwerk hergestellt werden. Die (verlustfreie) Darstellung des zeitlichen Verlaufes der RTP-Zwischenpaketzeiten lässt sich zur Visualisierung unterschiedlichster Aspekte quasi beliebig modifizieren.

Ordnet man zum Beispiel den beiden an einer VoIP-Verbindung beteiligten Teilnehmern je einen diskreten Wert auf der y-Achse zu (die x-Achse repräsentiert hierbei den Zeitstrahl) und markiert die Zeitstempel der gemessenen RTP-Pakete auf den entsprechenden, durch die beiden diskreten Werte gebildeten virtuellen Waagerechten, so erhält man nach Verbinden der Markierungen in zeitlich aufsteigender Reihenfolge das so genannte Kommunikationsmuster.

Im Falle der idealen, ungestörten Verbindung ergibt sich eine gleichmäßiges Zick-Zack-Muster. Störungen, also sowohl hörbare Paketverluste als auch latente, gerade unterhalb der subjektiven Wahrnehmungsschwelle beziehungsweise der Größe des Receiver-Buffers befindliche Diskontinuitäten, sind somit direkt erkennbar.

Eine weitere wirkungsvolle Methode betrachtet die intervallbezogene Abweichung der prozentualen Differenz bidirektionaler RTP-Paketanzahlen. In Analogie zu den in allen spektralen Bereichen durchgeführten Satellitenmessungen der Erdoberfläche ergibt sich somit ein sehr vollständiges, wirklichkeitsgetreues Framework für reproduzierbare Messungen der VoIP-Sprachqualität. Auch unter Verzicht auf Lastgeneratoren lässt sich somit die Qualität realer Sprachverbindungen absolut nebenwirkungsfrei bestimmen.

Messungen mehrfach wiederholen

Bliebe letztlich noch die Planung der Messung. Es liegt auf der Hand, dass die Messzeitpunkte repräsentativ in Bezug auf die wechselnden Lastsituationen im zu untersuchenden IP-Netzwerk sein müssen. Das erfordert unter Umständen wiederholte Messungen zu unterschiedlichen Tageszeiten und Wochentagen. Bewährt haben sich dabei Messsequenzen von jeweils mindestens 30 Minuten Dauer.

Die physikalische Ankopplung des Mess-Equipments erreicht man am besten über die Mirror-Ports der IP-Switches. Damit lassen sich gleichzeitig auch Störungen der bei einigen Herstellern über das Netzwerkkabel eingespeisten Versorgungsspannung für IP-Telefone vermeiden.

Eine nach diesen Gesichtspunkten ausgeführte punktuelle Messung liefert bereits gute Ergebnisse. Deren Aussagekraft lässt sich durch synchrone Messungen (Differentialmessung) an den beiden Enden eines Übertragungskanals noch deutlich steigern. In diesem Fall kann der (negative) Beitrag des IP-Netzwerkes zur Sprachqualität unmittelbar abgelesen werden.

Kontinuierliche Überwachung wichtig

Eine VoIP-Analyse sollte nicht nur dann zur Fehlersuche eingesetzt werden, wenn ein akutes Problem vorliegt. Vielmehr empfiehlt sich besonders bei größeren Installationen eine kontinuierliche Überwachung (Baselining) der Qualität der VoIP-Übertragungen. Insbesondere wenn der Einsatz einer konvergenten Lösung unmittelbar bevorsteht, ist es im Hinblick auf die Akzeptanz von Vorteil, die VoIP-Fähigkeit des vorhandenen IP-Netzwerkes bereits im Vorfeld zu testen.

Hierzu bietet sich entweder eine kleine VoIP-Testinstallation oder die Verwendung eines VoIP-Lastgenerators an. In Letzterem ist hardwarebasierenden Systemen eindeutig der Vorrang einzuräumen. Mit diesen lassen sich verfälschende Störeinflüsse, wie sie bei PC-basierten Lösungen auftreten und die verlässliche Aussagen unmöglich machen können, von vornherein ausschließen.

Außerdem können mit Hilfe von genormten Audiosamples auf rechenintensiven mathematischen Algorithmen beruhende Vergleiche vorgenommen werden. Dabei wird die Qualität der Samples am Anfang und jene am Ende eines Übertragungskanals miteinander in Beziehung gesetzt. Die jeweils in den Endgeräten vorhandenen Codecs werden hierbei mit berücksichtigt. Im Gegensatz dazu besticht die hier vorgestellte Methode durch ihre Einfachheit. Alle Analysen erfolgen mittels Timestamps quasi auf "physikalischem" Paket-Level, also dort, wo bisherigen Erfahrungen zufolge Störungen am häufigsten sind.

Allerdings gibt es auch eine Randbedingung: Die Sichtbarkeit der RTP-Pakete erfordert zwingend, dass Silence Suppression (sofern überhaupt vorhanden) zumindest für die Dauer der Messung deaktiviert wird.

Allerdings darf nicht vergessen werden, dass auch eine systematische Analyse kein Garant für eine gute Sprachqualität von VoIP-Systemen ist. IP-Netzwerke arbeiten immer noch nach dem Best-Effort-Prinzip, allerdings können sorgfältige Tests das Fehlerrisiko so weit minimieren helfen, dass kaum noch Störungen auftreten sollten.

Letztlich spielt es jedoch keine Rolle, ob man zur Sicherstellung der Sprachqualität persönlich eher auf ausreichend Bandbreite oder die Priorisierung der Sprachpakete setzt - wichtig ist neben niedrigen Delay- und Packet-Loss-Werten eigentlich nur eines: Isochronität. (ave)

*Olaf Zäncker ist Leiter des Center of Competence (COC) Application Design Siemens ICN in Hamburg.

Abb: Qualitätsanalyse per Kommunikationsmuster

Bei idealer, ungestörter VoIP-Kommunikation ergibt ein Histogramm der Paketlaufzeiten ein gleichmäßiges Muster. Quelle: Zäncker