Eine Flut neuer Computerviren erfordert neuartige "Fahndungsmethoden"

Neuronale Netze auf der Jagd nach Computerviren

22.03.1991

Die Zahl der bekannten Computerviren nimmt ständig zu. Sie ist allein für MS-DOS in den letzten zwei Jahren auf derzeit über 300 gestiegen. Ein Ende dieser Entwicklung ist nicht abzusehen. Im Gegenteil, gerade in jüngster Zeit tauchen immer mehr Viren aufs, insbesondere auch aus den Ostblock-Staaten und den neuen Bundesländern. Dabei ist eine beunruhigende Tendenz erkennbar: Die Viren werden vor allem "intelligenter" und gefährlicher.

Einige Virenprogrammierer haben mächtige Selbstschutzmechanismen für ihre Viren entwickelt. Die wichtigsten Mechanismen, die Virenprogrammierer benutzen, um zu verhindern, daß ihre Schöpfungen entdeckt werden, bevor sie Schaden anrichten können,

oder um eine Analyse des Virencodes zu erschweren, sind:

- Selbstverschlüsselung des Programmcodes,

- Selbstmodifikation (Mutation) bei der Reproduktion,

- gezielte Veränderungen bekannter Virenstämme durch Manipulationen des Codes.

Wir wollen im folgenden zeigen, wie es mit Methoden der künstlichen Intelligenz, insbesondere mit neuronalen Netzwerken, möglich ist, Viren trotz dieser Schutzmechanismen aufzuspüren und damit unschädlich zu machen.

Die KI-Forscher haben früh begonnen, wichtige kognitive Fähigkeiten des Gehirns zu simulieren. Die ersten Versuche gab es bereits in den vierziger Jahren. Heute ist man soweit, daß man einige rudimentäre Leistungen des Gehirns (wie zum Beispiel gewisse Formen des Lernens und das assoziative Speichern von Informationen) durch spezielle Programme simulieren kann. Um zu verstehen, wie dies möglich ist, muß man sich den Aufbau des Gehirns verdeutlichen.

Unser Gehirn ist zirka 1,5 Kilogramm schwer und besteht aus etwa 10 Milliarden Nervenzellen, den sogenannten Neuronen, die mit kleinen, einfachen Prozessoren vergleichbar sind. Jede dieser Nervenzellen ist mit jeweils 1000 bis 10 000 anderen Nervenzellen direkt verbunden. Das Gehirn entspricht damit quasi einem äußerst komplexen Netz von Prozessoren. Durch die hochgradige Vermaschung der Neuronen und die gleichzeitige parallele Verarbeitung von Informationen in Millionen von Neuronen erhält das Gehirn eine unglaubliche potentielle Rechenleistung.

Neuronale Netze: Modelle des Gehirns im Computer

Die einzelnen Neuronen des Gehirns sind relativ leicht zu simulieren. Sie können im wesentlichen durch einfache nicht lineare Funktionen mit nachgeschalteten Schwellenwertfunktionen beschrieben werden. Ein Neuron "summiert" die Signale, die es von anderen Neuronen erhält, transformiert sie und prüft nach, ob die eingegangenen Signale in ihrer Intensität und Frequenz einen bestimmten Schwellenwert übersteigen. Ist dies der Fall, sendet es ein Signal an die Neuronen aus, mit denen es in Verbindung steht. Andernfalls sendet es kein Signal aus.

Eine wesentliche Eigenschaft unseres Gehirns ist seine Lernfähigkeit. Diese Fähigkeit läßt sich biologisch auf gewisse Veränderungen an den Schnittstellen der Verbindungen zwischen den Neuronen, Synapsen genannt, zurückführen. DV-technisch kann der Lernprozeß dadurch simuliert werden, daß den Verbindungen zwischen den Neuronen sogenannte Gewichte zugeordnet werden. Diese Gewichte werden beim Lernen, je nach Netzwerkmodell, nach einem bestimmten Algorithmus über die Zeit verändert. Ist der Lernprozeß abgeschlossen, bleiben die Gewichte in der Regel stabil und werden nicht mehr verändert.

Unser Gehirn ist in der Lage, Informationen zu speichern. Diese Fähigkeit nennt man Gedächtnis. Neben vielen interessanten Eigenschaften des Gedächtnisses ist für uns hier jedoch nur von Bedeutung, daß das Gehirn auch dann fähig ist, Informationen wieder hervorzubringen - sich zu erinnern wenn der aktuelle Reiz (Input) wesentlich von dem verschieden ist, der eventuell vor langer Zeit zur Speicherung der Information geführt hat.

Wir erinnern uns zum Beispiel an eine Person, wenn wir nur ihren Namen hören, oder wir erkennen eine Person wieder, das heißt, wir rufen ihr Bild aus dem Gedächtnis ab, selbst dann, wenn die Person sich im Laufe der Jahre stark verändert hat (sie ist älter geworden, rundlicher und hat weniger Haare auf dem Kopf).

Wenn wir beispielsweise an einer Gaststätte vorbeigehen und den Geruch einer Speise wahrnehmen, können wir allein aufgrund dieser Teilinformation aus dem Gedächtnis die Vorstellung der Speise abrufen, die normalerweise zu diesem Geruch gehört. Das gleiche passiert auch, wenn uns ein Parfumduft an eine verflossene Bekanntschaft erinnert, oder wenn wir, etwas weniger angenehm berührt, erraten, was unser Nachbar gestern gegessen hat (Knoblauch!).

Ein Speichersystem, das nach den gleichen Prinzipien wie das Gehirn arbeitet, nennt man einen verteilten inhaltsadressierbaren Assoziativspeicher. Bei einem solchen Assoziativspeicher werden Informationen nicht mehr wie in herkömmlichen Computern an einer bestimmten Speicheradresse abgelegt, über die dann auch der Zugriff auf diese Information erfolgt.

Die Information in einem Assoziativspeicher wird in den Gewichten der Verbindungen zwischen den Neuronen verteilt und nicht lokal an einer Stelle abgelegt. Der Zugriff auf die Information ist kein rein passiver Prozeß des Abholens von Daten an einer Adresse, sondern ein aktiver Prozeß.

Will man eine Information abrufen, muß man an den Assoziativspeicher die aktuelle Teilinformation anlegen; der Speicher produziert dann bei der Weiterleitung und Verarbeitung der Information durch (...) Neuronen und deren Verbindungen einen Output. Dieser Output ist die mit dem Input assozierte Information.

Assoziativspeicher auf der Basis neuronaler Netzwerke haben einige wichtige Eigenschaften:

- Sie können Informationen abrufen, auch wenn der dazugehörige Input unvollständig ist.

- Sie sind in der Lage, Informationen zu vervollständigen.

- Sie können Informationen wiederfinden, auch wenn der dazu gehörende Input teilweise verändert oder zerstört ist.

Gerade die letzte Eigenschaft, Informationen mit zerstörten oder veränderten Input-Informationen korrekt zu assoziieren, in Verbindung mit der Lernfähigkeit neuronaler Netze, macht Assoziativspeicher zu mächtigen Hilfsmitteln bei der Suche nach Computerviren.

Hopfield hat 1982 ein interessantes Modell vorgeschlagen, das später nach ihm benannte Hopfield-Modell, das sich an die Theorie der Spingläser anlehnt. Dieses Modell arbeitet als binärer Assoziativspeicher mit symmetrischen Gewichten und Rückkoppelung. Die gespeicherten Muster können in diesem Modell durch Minima einer Energiefunktion beschrieben werden. Schaltet man einem Hopfield-Netz noch eine Funktion nach, die das Einschwingen des Netzes in unzulässige Nebenminima der Energiefunktion verhindert (simulated annealing), so besitzt ein Hopfield-Netz hervorragende Assoziationsfähigkeiten.

Neuronale Netze können Computerviren entlarven

Die Assoziationsfähigkeit neuronaler Netzwerke kann genutzt werden, um Computerviren aufzuspüren, die Mutationen oder Abarten bekannter Viren darstellen.

Betrachten wir zunächst einige typische Viren-Kennsequenzen im Hex-Format:

1701-Virus:

FA 8B EC E8 00 00 5B 81 EB 31 01 2E F6 87 2A 01 01 74 OF 8D B7 4D 01 BC 82 06 31 34 31 24 46 4C 75 F8

1704-Virus (Blackjack):

FA 8B EC E8 00 00 5B 81 EB 31 01 2E F6 87 2A 01 01 74

OF 8D B7 4D 01 BC 85 06 31 34 31 24 46 4C 75 F8

17Y4-Virus:

FA 8B CD E8 00 00 5B 81 EB 31 01 2E F6 87 2A 01 01 74 OF 8D B7 4D 01 BC 85 06 31 34 31 24 46 4C 75 F8

oder die Varianten des Wiener Virus:

Wiener-(DOS-62)-A-Virus:

8B FE 81 C7 1F 00 8B DE 81 C6 1F 00

Wiener-(DOS-62)-B-Virus:

8B FE 83 C7 1F 00 8B DE 83 C6 1F 90.

Die Unterschiede zwischen den Varianten sind teilweise sehr gering (jeweils kursiv hervorgehoben). Würde man jedoch versuchen, die Varianten mittels eines einfachen Algorithmus zu finden, so würde man fast immer scheitern. Betrachten wir etwa den Versuch, Virenvarianten mittels eines Maßes für den Vektorenabstand auf Basis einer Hamming-Distanz zu finden: Ein solcher Algorithmus würde die Unterschiede zwischen den Kenn-Bytes zählen und eine Identifikation vornehmen, sofern die Anzahl der unterschiedlichen Stellen relativ gering ist. Hier ein einfaches Gegenbeispiel, bei dem ein solcher Algorithmus bereits versagt:

Sequenz 1: FC00208FE

Sequenz 2: F0C00208F.

Die beiden Sequenzen unterscheiden sich nur an zwei Stellen und sind damit sehr ähnlich. Die Hamming-Distanz zwischen ihnen ist jedoch sehr groß, da sie nur an zwei Positionen übereinstimmen. Der Algorithmus würde die Sequenzen folglich als unähnlich betrachten!

Ähnliche Probleme treten auf, wenn Byte-Sequenzen vertauscht werden (Bytes werden von vorne nach hinten oder umgekehrt verschoben), wenn sie verkürzt oder verlängert (etwa durch Entfernen oder Einfügen von NOP-Befehlen) oder zufällig verändert werden.

Erfreulicherweise ist es uns gelungen, diese Probleme in den Griff zu bekommen. Durch ein komplexes Preprocessing für den von uns verwendeten Assoziativspeicher können wir alle oben angesprochenen Probleme in befriedigender Weise lösen.

Aus Sicherheitsgründen werden wir unseren Lösungsansatz jedoch nicht ausführlicher beschreiben.

Wir hoffen, daß der Leser dafür Verständnis hat.

Wir haben einen Assoziativspeicher-Mechanismus auf der Basis neuronaler Netzwerke mit dem erwähnten Preprocessing in einem C-Programm realisiert. Mit diesem Programm konnten wir folgende erstaunliche Resultate erzielen:

- Obwohl das Programm lediglich das 1704-Virus kannte (in der Lernphase wurde nur dieses eine Virus angeboten), konnte es alle bekannten Varianten dieses Virus korrekt identifizieren, ohne sie vorher "gesehen" zu haben! Das gleiche gilt für die Jerusalem-Viren, Wiener Viren, Datacrime-Viren etc.

- Das Programm ist in der Lage, mit einer Wahrscheinlichkeit von über 95 Prozent Viren korrekt zu klassifizieren (zu erkennen), die bis zu 30 Prozent gegenüber einem bekannten "Ur-Virus" modifiziert worden sind! Dabei können diese Modifikationen durch beliebige Veränderungen des Ausgangscodes zustande gekommen sein (Einfügen, Löschen, Mutieren, Vertauschen von Bytes).

- Es konnten von dem Programm sogar Modifikationen von bis zu 60 Prozent der Kennsequenzen korrekt klassifiziert werden, wenn bestimmte Charakteristika in der Kennsequenz vorkamen (zum Beispiel seltene Häufungen von Byte-Kombinationen).

Die Leistungsstärke neuronaler Netzwerke bei der Erkennung von Mustern ist bekannt. Sie sind in dieser Hinsicht konventionellen Verfahren in der Regel weit überlegen. Wir haben den Ansatz auf die Erkennung von Computerviren-Varianten übertragen

und betrachten dieses Problem ebenfalls als ein spezielles Mustererkennungsproblem. Die angeführten Erfolge sprechen für sich. Es können Virenvarianten (Mutationen, Veränderungen etc.) erkannt werden, die der Fachwelt noch unbekannt sind! Es ist damit erstmals möglich, der Entwicklung von Viren in bestimmten Fällen voraus zu sein.

Leider ist es prinzipiell nicht möglich, beliebige Varianten oder Mutationen von Viren zu finden. Darauf hat bereits Fred Cohen 1982 in seiner berühmten Arbeit (Computer-Viruses: Theory and Experiments,

University of Southern California, 8/84) hingewiesen. Es kann aus theoretischen Gründen kein Programm geben, auch kein neuronales Netz, das alle Viren klassifiziert und erkennt. Bei einer großen Klasse von Viren ist dies jedoch möglich. Ein Virus kann gegenüber einem "Ur-Virus", seinem Ahnen, nicht beliebig verändert werden, denn viele Byte-Kombinationen würden keinen sinnvollen Programmcode ergeben. Dadurch wird der Suchraum für neuronale Netze eingegrenzt und das Problem der Erkennung und Klassifikation von Virenvarianten in der Regel lösbar. Die hier vorgestellten neuen Forschungsansätze im Kampf gegen Computerviren beruhen auf der Privatinitiative einer kleinen Gruppe hochqualifizierter Virenspezialisten. Warum, so mag sich der unbefangene Leser nun fragen, hört man so selten von anderen, weiteren, Aktivitäten, wirklich neuartige und technisch sinnvolle Abwehrmaßnahmen gegen Viren zu finden?

Der Grund hierfür ist sehr einfach: Die Forschung auf diesem Gebiet wird bislang kaum finanziell gefördert oder öffentlich unterstützt. Deshalb kann man auf die Frage, was die sogenannten Sicherheitsbehörden gegen die immer bedrohlichere Flut von Viren unternehmen, eigentlich nur eines antworten: nichts Sinnvolles!

Das Bundesamt für Sicherheit in der Informationstechnik, BSI (früher ZfCH beziehungsweise ZSI), beschränkte sich bisher darauf, die eigene Organisation und Bürokratie aufzubauen, Sicherheitsvorschriften zu erlassen und immer neue Studien über Sicherheitsbedrohungen zu vergeben (bezeichnenderweise seit Jahren an die gleichen "gesinnungstreuen" Unternehmen). Das BSI schmort seit Jahren in seinem eigenen Saft.

Die Entrücktheit des BSI von der Wirklichkeit und dem, derzeitigen Stand der Technik und Bedrohung zeigt sich zum Beispiel darin, daß in dem von ihm herausgegebenen "Grünen Buch" (Kriterien für die Bewertung der Sicherheit von Systemen der Informationstechnik) die Bedrohung durch Viren in keiner Weise berücksichtigt wird - und das in einer Zeit (1991!), in der beinahe jede Hausfrau weiß, was Computerviren sind und welche Gefahr für unsere moderne Gesellschaft von ihnen ausgehen kann!

Man beachte auch, daß das BSI von diesem Mangel seines "Grünen Buches" (das, nebenbei erwähnt, aufgrund der bekannten Autoren eigentlich ein "weiß-blaues" Buch sein müßte) durch öffentlich geäußerte Kritik bereits seit Jahren Kenntnis hat, ohne ihn zu beseitigen. Erst seit die Amerikaner zur Verteidigung ihre "Orange Book" genau dieses Argument gegen das "Grüne Buch" und seine europäisierte Variante anführen, beginnt das BSI - aus politischen und opportunistischen Gründen - die Kritik ernst zu nehmen.

Vor kurzem hat das BSI einen Geradezu tolpatschig zu nennenden Versuch unternommen, seine Untätigkeit und Trägheit zu überwinden. Es hat einen eigenen Viren-Scanner für Behörden angekündigt. Damit hat das BSI gleich zwei "Eigentore" geschossen.

Das erste Eigentor: Der Viren-Scanner war bereits vor seinem Erscheinen technisch total überholt! Diese Tatsache hat dazu geführt, daß es, wie man hört, innerhalb des BSI zu Auseinandersetzungen über das Programm gekommen ist.

Das zweite - und sehr schlimmere - Eigentor des BSI besteht darin, daß es mit der Ankündigung des Viren-Scanners den industriellen Wettbewerb massiv beeinflußt und die private Sicherheitsindustrie verprellt! Bislang haben viele Unternehmen, insbesondere Hersteller von Antiviren-Programmen, bereitwillig mit dem BSI zusammengearbeitet und eigenes Know-how an das Amt weitergereicht. Es sollte ja eine neutrale, herstellerunabhängige Evaluationsbehörde für vertrauenswürdige DV-Systeme sein.

Man kann nach der Ankündigung des Viren-Scanners mit Sicherheit davon ausgehen, daß in Zukunft viele Hersteller sicherheitsrelevante Informationen gegenüber dem BSI zurückhalten werden. Denn wenn damit gerechnet werden muß, daß das Bumdesamt vertrauliche Informationen verwendet, um selbst Sicherheitsprodukte herzustellen und zu Dumping-Preisen an Behörden zu verschleudern, unterstützte die Industrie damit ihre eigene Konkurrenz. So dumm wird kein Unternehmen auf Dauer sein. Ohne enge Kooperation und ohne das entsprechende Know-how aus der Industrie aber kann das BSI mittelfristig seine Arbeit einstellen.

Ihre Neutralität hat das BSI auch noch in einer anderen sehr bedenklichen Hinsicht aufgegeben. Das BSI arbeitet mit einigen "Sicherheitsexperten" zusammen, die sich darum bemühen, Gesetzesinitiativen vorzubereiten, nach denen die Veröffentlichung von Detailinformationen über Computerviren verboten und unter Strafe gestellt werden soll. Das entspräche einer Presse- und Informationszensur, wie sie nicht einmal in den Ostblockstaaten üblich ist oder war!

Sollten diese Initiativen Erfolg haben, zeichnet sich das folgende düstere Bild ab: Das BSI und ihm genehme "Sicherheitsexperten", wie der durch seine Beziehungen zu einschlägigen PC-Magazinen bekannte geschäftstüchtige Hamburger Informatikprofessor Brunnstein mit seinem Viren-Epidemie-Zentrum ("Viren-Test-Zentrum der Universität Hamburg", d. Red.), würden ein politisch zensiertes Informationsmonopol erhalten. Kritiker und die politisch nicht engagierte, neutrale Fachwelt, echte Sicherheitsexperten, seriöse Sicherheitsverantwortliche und die DV-Fachpresse würden zunächst von allen aktuellen Informationen ausgeschlossen. Informationen gäbe es, und das praktiziert Brunnstein bereits seit längerer Zeit, nur gegen Geld: durch Abonnement des Virus-Telex, durch teure Seminare, durch seine Viren-Mailbox etc.

Die angesprochene Pressed Informationszensur ist (...)cht etwa Science-Fiction, sondern in Ansätzen schon Realität. Das Viren-Informations-Kartell formiert sich bereits. Brunnstein hat die Gründung eines Viren-Pools angekündigt (Caro: Computer Anti-Virus Research Organisation), an dem das BSI aktiv beteiligt sein soll und zu dem nur "Gesinnungstreue" Zugang haben werden.

Brunnstein schreibt in seinem Virus-Telex 1/91 (Percomp Verlag) auf Seite 4ff dazu: Die Satzungen der Caro sollen gewährleisten, daß "möglichst keine Viren durch Informationslecks aus diesem Kreis entschlüpfen können. Alle Teilnehmer müssen sich daher auf einen Verhaltenscodex (Code of Good Conduct) verpflichten, (...) etwa die Veröffentlichung sensitiver Details der Viren ausschließt. (...) Ein solcher Verhaltenscodex wird zur Zeit erarbeitet. Darauf wird eine Regelung zur Aufnahme neuer Zugangsberechtigter sowie ein Verfahren zum Ausschluß wegen möglichen Fehlverhaltens aufgebaut. Vorab wurde vereinbart, daß gegen schwerwiegende Bedenken eines Zugangsberechtigten kein neues Mitglied aufgenommen wird."

Brunnstein und das BSI entscheiden damit zukünftig darüber, wer welche Informationen über Viren erhält. Mit massiver Rückendeckung und politischer Unterstützung durch das BSI betreibt Brunnstein diese Politik sogar in nationalen und internationalen Gremien wie der Gesellschaft für Informatik (GI) und der IFIP (International Federation for Information Processing). Haben diese Bemühungen Erfolg, wird die Informationsfreiheit nicht nur auf nationaler Ebene, sondern sogar im europäischen Rahmen von dem Kartell kontrolliert!

Brunnstein meint, daß Publikationen, die Details über die Funktionsweise von Viren veröffentlichen, zu deren Verbreitung beitragen und daher verboten werden müßten. Wenn Argumente auf diesem

Niveau sinnvoll wären, müßte zum Beispiel das Fernsehen abgeschafft werden (insbesondere Sendungen wie "Aktenzeichen XY" oder Nachrichtensendungen, in denen gezeigt wird, wie Menschen getötet oder gefoltert werden), und natürlich dürften auch keine Kriminalromane mehr erscheinen.

Wer auf diesem Niveau argumentiert) versucht den Eindruck zu erwecken, daß derjenige, der die Dinge und Gefahren beim Namen nennt und darüber spricht, der Schuldige sei, und nicht derjenige, der für die Gefahren verantwortlich ist. Im Altertum hat man die Überbringer schlechter Nachrichten häufig hingerichtet. Glücklicherweise ist das in unserem Kulturkreis so ohne weiteres nicht mehr möglich.

Die Beschränkung der Informationsfreiheit hat bis vor wenigen Jahren dazu geführt, daß Atomkraftwerke als sicher und ungefährlich galten. Kritiker und angesehene Physiker wurden wie Kriminelle behandelt, weil sie auf die verdrängten Gefahren hinwiesen. Es scheint derzeit so, als würde sich diese Situation im Bereich der Computersicherheit und bei den Computerviren wiederholen.

Unsere moderne Gesellschaft ist sehr stark, von der korrekten und sicheren Funktionsweise der eingesetzten Computersysteme abhängig. Die Sicherheit dieser Systeme wird nicht dadurch erhöht, daß Informationen über deren Sicherheitsmängel verboten

oder zensiert werden, sondern im Gegenteil gerade dadurch, daß die Fachleute in der Industrie und Forschung über alle nötigen Informationen verfügen, um sinnvoll zusammenarbeiten zu können und um neue Ideen und Konzepte zur Virenbekämpfung zu erarbeiten. Die Informationszensur gehört ins Mittelalter und nicht in eine moderne, hochtechnologische Kultur. Nicht der, der die Sicherheitsmängel heutiger Computersysteme offenlegt, gefährdet unsere Sicherheit, sondern derjenige, der den Zugriff auf

solche Informationen kontrolliert, um Geschäfte zu machen.

Diese Tendenz einiger Privatpersonen, Institutionen und Behörden, den Zugang zu wichtigen Forschungsinformationen zu limitieren, sollte unterbunden werden. Wir schlagen deshalb vor, ein neutrales und unabhängiges Gremium von Industrievertretern,

Politikern und Forschern zur Kontrolle all derer zu bilden, die versuchen, die Fachwelt von sicherheitsrelevanten Informationen auszugrenzen. Die Gefahren, die von Computerviren ausgehen können sind zu groß, als das unsere Gesellschaft ein unkontrolliertes Informationskartell dulden könnte.

Die politische Neutralität der Sicherheitsbehörden muß gewahrt bleiben. Das BSI wird sonst die Unterstützung von Industrie und Forschung verlieren. Sachlich vorgetragene Kritik muß berücksichtigt werden, auch wenn sie nicht in das politische Kalkül der Behörden und der von ihren Auftragen profitierenden Firmen Privatpersonen paßt.

Die zuständigen Sicherheitsbehörden sollten sich zukünftig stärker darauf konzentrieren, die Entwicklung sicherer Systeme und neuartiger Schutzmechanismen zu unterstützen, als ständig neue Verordnungen und Richtlinien herauszugeben. Computerviren kümmern sich bekanntlich nicht um Verbote und Vorschriften!

Eine politische Zensur des Zugangs zu sicherheitsrelevanten Informationen wäre ein Rückfall in das Mittelalter. Was käme als nächtes? Die Inquisition?