Generative-AI-Dienste im Überblick

Diese KI-Tools sollten Sie kennen

15.02.2023
Von 
Heinrich Vaske ist Editorial Director a.D. von COMPUTERWOCHE, CIO und CSO.

Midjourney - Text to Image in Qualität

Auch Midjourney, zurzeit noch in der Betaphase, kreiert aus Textbeschreibungen Bilder. Voraussetzung ist, dass Anwender die aus der Gaming-Welt bekannte kostenlose Kommunikations- und Chat-App Discord installieren. Mit Midjourney erzeugte Werke sind oft hochwertig und realistisch. Sie stehen grundsätzlich auch anderen Nutzern für Remixes zur Verfügung. Wer exklusive Rechte an einem Bild will, muss dafür zahlen.

Midjourney kann schon jetzt hier und da die Arbeit von Grafikern und Designern ergänzen oder ersetzen. Wie immer bei Generative AI sind die Prompts die Herausforderung. Je präziser und auf den Punkt sie ausfallen, desto besser das Ergebnis. Midourney stellt die besten Kreationen inklusive der Text Prompts auf der eigenen Website aus. Erstellte KI-Bilder können nicht abgeändert werden.

Notion AI - intelligente Zusammenarbeit

Viele Anwender organisieren ihre Projekte und Tasks mit der Workspace-Plattform Notion. Sie können damit Dokumente kreieren, Datenbanken managen, den Projekterfolg nachvollziehen und mit anderen zusammenarbeiten. Mit Notion AI bekommen die Nutzerinnen und Nutzer nun einen intelligenten Assistenten, der ihnen beim Schreiben, Editieren, Brainstormen und Zusammenfassen hilft. Wie ChatGPT übernimmt Notion AI den ersten Entwurf zu einem Thema, liefert Listen mit Ideen zu bestimmten Aspekten, prüft Texte auf Ausdruck und Grammatik, übersetzt und fasst lange Texte zusammen.

Pictory - Allrounder für Videobearbeitung

KI-basierte Videobearbeitung ermöglicht Pictory. Das Tool verhilft zu einer schnellen Nachbearbeitung von Videos einschließlich dem Herausschneiden unliebsamer Sequenzen oder Kürzungen. Aus langen Videos lassen sich auf Knopfdruck kurze Trailer generieren, die die Highlights des Videos aufgreifen. Mit der "ReelFast"-Technologie können auch Skripte oder Blogposts in Videos umgewandelt werden. Und schließlich lassen sich auch Texte automatisiert in Videos einblenden - gegebenenfalls auch übersetzt. Pictory ermöglicht all dies, ohne dass technische Kenntnisse benötigt werden.

Rewind.ai - der Blick zurück, nur auf dem Mac

Als "Suchmaschine für Dein Leben" preist sich Rewind an, das gilt allerdings nur für Apple-Mac-User. Alles, was Anwender an ihrem Rechner tun, wird auf dem Mac oder einer externen Festplatte aufgezeichnet: konsumierte Videos, aufgesuchte Webpages, eigens produzierter Content. Das Ganze lässt sich in einer Timeline nachvollziehen. User können so jederzeit nachsehen, was sie zum Beispiel vor drei Wochen zu einer bestimmten Uhrzeit gemacht haben.

Rewind nutzt native MacAPIs und OCR, um den Bildschirminhalt zu analysieren. Auch Zoom- oder Teams-Meetings werden nach Bedarf konserviert. Dazu nutzt das Tool eine besonders leistungsfähige, KI-basierte Komprimierungstechnik als Herzstück. Die aufgezeichneten Daten werden um den Faktor 3.750 komprimiert. So können Anwender schon auf einer durchschnittlichen Festplatte über Jahre hinweg ihren Computerverlauf ablegen.

Runway - Videos manipulieren leicht gemacht

Dass die Sorgen vor Deepfakes berechtigt sind, wird spätestens jeder dann verstehen, wenn er sich mit Runway beschäftigt hat. Das Unternehmen bietet eine breite Palette an KI-Lösungen, macht derzeit aber vor allem mit einem Next-Generation-Tool für die Videobearbeitung auf sich aufmerksam. Mit Runway können aus vorhandenen Videos neue gemacht werden, indem gerenderte Elemente durch eigene Bilder ausgetauscht oder manipuliert werden.

Das Unternehmen steht kurz vor der Markteinführung des neuen Generative-AI-Modells Gen-1, das die Videosynthese mithilfe von Diffusionsmodellen auf ein noch höheres Level heben soll. In verschiedenen Modi können Anwender Videos nach Gusto manipulieren.

Stable Diffusion - Text-to-Image auf eigenem PC

Ein Text-to-Image-Generator, der auf Deep Learning basiert, ist Stable Diffusion. Wie bei DALL-E und Midjourney werden anhand von Textbeschreibungen Bilder generiert, doch während diese proprietären Modelle nur über die Cloud zugänglich sind, können bei Stable Diffusion der Code und die frei verfügbaren Modelle auf Consumer-Hardware ausgeführt werden. Voraussetzung ist eine GPU mit mindestens 8 GB Grafikspeicher. Der Unterschied zu den Konkurrenten besteht unter anderem darin, dass Stable Diffusion viel billiger ist, freizügiger mit Trainings-Bildern berühmter Persönlichkeiten und expliziten Inhalten umgeht. Auch werden Bilder in einer höheren Auflösung (1024x1024 Pixel) angeboten, DALL-E-Images sind nur halb so hoch aufgelöst.

Synthesia - schnelle Videoproduktion für Profis

Wer schnell einfache Videos erstellen möchte, beispielsweise um etwas zu erklären, kann sich auf der kostenpflichtigen Website Synthesia einen von 65 Avataren auswählen, einen schriftlichen Text eingeben - und schon plappert der Avatar drauf los. Für 1.000 Dollar im Jahr können User sich sogar einen eigenen, personalisierten Avatar mit ihrem Gesicht bauen lassen, der sich in zehn bis 15 Minuten erstellen und anlernen lässt.

Synthesia eignet sich für Präsentationen im Videoformat, da auch Bilder (Shutterstock), Grafiken, Hintergrundmusik und MP4-Videos eingebunden werden können. Für das Tool spricht zudem die Vielsprachigkeit (auch Deutsch wird unterstützt). Die Lizenzkosten beginnen bei 26 Dollar pro Person und Monat.

Tome - Präsentation auf Knopfdruck

Sie sind müde, müssen aber noch schnell eine Präsentation erstellen? Überlassen Sie die Arbeit Tome! Sie wählen ein Template, geben möglichst exakt Ihre Anforderung (Prompt) ein, und wie von Geisterhand entsteht Ihre Präsentation am Bildschirm (momentan allerdings nur auf Englisch).

Für die Texterstellung nutzt das Tool ChatGPT, für die Bebilderung DALL-E 2 - beides von OpenAI. Nach dem Fertigungsprozess können Sie Ihre Präsentation noch mit Editing-Werkzeugen individuell überarbeiten, wenn Sie wollen. In jedem Fall kann Tome.ai Ihnen eine Basispräsentation entwerfen - und damit einiges an Arbeit ersparen.

VALL-E - Stimmen klonen in drei Sekunden

Microsofts KI-Modell VALL-E - der Name lehnt sich zweifellos an das OpenAI-Produkt DALL-E an - zeichnet sich dadurch aus, dass es Stimmen imitieren kann. Das Besondere daran: VALL-E braucht als Trainingsvorlage nur ein Sample von wenigen Sekunden. Das Tool wurde mit 60.000 Stunden an englischen Sprachdaten trainiert. Die KI-Stimme ist dabei in der Lage, auch den Tonfall und die Emotionen eines Sprechers nachzuahmen. VALL-E ist derzeit noch nicht öffentlich verfügbar, die Qualität der Ergebnisse soll ersten Berichten zufolge schwanken - abhängig nicht zuletzt vom Umfang der Trainingsdaten.