CW-Subnets     |     Executive Briefings     |     Blogs & Forum     |     CW-TV     |     Newsletter     |     RSS
Schließen
Dock ein-/ausblenden
Business Intelligence & Enterprise Content Management

Ratgeber Text Mining

Aus unstrukturierten Daten werden Geschäftsinformationen

Drucken |  Empfehlen |  PDF |  Merken

Unterschied zu Suchmaschinen

Während Search Engines einen Top-down-Ansatz verfolgten, um Informationen aus Textmaterialien zu filtern, werde bei Textanalysen von unten nach oben gearbeitet: "Bei Suchmaschinen müssen Endanwender genau wissen, wie sie ihre Anfragen strukturieren, um die gewünschten Informationen zu erhalten. Im Bereich Textanalysen hingegen lassen sich die Konzepte und Themen aus einer Mischung an Dokumenten aufdecken." Dann werden Beziehungen und Wechselwirkungen zwischen diesen einzelnen Strukturen hergestellt (ein Vergleich von Suchmaschinen finden Sie im Wiki der Computerwoche).

Text Analytics siebt nützliches Wissen aus unstrukturierten Daten heraus. Hierzu gehören beispielsweise Artikel, freie Textantworten auf eine Umfrage, Auszüge aus Datenbanken wie Call-Center-Aufzeichnungen oder Kunden-E-Mails, aber auch News Feeds oder Blogs. Die Methode erforscht dabei Verbindungen zwischen verschiedenen Dokumenten. Textanalytiker nutzen hierfür beispielsweise Algorithmen, um Gruppenkonzepte zu beschreiben oder Zusammenhänge zwischen diversen Strukturen und Datengebilden herauszuarbeiten. Die Ergebnisse der Textanalyse können dann in Modelle für Predictive Analytics einfließen.

Manuelle, automatisierte oder linguistische Text Analytics

Verschiedene Ansätze der Textanalyse stehen heute zur Auswahl. So können Unternehmen beispielsweise Mitarbeiter beauftragen, die Texte manuell und einzeln durchzulesen, Kommentare zu notieren und dann zu bestimmen, welcher Kategorie sie zugeordnet werden. Marktforscher kategorisieren auf diese Art unstrukturierte Textantworten in Umfragen. Dieser manuelle Ansatz ist sehr akkurat, nimmt aber natürlich meist zu viel Zeit und Ressourcen in Anspruch. Außerdem ist er bei der großen Menge an Daten heutzutage nicht praktikabel.

Ein zweiter Weg sind automatisierbare Statistiklösungen. Das Problem: Einige dieser Lösungen zählen lediglich, wie häufig bestimmte Ausdrücke auftauchen, und berechnen mögliche Ähnlichkeiten zu verwandten Begriffen. Sie gehen aber nicht auf die Mehrdeutigkeiten der menschlichen Sprache ein: Bedeutende Verkettungen können sich in auf den ersten Blick irrelevanten Ergebnissen verstecken oder sogar ganz übersehen werden. Einige dieser statistischen Lösungen versuchen, diese Ungenauigkeiten zu beheben. Sie erklären Analysten, wie sie Regeln entwickeln können, um belanglose Ergebnisse außen vor zu lassen. Da die Analysten diese Regelwerke jedoch schreiben und dann kontinuierlich pflegen müssen, ist dieser Weg komplex und teuer.

(0 Beiträge), 
Kommentieren

Beitrag schreiben

Noch kein Forums-Mitglied?
Dann gleich hier anmelden.

BI & ECM: CW-REDAKTEURE EMPFEHLEN
Die richtige ECM-Strategie (Foto: Blend Images/Fotolia) Die richtige ECM-Strategie Viele Unternehmen setzen auf Enterprise-Content-Management (ECM), um ihre Daten in den Griff zu bekommen. Lesen Sie, was dabei wichtig ist.
weiter
Mehr Nutzen durch schnelle BI (Foto: BARC) Mehr Nutzen durch schnelle BI Wer vom Start weg die verschiedenen Einflussfaktoren im Blick hat, kann den Nutzen seines BI-Systems erhöhen und Investitionen sichern.
weiter
Das neue BI (Foto: fotolia.com/Benicce) Das neue BI Mit Predictive Analytics wollen Unternehmen komplexe wirtschaftliche Zusammenhänge vorhersagen so bessere Entscheidungen treffen.
weiter
Best Practices SharePoint (Foto: Microsoft) Best Practices SharePoint Eine SharePoint-Integration wird allzu oft technisch begriffent. Der Erfolg kommt aber erst mit einem fundierten Organisations-Management.
weiter
Goldader Datenqualität (Foto: Deutsche Bank) Goldader Datenqualität Investitionen in Qualität und Zugänglichkeit von Daten werfen erkleckliche Renditen ab. Für große Firmen winken zusätzliche Millionen.
weiter
MEHR ZUM THEMA BI & ECM
  • Whitepaper
  • Top geklickt
Jobangebote
FEATURED LINKS

KOSTENLOSE NEWSLETTER VON COMPUTERWOCHE
Nachrichten morgens
Whitepaper
Nachrichten mittags
CW-Mittelstand
Highlights der Woche
Hardware
SAP-Newsletter
Software
Job + Karriere
Open-Source
Stellenmarkt
Produkte + Techn.
Freiberufler
Security
Server + Storage
Netzwerke
Mobile & Apps