CW-Subnets     |     Executive Briefings     |     Blogs & Forum     |     CW-TV     |     Newsletter     |     RSS
Schließen
Dock ein-/ausblenden
Business Intelligence & Enterprise Content Management

Ratgeber Text Mining

Aus unstrukturierten Daten werden Geschäftsinformationen

Drucken |  Empfehlen |  PDF |  Merken

Andere statistische Lösungen basieren auf selbstlernenden Tools wie Bayeschen Netzen, neuronalen Netzwerken, Support Vector Machines (SVM) oder Latenter Semantischer Analyse (LSA). Obwohl diese Lösungen laut Experten zumeist effektiver arbeiten als andere statistische Ansätze, stehen sie im Ruf wie hochkomplizierte Black Boxes zu funktionieren: Sie setzen auf versteckte Mechanismen, die nur mit großem Aufwand individuell angepasst werden können. Linguistische Text Analytics ist genauso schnell und kosteneffektiv wie auf Statistik basierende Systeme dabei aber genauer, behauptet Mors. Sie basiert auf Natural Language Processing (NLP), das die Mehrdeutigkeit von Texten aufdeckt. Zudem können Anwender linguistische Textanalysen anpassen, um die Qualität der Ergebnisse weiter zu verbessern.

Vorbereitung des Textes für die Analyse

Wie Data Mining ist auch Text Analytics ein sich wiederholender Prozess, der dann die besten Resultate bringt, wenn er nach einer bekannten und geprüften Methode vorgeht. Er lässt sich grob in fünf Arbeitsschritte aufteilen: die Vorbereitung des Textes für die Analyse, die Ausarbeitung von Konzepten, das Aufdecken von Meinungen, Beziehungen, Fakten und Ereignissen durch Text Link Analytics, die Kategorienbildung und die Anwendung der Ergebnisse auf vorausschauende Modelle. Der Ausgangspunkt für alle späteren Analysen ist natürlich eine Textsammlung, die sich entweder aus einem kleinen Beispiel oder aus Millionen von Belegen zusammensetzen kann. Die Dokumente können in verschiedenen Sprachen und unterschiedlichsten Dateitypen vorliegen: HTML, PDF, Ascii, E-Mail oder klassische Microsoft-Office-Formate - aber auch in Form von RSS-Feeds und Blogs.

Die drei folgenden Arbeitsschritte für die Vorbereitung der Texte sind dann Sprachidentifikation, Dokumentenkonvertierung sowie Segmentierung. Nachdem die Sprache festgelegt wurde, wandelt eine entsprechende Analysesoftware für Text Mining die Dokumente in ein Format um, das für die weitere Bearbeitung genutzt werden kann. Eingebaute Filter ändern gebräuchliche Dateiarten in reines Textformat. Der Text kann so in individuelle Einzelteile zerlegt werden, aus denen sich die Konzepte ergeben. So werden beispielsweise Satzenden oder Abschnitte markiert oder spezielle Sonderzeichen aussortiert.

(0 Beiträge), 
Kommentieren

Beitrag schreiben

Noch kein Forums-Mitglied?
Dann gleich hier anmelden.

BI & ECM: CW-REDAKTEURE EMPFEHLEN
Die richtige ECM-Strategie (Foto: Blend Images/Fotolia) Die richtige ECM-Strategie Viele Unternehmen setzen auf Enterprise-Content-Management (ECM), um ihre Daten in den Griff zu bekommen. Lesen Sie, was dabei wichtig ist.
weiter
Mehr Nutzen durch schnelle BI (Foto: BARC) Mehr Nutzen durch schnelle BI Wer vom Start weg die verschiedenen Einflussfaktoren im Blick hat, kann den Nutzen seines BI-Systems erhöhen und Investitionen sichern.
weiter
Das neue BI (Foto: fotolia.com/Benicce) Das neue BI Mit Predictive Analytics wollen Unternehmen komplexe wirtschaftliche Zusammenhänge vorhersagen so bessere Entscheidungen treffen.
weiter
Best Practices SharePoint (Foto: Microsoft) Best Practices SharePoint Eine SharePoint-Integration wird allzu oft technisch begriffent. Der Erfolg kommt aber erst mit einem fundierten Organisations-Management.
weiter
Goldader Datenqualität (Foto: Deutsche Bank) Goldader Datenqualität Investitionen in Qualität und Zugänglichkeit von Daten werfen erkleckliche Renditen ab. Für große Firmen winken zusätzliche Millionen.
weiter
MEHR ZUM THEMA BI & ECM
  • Whitepaper
  • Top geklickt
Jobangebote
FEATURED LINKS

KOSTENLOSE NEWSLETTER VON COMPUTERWOCHE
Nachrichten morgens
Whitepaper
Nachrichten mittags
CW-Mittelstand
Highlights der Woche
Hardware
SAP-Newsletter
Software
Job + Karriere
Open-Source
Stellenmarkt
Produkte + Techn.
Freiberufler
Security
Server + Storage
Netzwerke
Mobile & Apps