Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

20.05.2008

Von

Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Alle Posts des Autors Email:

Segmentierung von Websites

Information Extraction: ViPer, ein Mozilla PlugIn der Uni Freiburg, extrahiert Datenstrukturen von HTML-Sites (Quelle: Uni Freiburg, Informatik)

Bei der Segmentierung von Websites und anderen Daten in thematisch zusammenhängende Bereiche können Algorithmen der Clusteranalyse herangezogen werden. Die Ähnlichkeitsberechnung zweier Dokumente kann beispielsweise mit statistischer Gewichtung von Schlagwörtern erfolgen. In Frage kommen auch Feature-Vektoren aus einer linguistischen Analyse, die allerdings aufwändig errechnet werden müssen. Methodisch werden dabei meist die partitionierenden den hierarchischen Clusterverfahren vorgezogen, da die Distanzberechnungen hierarchischer Verfahren schnell an Komplexitätsgrenzen stoßen.

Neben der Klassifikation von Webseiten aufgrund des Textinhaltes, können auch die Ergebnisse der Klassifikation der Nachbardokumente herangezogen werden. Als Techniken werden sowohl klassische statistische Verfahren wie die Diskriminanzanalyse als auch Künstliche Neuronale Netze und Entscheidungsbäume eingesetzt.

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Business-Software

Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

Segmentierung von Websites

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Aktuelle Technologie-Themen:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Business-Software

Segmentierung von Websites

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor