14.11

2008

Text mining z wykorzystaniem GNU R

Autor: artur

Text mining to grupa metod analizy danych tekstowych wykorzystujących metody data mining. W języku angielskim text mining bywa czasem nazywany text data mining, co idealnie wyjaśnia, na czym on polega (oto definicja text miningu z Wikipedii).

Jeszcze do niedawna R był pozbawiony pakietu umożliwiającego wygodną analizę eksploracyjną danych tekstowych. Sytuacja zmieniła się, kiedy pojawił się pakiet tm. Informacje o nim dostępne są tutaj.

Warto przeczytać rozdział „An Introduction to Text Mining in R” w najnowszym wydaniu R-News. Zaprezentowano tam naprawdę ciekawe przykłady analizy danych tekstowych wykonane przy pomocy pakietu tm.

Lista pakietów dla GNU R przydatnych w analizie tekstu dostępna jest w odpowiednim dziale CRAN Task Views.

Do ciekawych rozwiązań należy też ReadMe: Software for Automated Content Analysis (strona projektu ReadMe).

Znane narzędzie data miningowe Open Source RapidMiner również oferuje dodatek (plug-in) do analizy tekstu.

Informacje o innych narzędziach oferujących metody text mining można znaleźć na stronie KDnuggets.

Spróbuj ponownie