Dokumenty tekstowe, informacje z rozmów z klientami z call center, emaile, zgłoszenia problemów z urządzeniami lub usługami, zawartość blogów, opinie o produktach w internecie, inne opinie klientów… W takich danych jest bardzo dużo przydatnych informacji. Naucz się analizować takie dane i wykorzystywać wyniki analiz.

Uczestnicy otrzymują skrypty R ułatwiające późniejszą pracę z własnymi danymi bez konieczności zakupu oprogramowania komercyjnego.

Uwaga
Na życzenie możemy przygotować szkolenie wewnętrzne bazujące na Pythonie lub na Pythonie w połączeniu z R.

Czego się nauczysz?

  • Jak przygotować dane tekstowe do analizy.
  • Jak wyciągnąć użyteczne informacje z danych tekstowych.
  • Jak zastosować metody eksploracji danych do tekstu.
  • Wszystko przećwiczysz w praktyce na komputerze: używamy systemu R.
  • Otrzymasz obszerne materiały umożliwiające samodzielną późniejszą pracę, w tym skrypty R.

Dla kogo jest to szkolenie?

Wszyscy, którzy potrzebują:

  • analizować dane tekstowe,
  • znajdować w nich użyteczne informacje,
  • automatycznie przetwarzać i klasyfikować dużą liczbę dokumentów.

Skrót programu szkolenia

  • Text mining and jego zastosowania
  • Podstawy przetwarzania tekstu w R
  • Przetwarzanie wstępne tekstu
  • Reprezentacja numeryczna dokumentów tekstowych
  • Analiza dokumentów tekstowych
  • Text mining z R w praktyce

WordPress database error: [You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'ORDER BY sortorder' at line 1]
SELECT * FROM wp_ngg_pictures WHERE galleryid = ORDER BY sortorder

Program szkolenia

  1. Przegląd: text mining and jego zastosowania (w tym sentiment analysis / opinion mining)
  2. Podstawy przetwarzania tekstu w R
    • pakiet „stringr” — nowoczesne przetwarzanie tekstu w R
    • wprowadzenie do wyrażeń regularnych
    • data i czas w R (w tym pakiet „lubridate”)
  3. Przetwarzanie wstępne tekstu
    • wczytywanie danych tekstowych w różnych formatach
    • konwersja kodowania (pakiet „iconv”)
    • usuwanie nieistotnych słów (stopwords)
    • stemming, lematyzacja (w tym użycie stemmera dla języka polskiego Morfologik)
    • normalizacja
  4. Reprezentacja numeryczna dokumentów tekstowych
    • reprezentacja „bag of words”
    • macierz „document-term”
    • ocena ważności słów w macierzy „document-term” poprzez przekształcenia częstości występowania słów (w tym podejście „tf-idf”)
    • określenie podobieństwa między słowami i dokumentami (w tym odległość Levenshteina)
  5. Analiza dokumentów tekstowych
    • wizualizacja i redukcja wymiaru (PCA)
    • modelowanie predykcyjne z wykorzystaniem metod klasyfikacji (drzewa klasyfikacyjne, SVM, inne)
    • klasyfikacja bayesowska (jak w przypadku filtrów antyspamowych)
    • regresja
    • znajdowanie grup podobnych dokumentów: analiza skupień (k-means, PAM, metody hierarchiczne)
    • Latent Semantic Indexing z wykorzystaniem Singular Value Decomposition (opcjonalne)
  6. Text mining z R w praktyce
    • analizy opisowe (w tym word clouds)
    • praca z pakietem „tm”
    • automatyczna klasyfikacja dokumentów tekstowych z pakietem „RTextTools”
    • śledzenie historii występowania słów i fraz

Spróbuj ponownie