ANALIZA DANYCH NIEUSTRUKTURYZOWANYCH W BADANIACH EKONOMICZNYCH

 

 

Forma zajęć:

Warsztaty w laboratorium komputerowym.

 

 

Cel zajęć:

Zapoznanie uczestników z metodami statystycznymi przydatnymi w analizie danych nieustrukturyzowanych oraz możliwośœciami zastosowania programu SAS Enterprise Miner i SAS Text Miner w badaniach ekonomicznych. Zakres zajęć obejmuje odkrywanie zależnośœci, wzorców i trendów w różnorodnych zbiorach dokumentów tekstowych z wykorzystaniem oprogramowania analitycznego SAS.

 

 

Szczegółowy program:

 

1.    Data Mining, Text Mining, Web Mining. Wprowadzenie do SAS Text Miner.

 

2.    Preprocessing. Text parsing. Dekompozycja danych tekstowych.

 

3.    Iloœściowa reprezentacja zbioru dokumentów. Waga częstośœci i waga wyrażenia.

 

4.    Redukcja wymiarów macierzy częstośœci. Metody roll-up i SVD.

 

5.    Klastrowanie i wizualizacja danych tekstowych. Drzewo powiązań.

 

6.    Klasyfikacja. Modelowanie predykcyjne i prognozowanie.

 

7.    Współpraca z innymi narzędziami pakietu SAS Enterprise Miner.

 

 

Literatura:

Berry M. W., Kogan J., Text Mining: Applications and Theory, Wiley

Clark A., Fox C., Lappin S., The Handbook of Computational Linguistics and Natural Language Processing, Wiley-Blackwell

Feldman R., Sanger J., The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press

Jurafsky D., Martin J. H., Speech and Language Processing, Pearson Prentice Hall

Liu B., Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers

Markov Z., Larose D. T., Eksploracja zasobów internetowych. Analiza struktury, zawartośœci i użytkowania sieci WWW, PWN

 

 

Forma zaliczenia:

Zaprojektowanie, zbudowanie i wykonanie modelu zaawansowanej analizy danych tekstowych.