Differences

This shows you the differences between two versions of the page.

--- courses:data_analysis_and_interpretation:task5 [2019/01/13 14:52]
andrey.suchkov
+++ courses:data_analysis_and_interpretation:task5 [2019/07/11 13:50]
andrey.suchkov [Цель работы]
@@ Line 1: / Line 1: @@
-====== Практическая работа №5: Исследование методов факторного анализа ======
+====== Практическая работа №5: Исследование методов кластер-анализа ======
 ===== Цель работы =====
-Ознакомиться с методами факторного анализа на основе пакета Statistica.
+Ознакомиться с методами кластер-анализа на основе языка R.
 ===== Основные теоретические положения =====
-Главными целями факторного анализа являются сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации.\\
+Термин кластерный анализ (впервые понятие введено математиком Р. Трионом, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т.д.
-Предположим, что вы проводите (до некоторой степени «глупое») исследование, в котором измеряете рост ста людей в дюймах и сантиметрах. Таким образом, у вас имеются две переменные. Если далее вы захотите исследовать, например, влияние различных пищевых добавок на рост, будете ли вы продолжать использовать обе переменные? Вероятно, нет, т.к. рост является одной характеристикой человека, независимо от того, в каких единицах он измеряется.\\
-Теперь предположим, вы хотите измерить удовлетворенность людей жизнью, для чего составляете вопросник с различными пунктами; среди других вопросов задаете следующие: удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются (пункт 2). Результаты преобразуются так, что средние ответы (например, для удовлетворенности) соответствуют значению 100, в то время как ниже и выше средних ответов расположены меньшие и большие значения, соответственно. Две переменные (ответы на два разных пункта) коррелированы между собой. Из высокой коррелированности двух этих переменных можно сделать вывод об избыточности двух пунктов опросника.\\
+Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение".
-Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически, вы сократили число переменных и заменили две одной. Отметим, что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных.\\
-Пример, в котором две коррелированные переменные объединены в один фактор, показывает главную идею факторного анализа или, более точно, анализа главных компонент (это различие будет обсуждаться позднее). Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.\\
+//Деревья кластеризации.// Назначение алгоритма построения деревьев кластеризации заключается в постепенном объединении объектов в достаточно большие кластеры, используя меры расстояния и сходства между объектами.
-В основном процедура выделения главных компонент подобна вращению, максимизирующему дисперсию (варимакс) исходного пространства переменных. Например, на диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) «новой» переменной (фактора) и минимизации разброса вокруг нее.\\
+На первом шаге каждый объект является кластером. При переходе к следующему шагу группы объектов объединяются в кластеры на основе меры расстояния и выбранного метода. На каждом следующем шаге процедура повторяется для наиболее «близких» друг к другу кластеров.
-Напомним, что анализ главных компонент является методом сокращения или редукции данных, т.е. методом сокращения числа переменных. Возникает естественный вопрос: сколько факторов следует выделять? Отметим, что в процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости. Решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что считать малой «случайной» изменчивостью. Это решение достаточно произвольно, однако имеются некоторые рекомендации, позволяющие рационально выбрать число факторов.\\
+Использующиеся меры расстояния между объектами:
+  * Евклидово расстояние: $d(x,\,y) = \|\mathbf x + \mathbf y\| = \sqrt{\sum\limits_i(x_i - y_i)^2}$.
+  * Манхэттенское расстояние (расстояние городских кварталов): $d(x,\,y) = \sum\limits_i|x_i - y_i|$.
+  * Расстояние Чебышева: $d(x,\,y) = \max|x_i - y_i|$.
+Использующиеся способы объединения кластеров:
+  * Одиночная связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах;
+  * Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах, то есть "наиболее удаленными соседями".
+  * Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них.
+  * Метод Варда. Метод минимизирует сумму квадратов для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге.
+//Метод k-means (k-средних).// Предположим, уже имеются гипотезы относительно числа кластеров (по наблюдениям или по переменным). Можно указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода //k//-means. В общем случае метод //k//-means строит ровно //k// различных кластеров, расположенных на возможно больших расстояниях друг от друга.
 ===== Общая формулировка задачи =====
-  * Ознакомиться с основами факторного анализа.
+  * Провести исследование на имеющихся данных, а также на модельных примерах.
-  * Ознакомиться с работой в пакете Statistica c разделом Факторный анализ.
+  * Исследовать методы иерархической группировки.
-  * Провести исследование по построению факторных моделей для исходных данных.
+  * Провести исследование иерархической кластеризации при использовании кластеризации по признакам.
-  * Подготовить отчет по исследованию.
 ===== Порядок выполнения работы =====
-==== 1. Исследование по построению факторных моделей ====
+==== 1. Исследование методов иерархической группировки ====
-  - В системе STATISTICA в панели Statistics->Multivariate Exploratory Techniques (Методы исследования многомерных данных) нужно выбрать пункт Factor (Дискриминантный анализ).
+  - Выбрать переменные (переменная-номер класса не участвует в обработке).
-  - Кликнув по Values выбрать переменные для факторного анализа: номер класса не включаем. Кликнуть ОК.
+  - Установить параметр Custer = CASES.
-  - На вкладке «Quick» ввести максимальное количество факторов равным 4, минимальное собственное число – 4. Кликнуть ОК.
+  - Установить параметр Input = RAW DATA.
-  - В открывшемся окне Factor Analysis Results во вкладке Quick кликнуть по «Eigenvalues», таким образом выведем главные характеристики - собственные числа матрицы корреляций.
+  - Выбрать метод связывания  Amalgamation (linkage) rule.
-  - Вывести полученную таблицу в отчет.
+  - Выбрать метод измерения расстояния - Distance measure.
-  - Перейти во вкладку Explained Variance. Кликнуть Scree plot. Привести полученный график собственных чисел в отчете, а также матрицу корреляций (Вкладка Descriptives -> Review Correlations…-> Correlations).
+  - Запустить процедуру кластеризации.
-  - Привести в отчете Факторная нагрузку – корреляция между старыми переменными (признаками) и новыми факторами, выделенными из признаков. Для этого в окне Factor Analysis Results выбрать Factor Loadings.
+  - Просмотреть результаты построения иерархического дерева. Проанализировать какие данные образуют кластеры (опция - Amalgamation Shedule).
-  - Отобразить графики зависимостей между факторами (Вкладка Quick, кнопка Plot of factor loadings, 2D), а также все факторы в трехмерном пространстве (Вкладка Loadings, кнопка Plot of loadings, 3D)
+  - Исследовать процесс кластеризации при различных сочетаниях методов связывания и методов измерения расстояния.
-  - Вывести коэффициенты факторной оценки: для анализа главных компонент, точные коэффициенты могут быть вычислены из (вращаемых или не вращаемых) факторных нагрузок. Для этого перейдите во вкладку Scores и кликните по кнопке «Factor Scores Coefficients».
+==== 2. Исследование иерархической кластеризации при использовании кластеризации по признакам ====
-  - Также приведите таблицу с факторным множеством, основанным на факторных коэффициентах счета.
+  - Выбрать в меню CLUSTER ANALISYS в опции  CLUSTER  значение Variables= COLUMNS.
-==== 2. Выполнение исследования с поворотом факторных нагрузок ====
+  - Провести кластеризацию аналогично п.п. 4-7 предыдущего пункта.
-  - В окне Factor Analysis Results во вкладке Quick установите опцию Factror Rotation в значение Varimax raw.
+  - Определить наборы признаков наиболее и наименее связанные друг с другом.
-  - Эта опция выполнит вращение (циклический сдвиг) факторных нагрузок. Это вращение (циклический сдвиг) нацелено, на максимизацию дисперсии необработанных факторных нагрузок поперек переменных для каждого фактора; это - эквивалентное максимизирование разницы в столбцах матрицы необработанных факторных нагрузок.
+  - Выбрать наиболее информативный минимальный набор признаков и проверить его эффективность в режиме Discriminant Analysis.
-  - Выполните исследование и приведите в отчете следующие данные:
+==== 3. Метод K-средних ====
-    * таблица факторных нагрузок;
+  - Выбрать метод кластеризации K-Means Clustering (метод K-средних)
-    * графики зависимостей между факторами и график всех факторов в трехмерном пространстве;
+  - Загрузить исходные данные.
-    * коэффициенты оценки факторов.
+  - Выбрать переменные.
-  - Выполните аналогичную последовательность с другим видом поворота нагрузок. Приведите в отчете вышеперечисленные данные. Объясните полученные результаты.
+  - Выполнить кластер-анализ.
-  - Краткая справка о видах поворота:
+  - Проанализировать результаты кластеризации (K-means Clustering Results).
-    * Unordered List ItemQuartimax raw: Эта опция выполнит quartimax вращение факторных нагрузок. Это вращение максимизирует дисперсии факторных нагрузок поперек факторов для каждой переменной; это эквивалентно максимизированию дисперсий в строках матрицы необработанных факторных нагрузок.
+    * анализ дисперсии (Analysis of variance);
-    * Biquartimax raw: Эта опция выполнит biquartimax вращение (циклический сдвиг) необработанных факторных нагрузок. Это вращение (циклический сдвиг) может рассматриваться, как бы "четная смесь" varimax и quartimax вращения. Это нацелено, одновременно на максимизацию сумм дисперсий необработанных факторных нагрузок поперек факторов и максимизацию сумм дисперсий необработанных факторных нагрузок поперек переменных; это эквивалентно одновременно максимизированию дисперсий в строках и столбцах матрицы необработанных факторных нагрузок.
+    * математические ожидания и евклидовы расстояния между кластерами (cluster means & Euclidian distance);
-    * Equamax raw: Эта опция выполнит equamax вращение необработанных факторных нагрузок. Это вращение может рассматриваться, как быть "тяжелой смесью" varimax и quartimax вращения. Это одновременно максимизирует сумму дисперсий необработанных факторных нагрузок поперек факторов и максимизирует сумму дисперсий необработанных факторных нагрузок поперек переменных; это эквивалентно одновременно максимизированию дисперсий в строках и столбцах матрицы необработанных факторных нагрузок. Однако, в отличие от biquartimax вращения, относительный вес, назначенный к varimax критерию во вращении равен числу факторов разделенных на 2.
+    * графики математических ожиданий  по кластерам;
-==== 3.	Исследование метода главной оси ====
+    * дискриптивные статистики по кластерам;
-В этом методе, в каждой итерации, собственные числа вычислены из текущих корреляций; затем корреляции повторно вычислены на основании полученных собственных чисел. Новые корреляции затем помещены в диагональ матрицы корреляций, и следующая итерация начинается. Итерации продолжатся до:
+    * содержание кластеров (members of each cluster & distance ).
-  * Максимальное число итераций превышено, или
+  - Провести кластеризацию методом К-средних по признакам.
-  * Минимум
+  - Сохранить графики и таблицы результатов исследования.
-  - Для использования данного метода в окне «Define Method of Factor Extraction» выберите «Principal axis method».
+  - Сделать сравнительные выводы по проведенным исследованиям.
-  - Приведите в отчете результаты исследования:
+  - Оформить результаты в виде отчета.
-    * главные характеристики;
-    * график собственных чисел;
-    * матрица корреляций;
-    * факторная нагрузка;
-    * графики зависимостей между факторами;
-    * коэффициенты факторной оценки.
-  - Сделайте вывод о проделанном исследовании.

se.moevm.info

User Tools

Site Tools

Differences

Page Tools