courses:data_analysis_and_interpretation:task6

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
courses:data_analysis_and_interpretation:task6 [2019/01/15 10:10]
andrey.suchkov [Порядок выполнения работы]
courses:data_analysis_and_interpretation:task6 [2019/07/11 13:54]
andrey.suchkov [Основные теоретические положения]
Line 1: Line 1:
-====== Практическая работа №6: Исследование методов ​многомерного ​шкалирования ​======+====== Практическая работа №6: Исследование методов ​факторного ​анализа ======
 ===== Цель работы ===== ===== Цель работы =====
-Ознакомиться с методами ​многомерного ​шкалирования ​на основе ​пакета Statistica.+Ознакомиться с методами ​факторного ​анализа на основе ​языка R.
 ===== Основные теоретические положения ===== ===== Основные теоретические положения =====
-Многомерное шкалирование (МНШможно рассматривать как альтернативу факторному ​анализу. Целью последнего, вообще говоря, является поиск и интерпретация «латентных .е. непосредственно не наблюдаемых) переменных», дающих возможность пользователю ​объяснить сходства между объектами, заданными точками в исходном ​пространстве признаков. Для определенности и краткости, далее, как правило, будем говорить лишь о сходствах объектов, имея ввиду, что на практике это могут быть ​различия, расстояния или степени связи между ними. В факторном анализе ​сходства между объектами ​(например, ​переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ ​дополнительно к корреляционным матрицам, ​в качестве исходных данных можно ​использовать ​произвольный тип матрицы сходства объектов. Таким ​образом, на входе ​всех алгоритмов МНШ ​используется матрица, элемент которой на пересечении её //i//-й строки и //j//-го столбцасодержит сведения о попарном сходстве анализируемых ​объектов (объекта ​//i// и объекта //j//). На выходе алгоритма ​МНШ получаются числовые значения координат, которые приписываются каждому объекту ​в некоторой новой системе ​координат ​о «вспомогательных шкалах», связанных с латентными переменными, откуда ​и название МНШ)причем размерность ​нового ​пространства признаков существенно ​меньше размерности исходного (за это собственно и идет борьба).\\ +Главными целями факторного анализа являются сокращение ​числа переменных ​(редукция данныхи определение структуры взаимосвязей ​между переменнымит.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения ​данных или как метод классификации. 
-Логику МНШ ​можно ​проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. ​сходства некоторых признаков) ​между крупными американскими городами. Анализируя матрицу, стремятся расположить точки с координатами ​городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ​ними. Полученное размещение точек ​на плоскости впоследствии можно использовать в качестве приближенной географической карты США.\\ + 
-В общем ​случае метод МНШ позволяет таким образом расположить «объекты» (города в данном примере) ​в пространстве некоторой ​небольшой размерности ​(в данном случае она равна ​двум), чтобы достаточно адекватно воспроизвести ​наблюдаемые расстояния ​между ​ними. В результате можно «измерить» эти расстояния в терминах найденных латентных переменных. Так, в данном примере можно объяснить расстояния ​в терминах пары географических координат Север/Юг и Восток/​Запад.+Предположим, что вы проводите (до некоторой ​степени <<​глупое>>​) ​исследование, в котором измеряете рост ста людей в дюймах и сантиметрах. Таким ​образом, у вас имеются две переменные. Если далее вы захотите исследовать,​ например, влияние различных ​пищевых добавок на рост, будете ли вы продолжать использовать обе переменные?​ Вероятно, нет, т.к. рост ​является одной характеристикой человеканезависимо от того, в каких единицах ​он измеряется. 
 + 
 +Теперь предположим, вы хотите измерить удовлетворенность людей жизнью, для чего составляете вопросник с различными пунктами; среди других вопросов задаете следующие:​ удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются (пункт 2). Результаты преобразуются так, что средние ​ответы (например, ​для удовлетворенности) соответствуют значению 100, в то время как ниже и выше средних ответов расположены меньшие и большие значения,​ соответственно. Две переменные (ответы на два разных ​пункта) коррелированы между собой. Из высокой коррелированности двух этих ​переменных можно сделать ​вывод об избыточности двух пунктов опросника. 
 + 
 +Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем ​подгонки линия ​регрессии дает графическое представление зависимости. Если определить новую ​переменную на основе линии регрессии,​ изображенной на этой диаграмме,​ то такая переменная ​будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически, вы сократили ​число ​переменных и заменили две ​одной. Отметимчто новый фактор ​(переменная) в действительности является ​линейной ​комбинацией двух исходных переменных. 
 + 
 +Пример,​ в котором две коррелированные переменные ​объединены в один ​фактор, показывает главную идею факторного анализа или, более точно, анализа главных компонент (это ​различие будет обсуждаться позднее). Если ​пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или ​более зависимых переменных ​одним фактором остается в силе
 + 
 +В основном процедура выделения главных компонент подобна вращению, максимизирующему дисперсию (варимаксисходного пространства переменных. Напримерна диаграмме рассеяния вы можете ​рассматривать линию регрессии как ось X, повернув ее так, что она ​совпадает ​с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий ​(цель) вращения заключается в максимизации дисперсии (изменчивости) <<​новой>>​ переменной (фактора) и минимизации разброса вокруг нее. 
 + 
 +Напомним, что анализ главных ​компонент является методом ​сокращения или редукции данных,​ т.е. ​методом сокращения числа переменных. Возникает естественный вопрос: сколько факторов ​следует выделять? Отметим, что в процессе последовательного выделения факторов ​они включают в себя все меньше и меньше изменчивости. Решение о том, когда ​следует остановить процедуру ​выделения факторов,​ главным образом зависит от точки зрения на то, что считать малой <<​случайной>> ​изменчивостью. Это решение достаточно произвольно, однако имеются некоторые рекомендациипозволяющие рационально выбрать число факторов.
 ===== Общая формулировка задачи ===== ===== Общая формулировка задачи =====
-  * Ознакомиться с теорией многомерного ​шкалирования+  * Ознакомиться с основами факторного ​анализа. 
-  * Провести исследование на имеющихся данных. +  * Ознакомиться с работой ​в пакете Statistica c разделом Факторный анализ
-  * Оформить ​результаты в виде отчёта.+  * Провести исследование по построению факторных ​моделей для ​исходных ​данных. 
 +  * Подготовить ​отчет по исследованию.
 ===== Порядок выполнения работы ===== ===== Порядок выполнения работы =====
-  - Запустить пакет Statistica. Войти в меню "Statistics" → "​Advanced/​Multivariate" → "Mult/Exploratory": +==== 1. Исследование ​по построению факторных моделей ==== 
-    - в выпадающем меню выбрать ​"​Cluster";​ +  - В системе STATISTICA в панели ​Statistics->Multivariate Exploratory ​Techniques (Методы исследования ​многомерных данных) нужно ​выбрать ​пункт Factor (Дискриминантный анализ). 
-    с помощью одного из методов ​кластер-анализа получить матрицу ​расстояний, задав ​следующие параметры для кластеризации в панели меню "​Advanced":​ +  Кликнув ​по Values выбрать переменные ​для факторного ​анализа: номер класса не включаем. Кликнуть ОК. 
-      * выбрать ​все вектора выборки(cases)В случае выдачи ошибки о слишком большом числе векторов разделите ​выборку на 2 частиотобрав по половине векторов из каждого класса. Работайте только с одной из частей; +  - На вкладке «Quick» ввести максимальное количество факторов равным 4, минимальное ​собственное число – 4. Кликнуть ОК. 
-      * установить ​параметр Cluster = cases; +  - В открывшемся окне Factor Analysis Results во вкладке Quick кликнуть ​по «Eigenvalues»,​ таким образом выведем главные характеристики - собственные числа ​матрицы корреляций. 
-      * выбрать метод связывания; +  - Вывести полученную таблицу ​в отчет
-      ​* ​выбрать метод измерения расстояния; +  - Перейти ​во вкладку Explained Variance. Кликнуть Scree plotПривести полученный график собственных чисел в отчете, а также ​матрицу корреляций (Вкладка Descriptives -> Review Correlations…->​ Correlations). 
-      * запустить процедуру кластеризации. +  - Привести ​в отчете Факторная нагрузку – корреляция между старыми переменными (признаками) и новыми факторами, выделенными из признаков. Для этого в окне Factor Analysis Results ​выбрать Factor Loadings. 
-    Сохранить матрицу расстояний. +  - Отобразить графики зависимостей между факторами (Вкладка Quick, кнопка Plot of factor loadings, 2D), а также все факторы в трехмерном пространстве (Вкладка Loadings, кнопка Plot of loadings, 3D) 
-  - Запустить модуль статистики ​"​Multidimensional Scaling":​ +  - Вывести коэффициенты факторной ​оценки:​ для анализа ​главных компонент, точные коэффициенты могут быть вычислены из (вращаемых или не вращаемых) факторных нагрузок. Для этого перейдите во вкладку Scores и кликните по кнопке «Factor Scores Coefficients». 
-    - в меню "​Quick"​ выбрать переменные (all variables); +  - Также приведите таблицу с факторным множеством, основанным на факторных коэффициентах счета. 
-    - в этом же меню ​ввести значение размерности для анализа; +==== 2. Выполнение исследования с поворотом факторных нагрузок ==== 
-    - в меню "​Options"​ выбрать конфигурацию "​Standard Guttman-Lingoes",​ OK; +  - В окне Factor Analysis Results во вкладке Quick установите опцию Factror Rotation в значение Varimax raw
-    - просмотреть данные ​в окне Parameter Estimation, OK+  Эта опция выполнит ​вращение (циклический ​сдвиг) факторных ​нагрузок. Это вращение (циклический сдвиг) нацелено,​ на максимизацию дисперсии ​необработанных факторных нагрузок поперек ​переменных для каждого фактора; это ​- эквивалентное максимизирование разницы в столбцах матрицы необработанных факторных нагрузок. 
-    ​в диалоговом окне "​Results"​ (Результатыпроанализировать результаты многомерного ​шкалирования+  Выполните исследование и приведите в отчете следующие ​данные
-      * Final Configuration;​ +    * таблица факторных нагрузок
-      * D-hat Values; +    ​* графики зависимостей между факторами и график всех факторов в трехмерном пространстве
-      * D-star Values; +    * коэффициенты оценки факторов. 
-      * Distance Matrix; +  - Выполните ​аналогичную последовательность с другим видом поворота нагрузок. Приведите в отчете ​вышеперечисленные данные. Объясните полученные результаты
-      * Summary+  Краткая справка ​о видах поворота
-    cохранить координаты заключительной ​конфигурации в стандартном файле данных; +    * Unordered List ItemQuartimax raw: Эта опция выполнит ​quartimax вращение факторных нагрузок. Это вращение максимизирует ​дисперсии факторных нагрузок поперек факторов для каждой переменной; это эквивалентно максимизированию дисперсий ​в строках матрицы ​необработанных ​факторных нагрузок. 
-    ​- построить график заключительной конфигурации ​"​Graphs final configuration - 2D, 3D"; +    ​* Biquartimax raw: Эта опция выполнит biquartimax вращение (циклический сдвиг) ​необработанных ​факторных нагрузок. Это вращение (циклический сдвиг) может рассматриваться, как бы "​четная смесь" varimax и quartimax вращения. Это нацелено,​ одновременно на максимизацию ​сумм дисперсий ​необработанных факторных нагрузок ​поперек факторов и максимизацию сумм дисперсий необработанных факторных нагрузок поперек переменных; это эквивалентно ​одновременно ​максимизированию ​дисперсий в строках и столбцах матрицы необработанных факторных нагрузок. 
-    - построить ​диаграмму Шепарда зависимости D-hats от расстояний "Graph D-hat vs.Distances";​ +    * Equamax raw: Эта опция выполнит equamax вращение необработанных ​факторных нагрузок. Это вращение может рассматриваться, как быть "тяжелой смесью"​ varimax и quartimax ​вращения. Это одновременно максимизирует сумму дисперсий необработанных факторных нагрузок поперек факторов ​и максимизирует сумму дисперсий ​необработанных факторных нагрузок ​поперек переменных;​ это эквивалентно одновременно максимизированию дисперсий в строках и столбцах ​матрицы необработанных факторных нагрузок. Однако, в отличие ​от biquartimax ​вращения, относительный вес, назначенный к varimax критерию во вращении ​равен числу факторов разделенных ​на 2. 
-    - построить диаграмму Шепарда зависимости D-stars ​от расстояний "Graph D-star vs.Distances"​. +==== 3. Исследование метода ​главной оси ==== 
-  - Вернитесь ​к исходной выборке (неразделенной): +В этом методе,​ в каждой ​итерации, собственные числа вычислены из текущих корреляций; затем корреляции повторно вычислены на основании полученных собственных чиселНовые корреляции затем помещены в диагональ матрицы корреляций,​ и следующая итерация ​начинается. Итерации продолжатся до: 
-    - Проделайте п.3-4 для признаков (variables), ​то есть при формировании матрицы расстояний выбрать все переменные, кроме целевой, и установить параметр Cluster = variables. +  * Максимальное число итераций ​превышено, или 
-    - При проведении многомерного ​шкалирования ​- выбрать все переменные (all variables) и ввести значение размерности для анализа = 2. +  * Минимум 
-    - Сохранить графики и таблицы результатов исследования. +  - Для ​использования ​данного ​метода в окне «Define Method of Factor Extraction» выберите «Principal axis method»
-    - Сделать сравнительные выводы по проведенным исследованиям. +  Приведите в отчете результаты исследования
-    Сравните результаты ​шкалирования выборки по признакам с результатами факторного ​анализа, полученными в предыдущей ​работе. +    * главные характеристики; 
-  - Оформить результаты в виде отчета.+    * график собственных чисел
 +    * матрица корреляций; 
 +    * факторная нагрузка;​ 
 +    * графики зависимостей между факторами; 
 +    * коэффициенты факторной оценки
 +  - Сделайте вывод о проделанном исследовании.
courses/data_analysis_and_interpretation/task6.txt · Last modified: 2022/12/10 09:08 (external edit)