courses:data_analysis_and_interpretation:task6

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task6 [2019/06/25 09:05]
andrey.suchkov [Основные теоретические положения]
courses:data_analysis_and_interpretation:task6 [2022/12/10 09:08] (current)
Line 1: Line 1:
-====== Практическая работа №6: Исследование методов ​факторного ​анализа ======+====== Практическая работа №6: Исследование методов ​многомерного ​шкалирования ​======
 ===== Цель работы ===== ===== Цель работы =====
-Ознакомиться с методами ​факторного ​анализа на основе ​пакета Statistica.+Ознакомиться с методами ​многомерного ​шкалирования ​на основе ​языка R.
 ===== Основные теоретические положения ===== ===== Основные теоретические положения =====
-Главными целями факторного анализа являются ​сокращение числа переменных ​едукция данныхи определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный ​анализ используется или как метод сокращения ​данных или как метод классификации.+Многомерное шкалирование ​(МНШ) ​можно рассматривать как альтернативу ​факторному анализу. Целью последнего,​ вообще говоря, ​является ​поиск и интерпретация «латентных (т.е. непосредственно не наблюдаемых) ​переменных», дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Для ​определенности и краткости, далее, как правило, будем говорить лишь о сходствах объектов, имея ввиду, что на практике это ​могут быть различия,​ расстояния или степени ​связи между ними. В факторном анализе сходства ​между ​объектами (например, ​переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ дополнительно к корреляционным матрицам,​ в качестве исходных данных ​можно использовать произвольный тип ​матрицы сходства объектов. Таким образом, ​на входе всех ​алгоритмов МНШ ​используется ​матрица, элемент которой на пересечении её //i//-й строки и //j//-го столбца, содержит сведения ​о попарном сходстве анализируемых объектов (объекта //i// и объекта //j//). На выходе алгоритма МНШ получаются числовые значения ​координат, которые приписываются каждому объекту в некоторой новой системе координат (во «вспомогательных шкалах», связанных ​с латентными переменными, откуда и название МНШ), причем размерность нового пространства признаков существенно меньше размерности исходного (за это собственно и идет борьба).
  
-Предположим,​ что ​вы проводите (до некоторой ​степени «глупое») исследование, в котором измеряете рост ста людей в дюймах и сантиметрах. Таким образом, у вас имеются две переменные. Если далее вы захотите исследовать, напримервлияние различных пищевых добавок ​на рост, будете ли вы продолжать использовать ​обе переменные? Вероятно, ​нет, т.к. рост является одной характеристикой человека, независимо от тогов каких единицах он измеряется.+Логику МНШ можно проиллюстрировать на следующем простом примере. ​Предположим,​ что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) ​между крупными американскими городами. Анализируя ​матрицу, ​стремятся расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив ​реальные расстояния между нимиПолученное размещение точек на плоскости ​впоследствии можно использовать в качестве приближенной географической карты США.
  
-Теперь предположим, ​вы хотите измерить ​удовлетворенность людей жизнью, ​для чего составляете вопросник с различными пунктами;​ среди других ​вопросов задаете следующие:​ удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются (пункт 2). Результаты преобразуются так, что ​средние ​ответы (например, для удовлетворенности) соответствуют значению 100, в то время как ​ниже и выше средних ответов расположены меньшие ​и большие значения, соответственно. Две ​переменные (ответы на два разных пункта) коррелированы между собой. Из высокой коррелированности ​двух этих переменных можно сделать вывод об избыточности двух пунктов опросника.+В общем случае метод МНШ ​позволяет таким образом расположить ​<<объекты>> (города в данном примерев пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно <<​измерить>> эти расстояния в терминах найденных латентных переменных. Так, ​в данном примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/​Запад
 +===== Постановка задачи ===== 
 +===== Порядок выполнения работы ===== 
 +===== Содержание отчёта =====
  
-Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии,​ изображенной на этой диаграмме,​ то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически,​ вы сократили число переменных и заменили две одной. Отметим,​ что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных. 
  
-Пример,​ в котором две коррелированные переменные объединены в один фактор,​ показывает главную идею факторного анализа или, более точно, анализа главных компонент (это различие будет обсуждаться позднее). Если пример с двумя переменными распространить на большее число переменных,​ то вычисления становятся сложнее,​ однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе. 
  
-В основном процедура выделения главных компонент подобна вращению,​ максимизирующему дисперсию (варимакс) исходного пространства переменных. Например,​ на диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип вращения называется вращением,​ максимизирующим дисперсию,​ так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) «новой» переменной (фактора) и минимизации разброса вокруг нее. 
- 
-Напомним,​ что анализ главных компонент является методом сокращения или редукции данных,​ т.е. методом сокращения числа переменных. Возникает естественный вопрос:​ сколько факторов следует выделять?​ Отметим,​ что в процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости. Решение о том, когда следует остановить процедуру выделения факторов,​ главным образом зависит от точки зрения на то, что считать малой «случайной» изменчивостью. Это решение достаточно произвольно,​ однако имеются некоторые рекомендации,​ позволяющие рационально выбрать число факторов. 
-===== Общая формулировка задачи ===== 
-  * Ознакомиться с основами факторного анализа. 
-  * Ознакомиться с работой в пакете Statistica c разделом Факторный анализ. 
-  * Провести исследование по построению факторных моделей для исходных данных. 
-  * Подготовить отчет по исследованию. 
-===== Порядок выполнения работы ===== 
-==== 1. Исследование по построению факторных моделей ==== 
-  - В системе STATISTICA в панели Statistics->​Multivariate Exploratory Techniques (Методы исследования многомерных данных) нужно выбрать пункт Factor (Дискриминантный анализ). 
-  - Кликнув по Values выбрать переменные для факторного анализа:​ номер класса не включаем. Кликнуть ОК. 
-  - На вкладке «Quick» ввести максимальное количество факторов равным 4, минимальное собственное число – 4. Кликнуть ОК. 
-  - В открывшемся окне Factor Analysis Results во вкладке Quick кликнуть по «Eigenvalues»,​ таким образом выведем главные характеристики - собственные числа матрицы корреляций. 
-  - Вывести полученную таблицу в отчет. 
-  - Перейти во вкладку Explained Variance. Кликнуть Scree plot. Привести полученный график собственных чисел в отчете,​ а также матрицу корреляций (Вкладка Descriptives -> Review Correlations…->​ Correlations). 
-  - Привести в отчете Факторная нагрузку – корреляция между старыми переменными (признаками) и новыми факторами,​ выделенными из признаков. Для этого в окне Factor Analysis Results выбрать Factor Loadings. 
-  - Отобразить графики зависимостей между факторами (Вкладка Quick, кнопка Plot of factor loadings, 2D), а также все факторы в трехмерном пространстве (Вкладка Loadings, кнопка Plot of loadings, 3D) 
-  - Вывести коэффициенты факторной оценки:​ для анализа главных компонент,​ точные коэффициенты могут быть вычислены из (вращаемых или не вращаемых) факторных нагрузок. Для этого перейдите во вкладку Scores и кликните по кнопке «Factor Scores Coefficients». 
-  - Также приведите таблицу с факторным множеством,​ основанным на факторных коэффициентах счета. 
-==== 2. Выполнение исследования с поворотом факторных нагрузок ==== 
-  - В окне Factor Analysis Results во вкладке Quick установите опцию Factror Rotation в значение Varimax raw. 
-  - Эта опция выполнит вращение (циклический сдвиг) факторных нагрузок. Это вращение (циклический сдвиг) нацелено,​ на максимизацию дисперсии необработанных факторных нагрузок поперек переменных для каждого фактора;​ это - эквивалентное максимизирование разницы в столбцах матрицы необработанных факторных нагрузок. 
-  - Выполните исследование и приведите в отчете следующие данные:​ 
-    * таблица факторных нагрузок;​ 
-    * графики зависимостей между факторами и график всех факторов в трехмерном пространстве;​ 
-    * коэффициенты оценки факторов. 
-  - Выполните аналогичную последовательность с другим видом поворота нагрузок. Приведите в отчете вышеперечисленные данные. Объясните полученные результаты. 
-  - Краткая справка о видах поворота:​ 
-    * Unordered List ItemQuartimax raw: Эта опция выполнит quartimax вращение факторных нагрузок. Это вращение максимизирует дисперсии факторных нагрузок поперек факторов для каждой переменной;​ это эквивалентно максимизированию дисперсий в строках матрицы необработанных факторных нагрузок. 
-    * Biquartimax raw: Эта опция выполнит biquartimax вращение (циклический сдвиг) необработанных факторных нагрузок. Это вращение (циклический сдвиг) может рассматриваться,​ как бы "​четная смесь"​ varimax и quartimax вращения. Это нацелено,​ одновременно на максимизацию сумм дисперсий необработанных факторных нагрузок поперек факторов и максимизацию сумм дисперсий необработанных факторных нагрузок поперек переменных;​ это эквивалентно одновременно максимизированию дисперсий в строках и столбцах матрицы необработанных факторных нагрузок. 
-    * Equamax raw: Эта опция выполнит equamax вращение необработанных факторных нагрузок. Это вращение может рассматриваться,​ как быть "​тяжелой смесью"​ varimax и quartimax вращения. Это одновременно максимизирует сумму дисперсий необработанных факторных нагрузок поперек факторов и максимизирует сумму дисперсий необработанных факторных нагрузок поперек переменных;​ это эквивалентно одновременно максимизированию дисперсий в строках и столбцах матрицы необработанных факторных нагрузок. Однако,​ в отличие от biquartimax вращения,​ относительный вес, назначенный к varimax критерию во вращении равен числу факторов разделенных на 2. 
-==== 3. Исследование метода главной оси ==== 
-В этом методе,​ в каждой итерации,​ собственные числа вычислены из текущих корреляций;​ затем корреляции повторно вычислены на основании полученных собственных чисел. Новые корреляции затем помещены в диагональ матрицы корреляций,​ и следующая итерация начинается. Итерации продолжатся до: 
-  * Максимальное число итераций превышено,​ или 
-  * Минимум 
-  - Для использования данного метода в окне «Define Method of Factor Extraction» выберите «Principal axis method». 
-  - Приведите в отчете результаты исследования:​ 
-    * главные характеристики;​ 
-    * график собственных чисел; 
-    * матрица корреляций;​ 
-    * факторная нагрузка;​ 
-    * графики зависимостей между факторами;​ 
-    * коэффициенты факторной оценки. 
-  - Сделайте вывод о проделанном исследовании. 
courses/data_analysis_and_interpretation/task6.1561453547.txt.gz · Last modified: 2022/12/10 09:08 (external edit)