Differences

This shows you the differences between two versions of the page.

--- courses:data_analysis_and_interpretation:task6 [2019/06/25 09:05]
andrey.suchkov [Основные теоретические положения]
+++ courses:data_analysis_and_interpretation:task6 [2022/12/10 09:08] (current)
@@ Line 1: / Line 1: @@
-====== Практическая работа №6: Исследование методов факторного анализа ======
+====== Практическая работа №6: Исследование методов многомерного шкалирования ======
 ===== Цель работы =====
-Ознакомиться с методами факторного анализа на основе пакета Statistica.
+Ознакомиться с методами многомерного шкалирования на основе языка R.
 ===== Основные теоретические положения =====
-Главными целями факторного анализа являются сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации.
+Многомерное шкалирование (МНШ) можно рассматривать как альтернативу факторному анализу. Целью последнего, вообще говоря, является поиск и интерпретация «латентных (т.е. непосредственно не наблюдаемых) переменных», дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Для определенности и краткости, далее, как правило, будем говорить лишь о сходствах объектов, имея ввиду, что на практике это могут быть различия, расстояния или степени связи между ними. В факторном анализе сходства между объектами (например, переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ дополнительно к корреляционным матрицам, в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов. Таким образом, на входе всех алгоритмов МНШ используется матрица, элемент которой на пересечении её //i//-й строки и //j//-го столбца, содержит сведения о попарном сходстве анализируемых объектов (объекта //i// и объекта //j//). На выходе алгоритма МНШ получаются числовые значения координат, которые приписываются каждому объекту в некоторой новой системе координат (во «вспомогательных шкалах», связанных с латентными переменными, откуда и название МНШ), причем размерность нового пространства признаков существенно меньше размерности исходного (за это собственно и идет борьба).
-Предположим, что вы проводите (до некоторой степени «глупое») исследование, в котором измеряете рост ста людей в дюймах и сантиметрах. Таким образом, у вас имеются две переменные. Если далее вы захотите исследовать, например, влияние различных пищевых добавок на рост, будете ли вы продолжать использовать обе переменные? Вероятно, нет, т.к. рост является одной характеристикой человека, независимо от того, в каких единицах он измеряется.
+Логику МНШ можно проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между крупными американскими городами. Анализируя матрицу, стремятся расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты США.
-Теперь предположим, вы хотите измерить удовлетворенность людей жизнью, для чего составляете вопросник с различными пунктами; среди других вопросов задаете следующие: удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются (пункт 2). Результаты преобразуются так, что средние ответы (например, для удовлетворенности) соответствуют значению 100, в то время как ниже и выше средних ответов расположены меньшие и большие значения, соответственно. Две переменные (ответы на два разных пункта) коррелированы между собой. Из высокой коррелированности двух этих переменных можно сделать вывод об избыточности двух пунктов опросника.
+В общем случае метод МНШ позволяет таким образом расположить <<объекты>> (города в данном примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно <<измерить>> эти расстояния в терминах найденных латентных переменных. Так, в данном примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/Запад.
+===== Постановка задачи =====
+===== Порядок выполнения работы =====
+===== Содержание отчёта =====
-Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически, вы сократили число переменных и заменили две одной. Отметим, что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных.
-Пример, в котором две коррелированные переменные объединены в один фактор, показывает главную идею факторного анализа или, более точно, анализа главных компонент (это различие будет обсуждаться позднее). Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.
-В основном процедура выделения главных компонент подобна вращению, максимизирующему дисперсию (варимакс) исходного пространства переменных. Например, на диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) «новой» переменной (фактора) и минимизации разброса вокруг нее.
-Напомним, что анализ главных компонент является методом сокращения или редукции данных, т.е. методом сокращения числа переменных. Возникает естественный вопрос: сколько факторов следует выделять? Отметим, что в процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости. Решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что считать малой «случайной» изменчивостью. Это решение достаточно произвольно, однако имеются некоторые рекомендации, позволяющие рационально выбрать число факторов.
-===== Общая формулировка задачи =====
-  * Ознакомиться с основами факторного анализа.
-  * Ознакомиться с работой в пакете Statistica c разделом Факторный анализ.
-  * Провести исследование по построению факторных моделей для исходных данных.
-  * Подготовить отчет по исследованию.
-===== Порядок выполнения работы =====
-==== 1. Исследование по построению факторных моделей ====
-  - В системе STATISTICA в панели Statistics->Multivariate Exploratory Techniques (Методы исследования многомерных данных) нужно выбрать пункт Factor (Дискриминантный анализ).
-  - Кликнув по Values выбрать переменные для факторного анализа: номер класса не включаем. Кликнуть ОК.
-  - На вкладке «Quick» ввести максимальное количество факторов равным 4, минимальное собственное число – 4. Кликнуть ОК.
-  - В открывшемся окне Factor Analysis Results во вкладке Quick кликнуть по «Eigenvalues», таким образом выведем главные характеристики - собственные числа матрицы корреляций.
-  - Вывести полученную таблицу в отчет.
-  - Перейти во вкладку Explained Variance. Кликнуть Scree plot. Привести полученный график собственных чисел в отчете, а также матрицу корреляций (Вкладка Descriptives -> Review Correlations…-> Correlations).
-  - Привести в отчете Факторная нагрузку – корреляция между старыми переменными (признаками) и новыми факторами, выделенными из признаков. Для этого в окне Factor Analysis Results выбрать Factor Loadings.
-  - Отобразить графики зависимостей между факторами (Вкладка Quick, кнопка Plot of factor loadings, 2D), а также все факторы в трехмерном пространстве (Вкладка Loadings, кнопка Plot of loadings, 3D)
-  - Вывести коэффициенты факторной оценки: для анализа главных компонент, точные коэффициенты могут быть вычислены из (вращаемых или не вращаемых) факторных нагрузок. Для этого перейдите во вкладку Scores и кликните по кнопке «Factor Scores Coefficients».
-  - Также приведите таблицу с факторным множеством, основанным на факторных коэффициентах счета.
-==== 2. Выполнение исследования с поворотом факторных нагрузок ====
-  - В окне Factor Analysis Results во вкладке Quick установите опцию Factror Rotation в значение Varimax raw.
-  - Эта опция выполнит вращение (циклический сдвиг) факторных нагрузок. Это вращение (циклический сдвиг) нацелено, на максимизацию дисперсии необработанных факторных нагрузок поперек переменных для каждого фактора; это - эквивалентное максимизирование разницы в столбцах матрицы необработанных факторных нагрузок.
-  - Выполните исследование и приведите в отчете следующие данные:
-    * таблица факторных нагрузок;
-    * графики зависимостей между факторами и график всех факторов в трехмерном пространстве;
-    * коэффициенты оценки факторов.
-  - Выполните аналогичную последовательность с другим видом поворота нагрузок. Приведите в отчете вышеперечисленные данные. Объясните полученные результаты.
-  - Краткая справка о видах поворота:
-    * Unordered List ItemQuartimax raw: Эта опция выполнит quartimax вращение факторных нагрузок. Это вращение максимизирует дисперсии факторных нагрузок поперек факторов для каждой переменной; это эквивалентно максимизированию дисперсий в строках матрицы необработанных факторных нагрузок.
-    * Biquartimax raw: Эта опция выполнит biquartimax вращение (циклический сдвиг) необработанных факторных нагрузок. Это вращение (циклический сдвиг) может рассматриваться, как бы "четная смесь" varimax и quartimax вращения. Это нацелено, одновременно на максимизацию сумм дисперсий необработанных факторных нагрузок поперек факторов и максимизацию сумм дисперсий необработанных факторных нагрузок поперек переменных; это эквивалентно одновременно максимизированию дисперсий в строках и столбцах матрицы необработанных факторных нагрузок.
-    * Equamax raw: Эта опция выполнит equamax вращение необработанных факторных нагрузок. Это вращение может рассматриваться, как быть "тяжелой смесью" varimax и quartimax вращения. Это одновременно максимизирует сумму дисперсий необработанных факторных нагрузок поперек факторов и максимизирует сумму дисперсий необработанных факторных нагрузок поперек переменных; это эквивалентно одновременно максимизированию дисперсий в строках и столбцах матрицы необработанных факторных нагрузок. Однако, в отличие от biquartimax вращения, относительный вес, назначенный к varimax критерию во вращении равен числу факторов разделенных на 2.
-==== 3.	Исследование метода главной оси ====
-В этом методе, в каждой итерации, собственные числа вычислены из текущих корреляций; затем корреляции повторно вычислены на основании полученных собственных чисел. Новые корреляции затем помещены в диагональ матрицы корреляций, и следующая итерация начинается. Итерации продолжатся до:
-  * Максимальное число итераций превышено, или
-  * Минимум
-  - Для использования данного метода в окне «Define Method of Factor Extraction» выберите «Principal axis method».
-  - Приведите в отчете результаты исследования:
-    * главные характеристики;
-    * график собственных чисел;
-    * матрица корреляций;
-    * факторная нагрузка;
-    * графики зависимостей между факторами;
-    * коэффициенты факторной оценки.
-  - Сделайте вывод о проделанном исследовании.

se.moevm.info

User Tools

Site Tools

Differences

Page Tools