courses:data_analysis_and_interpretation:task5

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task5 [2019/01/13 14:52]
andrey.suchkov
courses:data_analysis_and_interpretation:task5 [2022/12/10 09:08] (current)
Line 1: Line 1:
 ====== Практическая работа №5: Исследование методов факторного анализа ====== ====== Практическая работа №5: Исследование методов факторного анализа ======
 ===== Цель работы ===== ===== Цель работы =====
-Ознакомиться с методами факторного анализа на основе ​пакета Statistica.+Ознакомиться с методами факторного анализа на основе ​языка R.
 ===== Основные теоретические положения ===== ===== Основные теоретические положения =====
-Главными целями факторного анализа являются сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными,​ т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации.\\ +Главными целями факторного анализа являются сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными,​ т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации. 
-Предположим,​ что вы проводите (до некоторой степени ​«глупое») исследование,​ в котором измеряете рост ста людей в дюймах и сантиметрах. Таким образом,​ у вас имеются две переменные. Если далее вы захотите исследовать,​ например,​ влияние различных пищевых добавок на рост, будете ли вы продолжать использовать обе переменные?​ Вероятно,​ нет, т.к. рост является одной характеристикой человека,​ независимо от того, в каких единицах он измеряется.\\ + 
-Теперь предположим,​ вы хотите измерить удовлетворенность людей жизнью,​ для чего составляете вопросник с различными пунктами;​ среди других вопросов задаете следующие:​ удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются (пункт 2). Результаты преобразуются так, что средние ответы (например,​ для удовлетворенности) соответствуют значению 100, в то время как ниже и выше средних ответов расположены меньшие и большие значения,​ соответственно. Две переменные (ответы на два разных пункта) коррелированы между собой. Из высокой коррелированности двух этих переменных можно сделать вывод об избыточности двух пунктов опросника.\\ +Предположим,​ что вы проводите (до некоторой степени ​<<глупое>>) исследование,​ в котором измеряете рост ста людей в дюймах и сантиметрах. Таким образом,​ у вас имеются две переменные. Если далее вы захотите исследовать,​ например,​ влияние различных пищевых добавок на рост, будете ли вы продолжать использовать обе переменные?​ Вероятно,​ нет, т.к. рост является одной характеристикой человека,​ независимо от того, в каких единицах он измеряется. 
-Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии,​ изображенной на этой диаграмме,​ то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически,​ вы сократили число переменных и заменили две одной. Отметим,​ что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных.\\ + 
-Пример,​ в котором две коррелированные переменные объединены в один фактор,​ показывает главную идею факторного анализа или, более точно, анализа главных компонент (это различие будет обсуждаться позднее). Если пример с двумя переменными распространить на большее число переменных,​ то вычисления становятся сложнее,​ однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.\\ +Теперь предположим,​ вы хотите измерить удовлетворенность людей жизнью,​ для чего составляете вопросник с различными пунктами;​ среди других вопросов задаете следующие:​ удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются (пункт 2). Результаты преобразуются так, что средние ответы (например,​ для удовлетворенности) соответствуют значению 100, в то время как ниже и выше средних ответов расположены меньшие и большие значения,​ соответственно. Две переменные (ответы на два разных пункта) коррелированы между собой. Из высокой коррелированности двух этих переменных можно сделать вывод об избыточности двух пунктов опросника. 
-В основном процедура выделения главных компонент подобна вращению,​ максимизирующему дисперсию (варимакс) исходного пространства переменных. Например,​ на диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип вращения называется вращением,​ максимизирующим дисперсию,​ так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) ​«новой» переменной (фактора) и минимизации разброса вокруг нее.\\ + 
-Напомним,​ что анализ главных компонент является методом сокращения или редукции данных,​ т.е. методом сокращения числа переменных. Возникает естественный вопрос:​ сколько факторов следует выделять?​ Отметим,​ что в процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости. Решение о том, когда следует остановить процедуру выделения факторов,​ главным образом зависит от точки зрения на то, что считать малой ​«случайной» изменчивостью. Это решение достаточно произвольно,​ однако имеются некоторые рекомендации,​ позволяющие рационально выбрать число факторов.\\ +Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии,​ изображенной на этой диаграмме,​ то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически,​ вы сократили число переменных и заменили две одной. Отметим,​ что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных. 
-===== Общая формулировка задачи ===== + 
-  * Ознакомиться с основами факторного анализа. +Пример,​ в котором две коррелированные переменные объединены в один фактор,​ показывает главную идею факторного анализа или, более точно, анализа главных компонент (это различие будет обсуждаться позднее). Если пример с двумя переменными распространить на большее число переменных,​ то вычисления становятся сложнее,​ однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе. 
-  * Ознакомиться с работой в пакете Statistica c разделом Факторный анализ. + 
-  * Провести исследование по построению факторных моделей для исходных данных. +В основном процедура выделения главных компонент подобна вращению,​ максимизирующему дисперсию (варимакс) исходного пространства переменных. Например,​ на диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип вращения называется вращением,​ максимизирующим дисперсию,​ так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) ​<<новой>> ​переменной (фактора) и минимизации разброса вокруг нее. 
-  * Подготовить отчет по исследованию.+ 
 +Напомним,​ что анализ главных компонент является методом сокращения или редукции данных,​ т.е. методом сокращения числа переменных. Возникает естественный вопрос:​ сколько факторов следует выделять?​ Отметим,​ что в процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости. Решение о том, когда следует остановить процедуру выделения факторов,​ главным образом зависит от точки зрения на то, что считать малой ​<<случайной>> ​изменчивостью. Это решение достаточно произвольно,​ однако имеются некоторые рекомендации,​ позволяющие рационально выбрать число факторов. 
 +===== Постановка задачи =====
 ===== Порядок выполнения работы ===== ===== Порядок выполнения работы =====
-==== 1. Исследование по построению факторных моделей ​==== +===== Содержание отчёта ===== 
-  - В системе STATISTICA в панели Statistics->​Multivariate Exploratory Techniques (Методы исследования многомерных данных) нужно выбрать пункт Factor (Дискриминантный анализ). + 
-  - Кликнув по Values выбрать переменные для факторного анализа:​ номер класса не включаем. Кликнуть ОК. + 
-  - На вкладке «Quick» ввести максимальное количество факторов равным 4, минимальное собственное число – 4. Кликнуть ОК. +
-  - В открывшемся окне Factor Analysis Results во вкладке Quick кликнуть по «Eigenvalues»,​ таким образом выведем главные характеристики - собственные числа матрицы корреляций. +
-  - Вывести полученную таблицу в отчет. +
-  - Перейти во вкладку Explained Variance. Кликнуть Scree plot. Привести полученный график собственных чисел в отчете,​ а также матрицу корреляций (Вкладка Descriptives -> Review Correlations…->​ Correlations). +
-  - Привести в отчете Факторная нагрузку – корреляция между старыми переменными (признаками) и новыми факторами,​ выделенными из признаков. Для этого в окне Factor Analysis Results выбрать Factor Loadings. +
-  - Отобразить графики зависимостей между факторами (Вкладка Quick, кнопка Plot of factor loadings, 2D), а также все факторы в трехмерном пространстве (Вкладка Loadings, кнопка Plot of loadings, 3D) +
-  - Вывести коэффициенты факторной оценки:​ для анализа главных компонент,​ точные коэффициенты могут быть вычислены из (вращаемых или не вращаемых) факторных нагрузок. Для этого перейдите во вкладку Scores и кликните по кнопке «Factor Scores Coefficients». +
-  - Также приведите таблицу с факторным множеством,​ основанным на факторных коэффициентах счета. +
-==== 2. Выполнение исследования с поворотом факторных нагрузок ​==== +
-  - В окне Factor Analysis Results во вкладке Quick установите опцию Factror Rotation в значение Varimax raw. +
-  - Эта опция выполнит вращение (циклический сдвиг) факторных нагрузок. Это вращение (циклический сдвиг) нацелено,​ на максимизацию дисперсии необработанных факторных нагрузок поперек переменных для каждого фактора;​ это - эквивалентное максимизирование разницы в столбцах матрицы необработанных факторных нагрузок. +
-  - Выполните исследование и приведите в отчете следующие данные:​ +
-    * таблица факторных нагрузок;​ +
-    * графики зависимостей между факторами и график всех факторов в трехмерном пространстве;​ +
-    * коэффициенты оценки факторов. +
-  - Выполните аналогичную последовательность с другим видом поворота нагрузок. Приведите в отчете вышеперечисленные данные. Объясните полученные результаты. +
-  - Краткая справка о видах поворота:​ +
-    * Unordered List ItemQuartimax raw: Эта опция выполнит quartimax вращение факторных нагрузок. Это вращение максимизирует дисперсии факторных нагрузок поперек факторов для каждой переменной;​ это эквивалентно максимизированию дисперсий в строках матрицы необработанных факторных нагрузок. +
-    * Biquartimax raw: Эта опция выполнит biquartimax вращение (циклический сдвиг) необработанных факторных нагрузок. Это вращение (циклический сдвиг) может рассматриваться,​ как бы "​четная смесь"​ varimax и quartimax вращения. Это нацелено,​ одновременно на максимизацию сумм дисперсий необработанных факторных нагрузок поперек факторов и максимизацию сумм дисперсий необработанных факторных нагрузок поперек переменных;​ это эквивалентно одновременно максимизированию дисперсий в строках и столбцах матрицы необработанных факторных нагрузок. +
-    * Equamax raw: Эта опция выполнит equamax вращение необработанных факторных нагрузок. Это вращение может рассматриваться,​ как быть "​тяжелой смесью"​ varimax и quartimax вращения. Это одновременно максимизирует сумму дисперсий необработанных факторных нагрузок поперек факторов и максимизирует сумму дисперсий необработанных факторных нагрузок поперек переменных;​ это эквивалентно одновременно максимизированию дисперсий в строках и столбцах матрицы необработанных факторных нагрузок. Однако,​ в отличие от biquartimax вращения,​ относительный вес, назначенный к varimax критерию во вращении равен числу факторов разделенных на 2. +
-==== 3. Исследование метода главной оси ==== +
-В этом методе,​ в каждой итерации,​ собственные числа вычислены из текущих корреляций;​ затем корреляции повторно вычислены на основании полученных собственных чисел. Новые корреляции затем помещены в диагональ матрицы корреляций,​ и следующая итерация начинается. Итерации продолжатся до: +
-  * Максимальное число итераций превышено,​ или +
-  * Минимум +
-  - Для использования данного метода в окне «Define Method of Factor Extraction» выберите «Principal axis method». +
-  - Приведите в отчете результаты исследования:​ +
-    * главные характеристики;​ +
-    * график собственных чисел;​ +
-    * матрица корреляций;​ +
-    * факторная нагрузка;​ +
-    * графики зависимостей между факторами;​ +
-    * коэффициенты факторной оценки. +
-  - Сделайте вывод о проделанном исследовании.+
courses/data_analysis_and_interpretation/task5.1547391150.txt.gz · Last modified: 2022/12/10 09:08 (external edit)