courses:data_analysis_and_interpretation:task6

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task6 [2019/01/17 08:28]
andrey.suchkov
courses:data_analysis_and_interpretation:task6 [2022/12/10 09:08] (current)
Line 1: Line 1:
-====== Практическая работа №6: Исследование методов ​факторного ​анализа ======+====== Практическая работа №6: Исследование методов ​многомерного ​шкалирования ​======
 ===== Цель работы ===== ===== Цель работы =====
-Ознакомиться с методами ​факторного ​анализа на основе ​пакета Statistica.+Ознакомиться с методами ​многомерного ​шкалирования ​на основе ​языка R.
 ===== Основные теоретические положения ===== ===== Основные теоретические положения =====
-Главными целями факторного анализа являются сокращение ​числа переменных ​(редукция данныхи определение структуры взаимосвязей ​между переменнымит.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения ​данных или как метод классификации.\\ +Многомерное шкалирование (МНШможно рассматривать как альтернативу факторному ​анализу. Целью последнего, вообще говоря, является поиск и интерпретация «латентных (т.енепосредственно не наблюдаемых) переменных», дающих возможность пользователю ​объяснить сходства между объектами, заданными точками в исходном ​пространстве признаков. Для определенности ​и краткости, далее, как правило, будем говорить лишь о сходствах объектов, имея ввиду, что на практике это могут быть ​различия, расстояния или степени связи между ними. В факторном анализе ​сходства между объектами ​(например, ​переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ ​дополнительно к корреляционным матрицам, ​в качестве исходных данных можно ​использовать ​произвольный тип матрицы сходства объектов. Таким ​образом, на входе ​всех алгоритмов МНШ ​используется матрица, элемент которой на пересечении её //i//-й строки ​и //j//-го столбцасодержит сведения о попарном сходстве анализируемых ​объектов (объекта ​//i// и объекта //j//). На выходе алгоритма ​МНШ получаются числовые значения координат, которые приписываются каждому объекту ​в некоторой новой системе ​координат ​о «вспомогательных шкалах», связанных с латентными переменными, откуда ​и название МНШ)причем размерность нового ​пространства признаков существенно ​меньше размерности исходного (за это собственно и идет борьба). 
-Предположим, что вы проводите (до некоторой ​степени «глупое») исследование, в котором измеряете рост ста людей в дюймах и сантиметрах. Таким ​образом, у вас имеются две переменные. Если далее вы захотите исследовать,​ например, влияние различных ​пищевых добавок на рост, будете ли вы продолжать использовать обе переменные?​ Вероятно, нет, т.к. рост ​является одной характеристикой человеканезависимо от того, в каких единицах ​он измеряется.\\ + 
-Теперь предположим, вы хотите измерить удовлетворенность людей жизнью, для чего составляете вопросник с различными пунктами; среди других вопросов задаете следующие:​ удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются (пункт 2). Результаты преобразуются так, что средние ​ответы (например, ​для удовлетворенности) соответствуют значению 100, в то время как ниже и выше средних ответов расположены меньшие и большие значения,​ соответственно. Две переменные (ответы на два разных ​пункта) коррелированы между собой. Из высокой коррелированности двух этих ​переменных можно сделать ​вывод об избыточности двух пунктов опросника.\\ +Логику МНШ ​можно ​проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. ​сходства некоторых признаков) ​между крупными американскими городами. Анализируя матрицу, стремятся расположить точки с координатами ​городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ​ними. Полученное размещение точек ​на плоскости впоследствии можно использовать в качестве приближенной географической карты США. 
-Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем ​подгонки линия ​регрессии дает графическое представление зависимости. Если определить новую ​переменную на основе линии регрессии,​ изображенной на этой диаграмме,​ то такая переменная ​будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически, вы сократили ​число ​переменных и заменили две ​одной. Отметимчто новый фактор ​(переменная) в действительности является ​линейной ​комбинацией двух исходных переменных.\\ + 
-Пример,​ в котором две коррелированные переменные ​объединены в один ​фактор, показывает главную идею факторного анализа или, более точно, анализа главных компонент (это ​различие будет обсуждаться позднее). Если ​пример с двумя переменными ​распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или ​более зависимых переменных ​одним фактором остается в силе.\\ +В общем ​случае метод МНШ позволяет ​таким образом расположить <<объекты>> (города в данном примере) ​в пространстве ​некоторой ​небольшой размерности ​(в данном случае она равна ​двум), чтобы достаточно адекватно воспроизвести ​наблюдаемые расстояния ​между ​ними. В результате можно <<измерить>> эти расстояния в терминах найденных латентных переменных. Так, в данном примере можно объяснить ​расстояния в терминах пары географических координат ​Север/​Юг ​и Восток/Запад. 
-В основном процедура выделения главных компонент подобна вращению, максимизирующему дисперсию (варимаксисходного пространства переменных. Напримерна диаграмме рассеяния вы можете ​рассматривать линию регрессии как ось X, повернув ее так, что она ​совпадает ​с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий ​(цель) вращения заключается в максимизации дисперсии (изменчивости) «новой» переменной (фактора) и минимизации разброса вокруг нее.\\ +===== Постановка задачи =====
-Напомним, что анализ главных ​компонент является методом ​сокращения или редукции данных,​ т.е. ​методом сокращения числа переменных. Возникает естественный вопрос: сколько факторов ​следует ​выделять? Отметим, что в процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости. Решение о том, когда ​следует остановить процедуру ​выделения факторов,​ главным образом зависит от точки зрения на то, что считать малой «случайной» изменчивостью. Это решение достаточно произвольно, однако имеются некоторые рекомендациипозволяющие рационально выбрать число факторов.\\ +
-===== Общая формулировка задачи ===== +
-  * Ознакомиться с основами факторного анализа. +
-  * Ознакомиться с работой в пакете Statistica c разделом Факторный ​анализ. +
-  * Провести исследование по построению факторных моделей для ​исходных данных+
-  ​* ​Подготовить отчет по исследованию.+
 ===== Порядок выполнения работы ===== ===== Порядок выполнения работы =====
-==== 1. Исследование по построению факторных моделей ​==== +===== Содержание отчёта ===== 
-  - В системе STATISTICA в панели Statistics->​Multivariate Exploratory Techniques (Методы исследования многомерных данных) нужно выбрать пункт Factor (Дискриминантный анализ). + 
-  - Кликнув по Values выбрать переменные для факторного анализа:​ номер класса не включаем. Кликнуть ОК. + 
-  - На вкладке «Quick» ввести максимальное количество факторов равным 4, минимальное собственное число – 4. Кликнуть ОК. +
-  - В открывшемся окне Factor Analysis Results во вкладке Quick кликнуть по «Eigenvalues»,​ таким образом выведем главные характеристики - собственные числа матрицы корреляций. +
-  - Вывести полученную таблицу в отчет. +
-  - Перейти во вкладку Explained Variance. Кликнуть Scree plot. Привести полученный график собственных чисел в отчете,​ а также матрицу корреляций (Вкладка Descriptives -> Review Correlations…->​ Correlations). +
-  - Привести в отчете Факторная нагрузку – корреляция между старыми переменными (признаками) и новыми факторами,​ выделенными из признаков. Для этого в окне Factor Analysis Results выбрать Factor Loadings. +
-  - Отобразить графики зависимостей между факторами (Вкладка Quick, кнопка Plot of factor loadings, 2D), а также все факторы в трехмерном пространстве (Вкладка Loadings, кнопка Plot of loadings, 3D) +
-  - Вывести коэффициенты факторной оценки:​ для анализа главных компонент,​ точные коэффициенты могут быть вычислены из (вращаемых или не вращаемых) факторных нагрузок. Для этого перейдите во вкладку Scores и кликните по кнопке «Factor Scores Coefficients». +
-  - Также приведите таблицу с факторным множеством,​ основанным на факторных коэффициентах счета. +
-==== 2. Выполнение исследования с поворотом факторных нагрузок ​==== +
-  - В окне Factor Analysis Results во вкладке Quick установите опцию Factror Rotation в значение Varimax raw. +
-  - Эта опция выполнит вращение (циклический сдвиг) факторных нагрузок. Это вращение (циклический сдвиг) нацелено,​ на максимизацию дисперсии необработанных факторных нагрузок поперек переменных для каждого фактора;​ это - эквивалентное максимизирование разницы в столбцах матрицы необработанных факторных нагрузок. +
-  - Выполните исследование и приведите в отчете следующие данные:​ +
-    * таблица факторных нагрузок;​ +
-    * графики зависимостей между факторами и график всех факторов в трехмерном пространстве;​ +
-    * коэффициенты оценки факторов. +
-  - Выполните аналогичную последовательность с другим видом поворота нагрузок. Приведите в отчете вышеперечисленные данные. Объясните полученные результаты. +
-  - Краткая справка о видах поворота:​ +
-    * Unordered List ItemQuartimax raw: Эта опция выполнит quartimax вращение факторных нагрузок. Это вращение максимизирует дисперсии факторных нагрузок поперек факторов для каждой переменной;​ это эквивалентно максимизированию дисперсий в строках матрицы необработанных факторных нагрузок. +
-    * Biquartimax raw: Эта опция выполнит biquartimax вращение (циклический сдвиг) необработанных факторных нагрузок. Это вращение (циклический сдвиг) может рассматриваться,​ как бы "​четная смесь"​ varimax и quartimax вращения. Это нацелено,​ одновременно на максимизацию сумм дисперсий необработанных факторных нагрузок поперек факторов и максимизацию сумм дисперсий необработанных факторных нагрузок поперек переменных;​ это эквивалентно одновременно максимизированию дисперсий в строках и столбцах матрицы необработанных факторных нагрузок. +
-    * Equamax raw: Эта опция выполнит equamax вращение необработанных факторных нагрузок. Это вращение может рассматриваться,​ как быть "​тяжелой смесью"​ varimax и quartimax вращения. Это одновременно максимизирует сумму дисперсий необработанных факторных нагрузок поперек факторов и максимизирует сумму дисперсий необработанных факторных нагрузок поперек переменных;​ это эквивалентно одновременно максимизированию дисперсий в строках и столбцах матрицы необработанных факторных нагрузок. Однако,​ в отличие от biquartimax вращения,​ относительный вес, назначенный к varimax критерию во вращении равен числу факторов разделенных на 2. +
-==== 3. Исследование метода главной оси ==== +
-В этом методе,​ в каждой итерации,​ собственные числа вычислены из текущих корреляций;​ затем корреляции повторно вычислены на основании полученных собственных чисел. Новые корреляции затем помещены в диагональ матрицы корреляций,​ и следующая итерация начинается. Итерации продолжатся до: +
-  * Максимальное число итераций превышено,​ или +
-  * Минимум +
-  - Для использования данного метода в окне «Define Method of Factor Extraction» выберите «Principal axis method». +
-  - Приведите в отчете результаты исследования:​ +
-    * главные характеристики;​ +
-    * график собственных чисел;​ +
-    * матрица корреляций;​ +
-    * факторная нагрузка;​ +
-    * графики зависимостей между факторами;​ +
-    * коэффициенты факторной оценки. +
-  - Сделайте вывод о проделанном исследовании.+
courses/data_analysis_and_interpretation/task6.1547713724.txt.gz · Last modified: 2022/12/10 09:08 (external edit)