courses:data_analysis_and_interpretation:task6

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task6 [2019/01/16 11:40]
andrey.suchkov
courses:data_analysis_and_interpretation:task6 [2022/12/10 09:08] (current)
Line 1: Line 1:
 ====== Практическая работа №6: Исследование методов многомерного шкалирования ====== ====== Практическая работа №6: Исследование методов многомерного шкалирования ======
 ===== Цель работы ===== ===== Цель работы =====
-Ознакомиться с методами многомерного шкалирования на основе ​пакета Statistica.+Ознакомиться с методами многомерного шкалирования на основе ​языка R.
 ===== Основные теоретические положения ===== ===== Основные теоретические положения =====
-Многомерное шкалирование (МНШ) можно рассматривать как альтернативу факторному анализу. Целью последнего,​ вообще говоря,​ является поиск и интерпретация «латентных (т.е. непосредственно не наблюдаемых) переменных»,​ дающих возможность пользователю объяснить сходства между объектами,​ заданными точками в исходном пространстве признаков. Для определенности и краткости,​ далее, как правило,​ будем говорить лишь о сходствах объектов,​ имея ввиду, что на практике это могут быть различия,​ расстояния или степени связи между ними. В факторном анализе сходства между объектами (например,​ переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ дополнительно к корреляционным матрицам,​ в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов. Таким образом,​ на входе всех алгоритмов МНШ используется матрица,​ элемент которой на пересечении её //i//-й строки и //j//-го столбца,​ содержит сведения о попарном сходстве анализируемых объектов (объекта //i// и объекта //j//). На выходе алгоритма МНШ получаются числовые значения координат,​ которые приписываются каждому объекту в некоторой новой системе координат (во «вспомогательных шкалах»,​ связанных с латентными переменными,​ откуда и название МНШ), причем размерность нового пространства признаков существенно меньше размерности исходного (за это собственно и идет борьба).\\ +Многомерное шкалирование (МНШ) можно рассматривать как альтернативу факторному анализу. Целью последнего,​ вообще говоря,​ является поиск и интерпретация «латентных (т.е. непосредственно не наблюдаемых) переменных»,​ дающих возможность пользователю объяснить сходства между объектами,​ заданными точками в исходном пространстве признаков. Для определенности и краткости,​ далее, как правило,​ будем говорить лишь о сходствах объектов,​ имея ввиду, что на практике это могут быть различия,​ расстояния или степени связи между ними. В факторном анализе сходства между объектами (например,​ переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ дополнительно к корреляционным матрицам,​ в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов. Таким образом,​ на входе всех алгоритмов МНШ используется матрица,​ элемент которой на пересечении её //i//-й строки и //j//-го столбца,​ содержит сведения о попарном сходстве анализируемых объектов (объекта //i// и объекта //j//). На выходе алгоритма МНШ получаются числовые значения координат,​ которые приписываются каждому объекту в некоторой новой системе координат (во «вспомогательных шкалах»,​ связанных с латентными переменными,​ откуда и название МНШ), причем размерность нового пространства признаков существенно меньше размерности исходного (за это собственно и идет борьба). 
-Логику МНШ можно проиллюстрировать на следующем простом примере. Предположим,​ что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между крупными американскими городами. Анализируя матрицу,​ стремятся расположить точки с координатами городов в двумерном пространстве (на плоскости),​ максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты США.\\ + 
-В общем случае метод МНШ позволяет таким образом расположить ​«объекты» (города в данном примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно ​«измерить» эти расстояния в терминах найденных латентных переменных. Так, в данном примере можно объяснить расстояния в терминах пары географических координат Север/​Юг и Восток/​Запад. +Логику МНШ можно проиллюстрировать на следующем простом примере. Предположим,​ что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между крупными американскими городами. Анализируя матрицу,​ стремятся расположить точки с координатами городов в двумерном пространстве (на плоскости),​ максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты США. 
-===== Общая формулировка задачи ===== + 
-  * Ознакомиться с теорией многомерного шкалирования. +В общем случае метод МНШ позволяет таким образом расположить ​<<объекты>> ​(города в данном примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно ​<<измерить>> ​эти расстояния в терминах найденных латентных переменных. Так, в данном примере можно объяснить расстояния в терминах пары географических координат Север/​Юг и Восток/​Запад. 
-  * Провести исследование на имеющихся данных. +===== Постановка задачи =====
-  * Оформить результаты в виде отчёта.+
 ===== Порядок выполнения работы ===== ===== Порядок выполнения работы =====
-  - Запустить пакет Statistica. Войти в меню "​Statistics"​ → "​Advanced/​Multivariate"​ → "​Mult/​Exploratory":​ +===== Содержание отчёта ===== 
-    - в выпадающем меню выбрать "​Cluster";​ + 
-    - с помощью одного из методов кластер-анализа получить матрицу расстояний,​ задав следующие параметры для кластеризации в панели меню "​Advanced":​ + 
-      * выбрать все вектора выборки(cases). В случае выдачи ошибки о слишком большом числе векторов разделите выборку на 2 части, отобрав по половине векторов из каждого класса. Работайте только с одной из частей;​ +
-      * установить параметр Cluster ​cases; +
-      * выбрать метод связывания;​ +
-      * выбрать метод измерения расстояния;​ +
-      * запустить процедуру кластеризации. +
-    - Сохранить матрицу расстояний. +
-  - Запустить модуль статистики "​Multidimensional Scaling":​ +
-    - в меню "​Quick"​ выбрать переменные (all variables);​ +
-    - в этом ​же меню ввести значение ​размерности для анализа;​ +
-    - в меню "​Options"​ выбрать конфигурацию "​Standard Guttman-Lingoes",​ OK; +
-    - просмотреть данные в окне Parameter Estimation, OK; +
-    - в диалоговом окне "​Results"​ (Результаты) проанализировать результаты многомерного шкалирования:​ +
-      * Final Configuration;​ +
-      * D-hat Values; +
-      * D-star Values; +
-      * Distance Matrix; +
-      * Summary. +
-    - cохранить координаты заключительной конфигурации в стандартном файле данных;​ +
-    - построить график заключительной конфигурации "​Graphs final configuration - 2D, 3D"; +
-    - построить диаграмму Шепарда зависимости D-hats от расстояний "Graph D-hat vs.Distances";​ +
-    - построить диаграмму Шепарда зависимости D-stars от расстояний "Graph D-star vs.Distances"​. +
-  - Вернитесь к исходной выборке (неразделенной):​ +
-    - Проделайте п.3-4 для признаков (variables),​ то есть при формировании матрицы расстояний выбрать все переменные,​ кроме целевой,​ и установить параметр Cluster ​variables. +
-    - При проведении многомерного шкалирования - выбрать все переменные (all variables) и ввести значение размерности для анализа ​2. +
-    - Сохранить графики и таблицы результатов исследования. +
-    - Сделать сравнительные выводы по проведенным исследованиям. +
-    - Сравните результаты шкалирования выборки по признакам с результатами факторного анализа,​ полученными в предыдущей работе. +
-  - Оформить результаты в виде отчета.+
courses/data_analysis_and_interpretation/task6.1547638826.txt.gz · Last modified: 2022/12/10 09:08 (external edit)