This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
courses:data_analysis_and_interpretation:task6 [2019/01/16 11:37] andrey.suchkov |
courses:data_analysis_and_interpretation:task6 [2022/12/10 09:08] (current) |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Практическая работа №6: Исследование методов многомерного шкалирования ====== | ====== Практическая работа №6: Исследование методов многомерного шкалирования ====== | ||
===== Цель работы ===== | ===== Цель работы ===== | ||
- | Ознакомиться с методами многомерного шкалирования на основе пакета Statistica. | + | Ознакомиться с методами многомерного шкалирования на основе языка R. |
===== Основные теоретические положения ===== | ===== Основные теоретические положения ===== | ||
- | Многомерное шкалирование (МНШ) можно рассматривать как альтернативу факторному анализу. Целью последнего, вообще говоря, является поиск и интерпретация «латентных (т.е. непосредственно не наблюдаемых) переменных», дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Для определенности и краткости, далее, как правило, будем говорить лишь о сходствах объектов, имея ввиду, что на практике это могут быть различия, расстояния или степени связи между ними. В факторном анализе сходства между объектами (например, переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ дополнительно к корреляционным матрицам, в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов. Таким образом, на входе всех алгоритмов МНШ используется матрица, элемент которой на пересечении её //i//-й строки и //j//-го столбца, содержит сведения о попарном сходстве анализируемых объектов (объекта //i// и объекта //j//). На выходе алгоритма МНШ получаются числовые значения координат, которые приписываются каждому объекту в некоторой новой системе координат (во «вспомогательных шкалах», связанных с латентными переменными, откуда и название МНШ), причем размерность нового пространства признаков существенно меньше размерности исходного (за это собственно и идет борьба).\\ | + | Многомерное шкалирование (МНШ) можно рассматривать как альтернативу факторному анализу. Целью последнего, вообще говоря, является поиск и интерпретация «латентных (т.е. непосредственно не наблюдаемых) переменных», дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Для определенности и краткости, далее, как правило, будем говорить лишь о сходствах объектов, имея ввиду, что на практике это могут быть различия, расстояния или степени связи между ними. В факторном анализе сходства между объектами (например, переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ дополнительно к корреляционным матрицам, в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов. Таким образом, на входе всех алгоритмов МНШ используется матрица, элемент которой на пересечении её //i//-й строки и //j//-го столбца, содержит сведения о попарном сходстве анализируемых объектов (объекта //i// и объекта //j//). На выходе алгоритма МНШ получаются числовые значения координат, которые приписываются каждому объекту в некоторой новой системе координат (во «вспомогательных шкалах», связанных с латентными переменными, откуда и название МНШ), причем размерность нового пространства признаков существенно меньше размерности исходного (за это собственно и идет борьба). |
- | Логику МНШ можно проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между крупными американскими городами. Анализируя матрицу, стремятся расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты США.\\ | + | |
- | В общем случае метод МНШ позволяет таким образом расположить «объекты» (города в данном примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно «измерить» эти расстояния в терминах найденных латентных переменных. Так, в данном примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/Запад. | + | Логику МНШ можно проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между крупными американскими городами. Анализируя матрицу, стремятся расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты США. |
- | ===== Общая формулировка задачи ===== | + | |
- | * Ознакомиться с теорией многомерного шкалирования. | + | В общем случае метод МНШ позволяет таким образом расположить <<объекты>> (города в данном примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно <<измерить>> эти расстояния в терминах найденных латентных переменных. Так, в данном примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/Запад. |
- | * Провести исследование на имеющихся данных. | + | ===== Постановка задачи ===== |
- | * Оформить результаты в виде отчёта. | + | |
===== Порядок выполнения работы ===== | ===== Порядок выполнения работы ===== | ||
- | - Запустить пакет Statistica. Войти в меню "Statistics" → "Advanced/Multivariate" → "Mult/Exploratory": | + | ===== Содержание отчёта ===== |
- | - в выпадающем меню выбрать "Cluster"; | + | |
- | - с помощью одного из методов кластер-анализа получить матрицу расстояний, задав следующие параметры для кластеризации в панели меню "Advanced": | + | |
- | * выбрать все вектора выборки(cases). В случае выдачи ошибки о слишком большом числе векторов разделите выборку на 2 части, отобрав по половине векторов из каждого класса. Работайте только с одной из частей; | + | |
- | * установить параметр Cluster = cases; | + | |
- | * выбрать метод связывания; | + | |
- | * выбрать метод измерения расстояния; | + | |
- | * запустить процедуру кластеризации. | + | |
- | - Сохранить матрицу расстояний. | + | |
- | - Запустить модуль статистики "Multidimensional Scaling": | + | |
- | - в меню "Quick" выбрать переменные (all variables); | + | |
- | - в этом же меню ввести значение размерности для анализа; | + | |
- | - в меню "Options" выбрать конфигурацию "Standard Guttman-Lingoes", OK; | + | |
- | - просмотреть данные в окне Parameter Estimation, OK; | + | |
- | - в диалоговом окне "Results" (Результаты) проанализировать результаты многомерного шкалирования: | + | |
- | * Final Configuration; | + | |
- | * D-hat Values; | + | |
- | * D-star Values; | + | |
- | * Distance Matrix; | + | |
- | * Summary. | + | |
- | - cохранить координаты заключительной конфигурации в стандартном файле данных; | + | |
- | - построить график заключительной конфигурации "Graphs final configuration - 2D, 3D"; | + | |
- | - построить диаграмму Шепарда зависимости D-hats от расстояний "Graph D-hat vs.Distances"; | + | |
- | - построить диаграмму Шепарда зависимости D-stars от расстояний "Graph D-star vs.Distances". | + | |
- | - Вернитесь к исходной выборке (неразделенной): | + | |
- | - Проделайте п.3-4 для признаков (variables), то есть при формировании матрицы расстояний выбрать все переменные, кроме целевой, и установить параметр Cluster = variables. | + | |
- | - При проведении многомерного шкалирования - выбрать все переменные (all variables) и ввести значение размерности для анализа = 2. | + | |
- | - Сохранить графики и таблицы результатов исследования. | + | |
- | - Сделать сравнительные выводы по проведенным исследованиям. | + | |
- | - Сравните результаты шкалирования выборки по признакам с результатами факторного анализа, полученными в предыдущей работе. | + | |
- | - Оформить результаты в виде отчета. | + |