courses:data_analysis_and_interpretation:task5

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task5 [2019/04/26 12:59]
andrey.suchkov ↷ Page name changed from courses:data_analysis_and_interpretation:prac5 to courses:data_analysis_and_interpretation:task5
courses:data_analysis_and_interpretation:task5 [2022/12/10 09:08] (current)
Line 1: Line 1:
-====== Практическая работа №5: Исследование методов ​кластер-анализа ======+====== Практическая работа №5: Исследование методов ​факторного ​анализа ======
 ===== Цель работы ===== ===== Цель работы =====
-Ознакомиться с методами кластер-анализа на основе ​пакета Statistica.+Ознакомиться с методами ​факторного ​анализа на основе ​языка R.
 ===== Основные теоретические положения ===== ===== Основные теоретические положения =====
-Термин кластерный анализ ​(впервые понятие введено математиком РТрионом, 1939) в действительности включает ​в себя набор различных ​алгоритмов классификации. ​Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные ​в наглядные структуры,​ т.е. развернуть таксономии. Например, ​биологи ставят цель разбить животных ​на различные виды, чтобы содержательно описать различия ​между ​ними. ​В соответствии с современной ​системой, принятой ​в биологии, ​человек ​принадлежит к приматаммлекопитающим, амниотампозвоночным и животным. Заметьте, что в этой классификации,​ чем выше уровень ​агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.ес обезьянами), чем с "​отдаленными" членами семейства млекопитающих (например, собаками) и т. д.\\ +Главными целями факторного ​анализа являются сокращение числа ​переменных (редукция данных) и определение ​структуры ​взаимосвязей между переменными, т.е. классификация переменныхПоэтому факторный анализ используется или как метод сокращения данных ​или как ​метод классификации. 
-Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором"​ различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие ​от многих других статистических процедурметоды кластерного анализа используются в большинстве случаев ​тогда, когда вы не имеете ​каких-либо априорных гипотез ​относительно классов, но все еще находитесь в описательной стадии исследования. ​Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение".\\ + 
-//Деревья кластеризации.// Назначение алгоритма построения деревьев кластеризации заключается в постепенном объединении объектов в достаточно большие кластерыиспользуя меры расстояния и сходства между объектами. +Предположим, что вы проводите (до некоторой степени <<​глупое>>​) ​исследование, в котором ​измеряете рост ста людей в дюймах ​и сантиметрах. Таким образом, у вас имеются две переменные. Если далее вы захотите исследовать, ​например, ​влияние различных ​пищевых добавок на рост, будете ли вы продолжать ​использовать ​обе переменные? ​Вероятно, нет, т.к. рост является одной ​характеристикой человека, независимо от тогов каких единицах он измеряется. 
-На первом шаге каждый объект является ​кластером. При ​переходе к следующему шагу группы объектов ​объединяются в кластеры на основе ​меры расстояния и выбранного ​метода. На каждом следующем шаге процедура повторяется для наиболее «близких» друг к другу кластеров. + 
-Использующиеся меры расстояния между ​объектами+Теперь предположим, вы хотите измерить удовлетворенность людей жизнью, для чего составляете вопросник с различными пунктами; среди других ​вопросов ​задаете следующие: удовлетворены ​ли люди своим хобби (пункт 1) и как интенсивно ​они ​им занимаются (пункт 2). Результаты преобразуются ​такчто средние ответы (например, для удовлетворенности) соответствуют значению 100, в то время как ниже и выше средних ответов расположены меньшие и большие значения, соответственно. Две переменные (ответы на два разных пункта) коррелированы между собой. Из высокой коррелированности двух этих переменных можно сделать вывод об избыточности двух пунктов опросника
-  * Евклидово расстояние: $d(x,\,y) = \|\mathbf x + \mathbf y\| = \sqrt{\sum\limits_i(x_i - y_i)^2}$. + 
-  * Манхэттенское расстояние асстояние ​городских кварталов): $d(x,\,y) = \sum\limits_i|x_i - y_i|$. +Зависимость между ​переменными можно обнаружить с помощью диаграммы рассеяния. ​Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную ​на основе линии регрессииизображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты ​обеих переменных. Итак, фактически, вы сократили число переменных и заменили две ​одной. Отметим, что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных. 
-  * Расстояние Чебышева: $d(x,\,y) = \max|x_i - y_i|$. + 
-Использующиеся ​способы объединения кластеров: +Пример, в котором ​две коррелированные переменные объединены в один фактор, показывает главную идею факторного анализа или, более ​точно, анализа главных компонент (это различие ​будет ​обсуждаться позднее). Если пример с двумя переменными распространить на большее число переменных, ​то вычисления становятся сложнее, однако основной принцип представления двух или ​более зависимых ​переменных одним фактором остается в силе. 
-  * Одиночная ​связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя ​наиболее близкими ​объектами (ближайшими соседями) в различных кластерах; + 
-  * Полная связь (метод наиболее удаленных ​соседей). В этом методе расстояния между кластерами ​определяются наибольшим расстоянием между любыми двумя объектами в различных ​кластерах, то есть "наиболее удаленными соседями". +В основном процедура ​выделения главных компонент подобна вращению, максимизирующему дисперсию (варимакс) ​исходного пространства переменных. Например, на диаграмме рассеяния ​вы можете рассматривать линию ​регрессии как ось X, повернув ее так, ​что она совпадает с прямой регрессии. Этот тип ​вращения называется вращениеммаксимизирующим дисперсию,​ так ​как критерий (цель) ​вращения заключается ​в максимизации ​дисперсии (изменчивости) <<​новой>> ​переменной (фактора) и минимизации разброса вокруг нее. 
-  * Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется ​как среднее расстояние между ​всеми парами объектов в них. + 
-  * Метод Варда. Метод ​минимизирует сумму квадратов для любых двух (гипотетических) кластеровкоторые могут быть сформированы на каждом ​шаге. +Напомним, что анализ главных ​компонент является методом ​сокращения или ​редукции данныхт.еметодом сокращения ​числа переменныхВозникает естественный вопрос: сколько факторов ​следует выделять? Отметим, что ​в процессе последовательного выделения факторов они включают в себя все меньше ​и меньше ​изменчивости. Решение о том, когда следует остановить процедуру ​выделения факторов, ​главным образом зависит от точки зрения ​на то, что считать малой <<​случайной>> ​изменчивостью. Это решение достаточно произвольно,​ однако имеются некоторые рекомендации, позволяющие рационально выбрать число факторов. 
-//Метод k-means (k-средних).// Предположимуже имеются гипотезы относительно числа ​кластеров (по наблюдениям или по переменным)Можно указать системе образовать ровно три кластера так, чтобы они были настолько различнынасколько это возможно. Это именно тот тип задач, которые решает алгоритм метода ​//​k//​-means. В общем ​случае метод //​k//​-means ​строит ровно //k// различных ​кластеров, ​расположенных на возможно больших расстояниях друг ​от друга+===== Постановка задачи =====
-===== Общая формулировка ​задачи ===== +
-  * Провести ​исследование на имеющихся данных, а также на модельных примерах. +
-  * Исследовать методы иерархической группировки+
-  ​* ​Провести исследование иерархической кластеризации при использовании кластеризации по признакам.+
 ===== Порядок выполнения работы ===== ===== Порядок выполнения работы =====
-==== 1. Исследование методов иерархической группировки ​==== +===== Содержание отчёта ===== 
-  - Выбрать переменные (переменная-номер класса не участвует в обработке). + 
-  - Установить параметр Custer = CASES. + 
-  - Установить параметр Input = RAW DATA. +
-  - Выбрать метод связывания ​ Amalgamation (linkage) rule. +
-  - Выбрать метод измерения расстояния - Distance measure. +
-  - Запустить процедуру кластеризации. +
-  - Просмотреть результаты построения иерархического дерева. Проанализировать какие данные образуют кластеры (опция - Amalgamation Shedule). +
-  - Исследовать процесс кластеризации при различных сочетаниях методов связывания и методов измерения расстояния. +
-==== 2. Исследование иерархической кластеризации при использовании кластеризации по признакам ​==== +
-  - Выбрать в меню CLUSTER ANALISYS в опции ​ CLUSTER ​ значение Variables= COLUMNS. +
-  - Провести кластеризацию аналогично п.п. 4-7 предыдущего пункта. +
-  - Определить наборы признаков наиболее и наименее связанные друг с другом. +
-  - Выбрать наиболее информативный минимальный набор признаков и проверить его эффективность в режиме Discriminant Analysis. +
-==== 3. Метод K-средних ==== +
-  - Выбрать метод кластеризации K-Means Clustering (метод K-средних) +
-  - Загрузить исходные данные. +
-  - Выбрать переменные. +
-  - Выполнить кластер-анализ. +
-  - Проанализировать результаты кластеризации (K-means Clustering Results). +
-    * анализ дисперсии (Analysis of variance);​ +
-    * математические ожидания и евклидовы расстояния между кластерами (cluster means & Euclidian distance);​ +
-    * графики математических ожиданий ​ по кластерам;​ +
-    * дискриптивные статистики по кластерам;​ +
-    * содержание кластеров (members of each cluster & distance ). +
-  - Провести кластеризацию методом К-средних по признакам. +
-  - Сохранить графики и таблицы результатов исследования. +
-  - Сделать сравнительные выводы по проведенным исследованиям. +
-  - Оформить результаты в виде отчета.+
courses/data_analysis_and_interpretation/task5.1556283550.txt.gz · Last modified: 2022/12/10 09:08 (external edit)