courses:data_analysis_and_interpretation:task5

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task5 [2019/06/25 09:06]
andrey.suchkov [Основные теоретические положения]
courses:data_analysis_and_interpretation:task5 [2022/12/10 09:08] (current)
Line 1: Line 1:
-====== Практическая работа №5: Исследование методов ​кластер-анализа ======+====== Практическая работа №5: Исследование методов ​факторного ​анализа ======
 ===== Цель работы ===== ===== Цель работы =====
-Ознакомиться с методами кластер-анализа на основе ​пакета Statistica.+Ознакомиться с методами ​факторного ​анализа на основе ​языка R.
 ===== Основные теоретические положения ===== ===== Основные теоретические положения =====
-Термин кластерный анализ (впервые понятие введено математиком Р. Трионом, 1939) в действительности включает в себя ​набор различных ​алгоритмов классификации. Общий вопрос,​ задаваемый ​исследователями во многих областях,​ состоит в том, ​как организовать наблюдаемые ​данные ​в наглядные структуры, т.е. развернуть таксономии. Например, биологи ​ставят цель разбить животных на различные виды, чтобы содержательно описать различия ​между ​ними. В соответствии с современной системой, ​принятой в биологии,​ человек принадлежит к приматам, млекопитающим,​ амниотам, позвоночным и животнымЗаметьте, что в этой ​классификации, чем выше уровень агрегации,​ тем меньше сходства между членами в соответствующем ​классе. Человек имеет больше ​сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собакамии т.д.+Главными целями факторного анализа являются сокращение числа ​переменных (редукция данных) и определение структуры ​взаимосвязей между переменнымит.еклассификация переменных. Поэтому факторный анализ ​используется или ​как метод сокращения данных или как метод классификации.
  
-Фактически, кластерный анализ является ​не столько обычным ​статистическим методомсколько "​набором" различных алгоритмов "распределения объектов по кластерам"​. Существует точка зрения, что ​в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда ​вы не имеете каких-либо априорных ​гипотез относительно классов, но все еще ​находитесь в описательной стадии ​исследования. Следует пониматьчто кластерный анализ определяет "наиболее возможно значимое решение"​.+Предположимчто вы проводите (до некоторой степени <<​глупое>>) исследованиев котором ​измеряете рост ста ​людей в дюймах и сантиметрах. Таким образом, у вас имеются две переменные. Если далее вы захотите ​исследовать, например, влияние ​различных пищевых добавок на рост, будете ли вы продолжать использовать обе переменные? Вероятнонет, т.к. рост является одной характеристикой человека, независимо от того, в каких единицах он измеряется.
  
-//Деревья кластеризации.//​ Назначение алгоритма построения деревьев кластеризации заключается в постепенном объединении объектов в достаточно большие кластеры, используя меры расстояния и сходства между ​объектами+Теперь ​предположим, вы хотите измерить удовлетворенность людей жизнью, для ​чего составляете вопросник с различными пунктами; среди других вопросов ​задаете ​следующие:​ удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются ​(пункт 2). Результаты преобразуются так, что ​средние ответы (например, для ​удовлетворенности) соответствуют значению 100, в то время ​как ​ниже и выше средних ответов расположены меньшие и большие значения, соответственно. Две переменные (ответы на два разных пункта) коррелированы между ​собой. Из высокой коррелированности ​двух этих переменных можно сделать вывод об избыточности двух пунктов опросника. 
-На первом ​шаге каждый объект является кластером. При ​переходе к следующему шагу группы ​объектов объединяются в кластеры ​на основе меры расстояния и выбранного метода. На каждом следующем шаге процедура повторяется для ​наиболее «близких» друг к другу кластеров. + 
-Использующиеся меры ​расстояния между объектами:​ +Зависимость между переменными можно обнаружить ​с помощью диаграммы рассеяния. Полученная ​путем подгонки ​линия регрессии дает ​графическое представление зависимости. Если определить новую переменную на основе ​линии регрессииизображенной на этой диаграмме, то такая переменная ​будет ​включить в себя наиболее ​существенные ​черты обеих переменных. Итак, фактически, вы сократили число переменных ​и заменили две одной. Отметим, что новый фактор (переменная) в действительности ​является линейной комбинацией двух исходных переменных. 
-  * Евклидово расстояние: $d(x,\,y) = \|\mathbf x + \mathbf y\| = \sqrt{\sum\limits_i(x_i - y_i)^2}$. + 
-  * Манхэттенское расстояние (расстояние городских кварталов):​ $d(x,\,y) = \sum\limits_i|x_i - y_i|$+Пример, в котором ​две коррелированные переменные ​объединены ​в один фактор, показывает главную идею факторного ​анализа или, ​более ​точно, ​анализа главных компонент (это ​различие будет обсуждаться позднее). Если пример с двумя ​переменными ​распространить на большее число переменных,​ то вычисления становятся сложнее, однако основной принцип представления ​двух или более зависимых переменных одним фактором остается в силе. 
-  * Расстояние Чебышева: $d(x,\,y) = \max|x_i - y_i|$. + 
-Использующиеся способы объединения ​кластеров: +В основном процедура ​выделения главных компонент подобна вращению, максимизирующему ​дисперсию (варимакс) исходного пространства переменных. Например,​ на диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип ​вращения называется вращением, ​максимизирующим дисперсиютак как критерий (цель) вращения заключается ​в максимизации ​дисперсии (изменчивости) <<новой>> ​переменной (фактора) и минимизации разброса вокруг нее. 
-  * Одиночная ​связь (метод ближайшего соседа). В этом методе ​расстояние между двумя кластерами определяется расстоянием между двумя наиболее ​близкими объектами (ближайшими соседями) в различных ​кластерах; + 
-  * Полная ​связь етод ​наиболее удаленных соседей). В этом методе расстояния между кластерами определяются ​наибольшим расстоянием между любыми двумя объектами в различных кластерах, то есть "наиболее ​удаленными соседями"​. +Напомним, что ​анализ главных компонент является ​методом сокращения или редукции данных, ​т.е. методом сокращения числа ​переменных. Возникает естественный вопрос: сколько факторов следует выделять? ​Отметим, что в процессе последовательного выделения ​факторов они включают в себя все меньше и меньше ​изменчивостиРешение о том, когда ​следует ​остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что ​считать малой <<​случайной>> ​изменчивостью. Это ​решение достаточно произвольно, однако имеются некоторые рекомендациипозволяющие ​рационально выбрать число факторов. 
-  * Невзвешенное попарное среднее. В этом методе расстояние между ​двумя различными ​кластерами вычисляется ​как ​среднее ​расстояние ​между всеми ​парами объектов в них+===== Постановка ​задачи =====
-  * Метод ​Варда. Метод минимизирует сумму квадратов для любых двух (гипотетических) кластеровкоторые могут быть ​сформированы на каждом шаге. +
-//Метод k-means (k-средних).// Предположим, уже имеются гипотезы относительно числа кластеров (по наблюдениям или по переменным). Можно указать системе образовать ​ровно три ​кластера так, чтобы они были настолько различны, насколько это возможно. Это именно ​тот тип задач, которые решает алгоритм метода //​k//​-means. В общем случае метод //k//-means строит ровно //k// различных ​кластеров, расположенных на возможно больших расстояниях друг от друга. +
-===== Общая формулировка задачи ===== +
-  * Провести исследование на имеющихся данных, ​а также на модельных примерах. +
-  * Исследовать ​методы иерархической группировки. +
-  * Провести исследование иерархической кластеризации при ​использовании кластеризации по признакам.+
 ===== Порядок выполнения работы ===== ===== Порядок выполнения работы =====
-==== 1. Исследование методов иерархической группировки ​==== +===== Содержание отчёта ===== 
-  - Выбрать переменные (переменная-номер класса не участвует в обработке). + 
-  - Установить параметр Custer = CASES. + 
-  - Установить параметр Input = RAW DATA. +
-  - Выбрать метод связывания ​ Amalgamation (linkage) rule. +
-  - Выбрать метод измерения расстояния - Distance measure. +
-  - Запустить процедуру кластеризации. +
-  - Просмотреть результаты построения иерархического дерева. Проанализировать какие данные образуют кластеры (опция - Amalgamation Shedule). +
-  - Исследовать процесс кластеризации при различных сочетаниях методов связывания и методов измерения расстояния. +
-==== 2. Исследование иерархической кластеризации при использовании кластеризации по признакам ​==== +
-  - Выбрать в меню CLUSTER ANALISYS в опции ​ CLUSTER ​ значение Variables= COLUMNS. +
-  - Провести кластеризацию аналогично п.п. 4-7 предыдущего пункта. +
-  - Определить наборы признаков наиболее и наименее связанные друг с другом. +
-  - Выбрать наиболее информативный минимальный набор признаков и проверить его эффективность в режиме Discriminant Analysis. +
-==== 3. Метод K-средних ==== +
-  - Выбрать метод кластеризации K-Means Clustering (метод K-средних) +
-  - Загрузить исходные данные. +
-  - Выбрать переменные. +
-  - Выполнить кластер-анализ. +
-  - Проанализировать результаты кластеризации (K-means Clustering Results). +
-    * анализ дисперсии (Analysis of variance);​ +
-    * математические ожидания и евклидовы расстояния между кластерами (cluster means & Euclidian distance);​ +
-    * графики математических ожиданий ​ по кластерам;​ +
-    * дискриптивные статистики по кластерам;​ +
-    * содержание кластеров (members of each cluster & distance ). +
-  - Провести кластеризацию методом К-средних по признакам. +
-  - Сохранить графики и таблицы результатов исследования. +
-  - Сделать сравнительные выводы по проведенным исследованиям. +
-  - Оформить результаты в виде отчета.+
courses/data_analysis_and_interpretation/task5.1561453591.txt.gz · Last modified: 2022/12/10 09:08 (external edit)