courses:data_analysis_and_interpretation:task4

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task4 [2019/01/16 11:57]
andrey.suchkov
courses:data_analysis_and_interpretation:task4 [2022/12/10 09:08] (current)
Line 1: Line 1:
 ====== Практическая работа №4: Исследование методов кластер-анализа ====== ====== Практическая работа №4: Исследование методов кластер-анализа ======
 ===== Цель работы ===== ===== Цель работы =====
-Ознакомиться с методами кластер-анализа на основе ​пакета Statistica.+Ознакомиться с методами кластер-анализа на основе ​языка R.
 ===== Основные теоретические положения ===== ===== Основные теоретические положения =====
-Термин кластерный анализ (впервые понятие введено математиком Р. Трионом,​ 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос,​ задаваемый исследователями во многих областях,​ состоит в том, как организовать наблюдаемые данные в наглядные структуры,​ т.е. развернуть таксономии. Например,​ биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой,​ принятой в биологии,​ человек принадлежит к приматам,​ млекопитающим,​ амниотам,​ позвоночным и животным. Заметьте,​ что в этой классификации,​ чем выше уровень агрегации,​ тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами),​ чем с "отдаленными" ​членами семейства млекопитающих (например,​ собаками) и т. д.\\ +Термин кластерный анализ (впервые понятие введено математиком Р. Трионом,​ 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос,​ задаваемый исследователями во многих областях,​ состоит в том, как организовать наблюдаемые данные в наглядные структуры,​ т.е. развернуть таксономии. Например,​ биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой,​ принятой в биологии,​ человек принадлежит к приматам,​ млекопитающим,​ амниотам,​ позвоночным и животным. Заметьте,​ что в этой классификации,​ чем выше уровень агрегации,​ тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами),​ чем с <<отдаленными>> ​членами семейства млекопитающих (например,​ собаками) и т.д. 
-Фактически,​ кластерный анализ является не столько обычным статистическим методом,​ сколько ​"набором" ​различных алгоритмов ​"распределения объектов по кластерам". Существует точка зрения,​ что в отличие от многих других статистических процедур,​ методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов,​ но все еще находитесь в описательной стадии исследования. Следует понимать,​ что кластерный анализ определяет ​"наиболее возможно значимое решение".\\+ 
 +Фактически,​ кластерный анализ является не столько обычным статистическим методом,​ сколько ​<<набором>> ​различных алгоритмов ​<<распределения объектов по кластерам>>. Существует точка зрения,​ что в отличие от многих других статистических процедур,​ методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов,​ но все еще находитесь в описательной стадии исследования. Следует понимать,​ что кластерный анализ определяет ​<<наиболее возможно значимое решение>>. 
 //​Деревья кластеризации.//​ Назначение алгоритма построения деревьев кластеризации заключается в постепенном объединении объектов в достаточно большие кластеры,​ используя меры расстояния и сходства между объектами. //​Деревья кластеризации.//​ Назначение алгоритма построения деревьев кластеризации заключается в постепенном объединении объектов в достаточно большие кластеры,​ используя меры расстояния и сходства между объектами.
 На первом шаге каждый объект является кластером. При переходе к следующему шагу группы объектов объединяются в кластеры на основе меры расстояния и выбранного метода. На каждом следующем шаге процедура повторяется для наиболее «близких» друг к другу кластеров. На первом шаге каждый объект является кластером. При переходе к следующему шагу группы объектов объединяются в кластеры на основе меры расстояния и выбранного метода. На каждом следующем шаге процедура повторяется для наиболее «близких» друг к другу кластеров.
 Использующиеся меры расстояния между объектами:​ Использующиеся меры расстояния между объектами:​
-  * Евклидово расстояние:​ $d(x,\,y) = \|\mathbf x + \mathbf y\| = \sqrt{\sum\limits_i(x_i - y_i)^2}$. +  * Евклидово расстояние:​ $d(x,\,y) = \|\mathbf x + \mathbf y\| = \sqrt{\sum_i(x_i - y_i)^2}$. 
-  * Манхэттенское расстояние (расстояние городских кварталов):​ $d(x,\,y) = \sum\limits_i|x_i - y_i|$.+  * Манхэттенское расстояние (расстояние городских кварталов):​ $d(x,\,y) = \sum_i|x_i - y_i|$.
   * Расстояние Чебышева:​ $d(x,\,y) = \max|x_i - y_i|$.   * Расстояние Чебышева:​ $d(x,\,y) = \max|x_i - y_i|$.
 Использующиеся способы объединения кластеров:​ Использующиеся способы объединения кластеров:​
   * Одиночная связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах;​   * Одиночная связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах;​
-  * Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах,​ то есть ​"наиболее удаленными соседями".+  * Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах,​ то есть ​<<наиболее удаленными соседями>>.
   * Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них.   * Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них.
   * Метод Варда. Метод минимизирует сумму квадратов для любых двух (гипотетических) кластеров,​ которые могут быть сформированы на каждом шаге.   * Метод Варда. Метод минимизирует сумму квадратов для любых двух (гипотетических) кластеров,​ которые могут быть сформированы на каждом шаге.
 //​Метод k-means (k-средних).//​ Предположим,​ уже имеются гипотезы относительно числа кластеров (по наблюдениям или по переменным). Можно указать системе образовать ровно три кластера так, чтобы они были настолько различны,​ насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода //​k//​-means. В общем случае метод //k//-means строит ровно //k// различных кластеров,​ расположенных на возможно больших расстояниях друг от друга. //​Метод k-means (k-средних).//​ Предположим,​ уже имеются гипотезы относительно числа кластеров (по наблюдениям или по переменным). Можно указать системе образовать ровно три кластера так, чтобы они были настолько различны,​ насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода //​k//​-means. В общем случае метод //k//-means строит ровно //k// различных кластеров,​ расположенных на возможно больших расстояниях друг от друга.
-===== Общая формулировка задачи ===== +===== Постановка задачи =====
-  * Провести исследование на имеющихся данных,​ а также на модельных примерах. +
-  * Исследовать методы иерархической группировки. +
-  * Провести исследование иерархической кластеризации при использовании кластеризации по признакам.+
 ===== Порядок выполнения работы ===== ===== Порядок выполнения работы =====
-==== 1. Исследование методов иерархической группировки ​==== +===== Содержание отчёта ===== 
-  - Выбрать переменные (переменная-номер класса не участвует в обработке). + 
-  - Установить параметр Custer = CASES. + 
-  - Установить параметр Input = RAW DATA. +
-  - Выбрать метод связывания ​ Amalgamation (linkage) rule. +
-  - Выбрать метод измерения расстояния - Distance measure. +
-  - Запустить процедуру кластеризации. +
-  - Просмотреть результаты построения иерархического дерева. Проанализировать какие данные образуют кластеры (опция - Amalgamation Shedule). +
-  - Исследовать процесс кластеризации при различных сочетаниях методов связывания и методов измерения расстояния. +
-==== 2. Исследование иерархической кластеризации при использовании кластеризации по признакам ​==== +
-  - Выбрать в меню CLUSTER ANALISYS в опции ​ CLUSTER ​ значение Variables= COLUMNS. +
-  - Провести кластеризацию аналогично п.п. 4-7 предыдущего пункта. +
-  - Определить наборы признаков наиболее и наименее связанные друг с другом. +
-  - Выбрать наиболее информативный минимальный набор признаков и проверить его эффективность в режиме Discriminant Analysis. +
-==== 3. Метод K-средних ==== +
-  - Выбрать метод кластеризации K-Means Clustering (метод К-средних) +
-  - Загрузить исходные данные. +
-  - Выбрать переменные. +
-  - Выполнить кластер-анализ. +
-  - Проанализировать результаты кластеризации (K-means Clustering Results). +
-    * анализ дисперсии (Analysis of variance);​ +
-    * математические ожидания и евклидовы расстояния между кластерами (cluster means & Euclidian distance);​ +
-    * графики математических ожиданий ​ по кластерам;​ +
-    * дискриптивные статистики по кластерам;​ +
-    * содержание кластеров (members of each cluster & distance ). +
-  - Провести кластеризацию методом К-средних по признакам. +
-  - Сохранить графики и таблицы результатов исследования. +
-  - Сделать сравнительные выводы по проведенным исследованиям. +
-  - Оформить результаты в виде отчета.+
courses/data_analysis_and_interpretation/task4.1547639839.txt.gz · Last modified: 2022/12/10 09:08 (external edit)