This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
courses:data_analysis_and_interpretation:task5 [2019/04/26 12:59] andrey.suchkov ↷ Page name changed from courses:data_analysis_and_interpretation:prac5 to courses:data_analysis_and_interpretation:task5 |
courses:data_analysis_and_interpretation:task5 [2019/07/12 19:25] andrey.suchkov |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Практическая работа №5: Исследование методов кластер-анализа ====== | + | ====== Практическая работа №5: Исследование методов факторного анализа ====== |
===== Цель работы ===== | ===== Цель работы ===== | ||
- | Ознакомиться с методами кластер-анализа на основе пакета Statistica. | + | Ознакомиться с методами факторного анализа на основе языка R. |
===== Основные теоретические положения ===== | ===== Основные теоретические положения ===== | ||
- | Термин кластерный анализ (впервые понятие введено математиком Р. Трионом, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т. д.\\ | + | Главными целями факторного анализа являются сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации. |
- | Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение".\\ | + | |
- | //Деревья кластеризации.// Назначение алгоритма построения деревьев кластеризации заключается в постепенном объединении объектов в достаточно большие кластеры, используя меры расстояния и сходства между объектами. | + | Предположим, что вы проводите (до некоторой степени <<глупое>>) исследование, в котором измеряете рост ста людей в дюймах и сантиметрах. Таким образом, у вас имеются две переменные. Если далее вы захотите исследовать, например, влияние различных пищевых добавок на рост, будете ли вы продолжать использовать обе переменные? Вероятно, нет, т.к. рост является одной характеристикой человека, независимо от того, в каких единицах он измеряется. |
- | На первом шаге каждый объект является кластером. При переходе к следующему шагу группы объектов объединяются в кластеры на основе меры расстояния и выбранного метода. На каждом следующем шаге процедура повторяется для наиболее «близких» друг к другу кластеров. | + | |
- | Использующиеся меры расстояния между объектами: | + | Теперь предположим, вы хотите измерить удовлетворенность людей жизнью, для чего составляете вопросник с различными пунктами; среди других вопросов задаете следующие: удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются (пункт 2). Результаты преобразуются так, что средние ответы (например, для удовлетворенности) соответствуют значению 100, в то время как ниже и выше средних ответов расположены меньшие и большие значения, соответственно. Две переменные (ответы на два разных пункта) коррелированы между собой. Из высокой коррелированности двух этих переменных можно сделать вывод об избыточности двух пунктов опросника. |
- | * Евклидово расстояние: $d(x,\,y) = \|\mathbf x + \mathbf y\| = \sqrt{\sum\limits_i(x_i - y_i)^2}$. | + | |
- | * Манхэттенское расстояние (расстояние городских кварталов): $d(x,\,y) = \sum\limits_i|x_i - y_i|$. | + | Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически, вы сократили число переменных и заменили две одной. Отметим, что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных. |
- | * Расстояние Чебышева: $d(x,\,y) = \max|x_i - y_i|$. | + | |
- | Использующиеся способы объединения кластеров: | + | Пример, в котором две коррелированные переменные объединены в один фактор, показывает главную идею факторного анализа или, более точно, анализа главных компонент (это различие будет обсуждаться позднее). Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе. |
- | * Одиночная связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах; | + | |
- | * Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах, то есть "наиболее удаленными соседями". | + | В основном процедура выделения главных компонент подобна вращению, максимизирующему дисперсию (варимакс) исходного пространства переменных. Например, на диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) <<новой>> переменной (фактора) и минимизации разброса вокруг нее. |
- | * Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. | + | |
- | * Метод Варда. Метод минимизирует сумму квадратов для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. | + | Напомним, что анализ главных компонент является методом сокращения или редукции данных, т.е. методом сокращения числа переменных. Возникает естественный вопрос: сколько факторов следует выделять? Отметим, что в процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости. Решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что считать малой <<случайной>> изменчивостью. Это решение достаточно произвольно, однако имеются некоторые рекомендации, позволяющие рационально выбрать число факторов. |
- | //Метод k-means (k-средних).// Предположим, уже имеются гипотезы относительно числа кластеров (по наблюдениям или по переменным). Можно указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода //k//-means. В общем случае метод //k//-means строит ровно //k// различных кластеров, расположенных на возможно больших расстояниях друг от друга. | + | ===== Постановка задачи ===== |
- | ===== Общая формулировка задачи ===== | + | |
- | * Провести исследование на имеющихся данных, а также на модельных примерах. | + | |
- | * Исследовать методы иерархической группировки. | + | |
- | * Провести исследование иерархической кластеризации при использовании кластеризации по признакам. | + | |
===== Порядок выполнения работы ===== | ===== Порядок выполнения работы ===== | ||
- | ==== 1. Исследование методов иерархической группировки ==== | + | ===== Содержание отчёта ===== |
- | - Выбрать переменные (переменная-номер класса не участвует в обработке). | + | |
- | - Установить параметр Custer = CASES. | + | |
- | - Установить параметр Input = RAW DATA. | + | |
- | - Выбрать метод связывания Amalgamation (linkage) rule. | + | |
- | - Выбрать метод измерения расстояния - Distance measure. | + | |
- | - Запустить процедуру кластеризации. | + | |
- | - Просмотреть результаты построения иерархического дерева. Проанализировать какие данные образуют кластеры (опция - Amalgamation Shedule). | + | |
- | - Исследовать процесс кластеризации при различных сочетаниях методов связывания и методов измерения расстояния. | + | |
- | ==== 2. Исследование иерархической кластеризации при использовании кластеризации по признакам ==== | + | |
- | - Выбрать в меню CLUSTER ANALISYS в опции CLUSTER значение Variables= COLUMNS. | + | |
- | - Провести кластеризацию аналогично п.п. 4-7 предыдущего пункта. | + | |
- | - Определить наборы признаков наиболее и наименее связанные друг с другом. | + | |
- | - Выбрать наиболее информативный минимальный набор признаков и проверить его эффективность в режиме Discriminant Analysis. | + | |
- | ==== 3. Метод K-средних ==== | + | |
- | - Выбрать метод кластеризации K-Means Clustering (метод K-средних) | + | |
- | - Загрузить исходные данные. | + | |
- | - Выбрать переменные. | + | |
- | - Выполнить кластер-анализ. | + | |
- | - Проанализировать результаты кластеризации (K-means Clustering Results). | + | |
- | * анализ дисперсии (Analysis of variance); | + | |
- | * математические ожидания и евклидовы расстояния между кластерами (cluster means & Euclidian distance); | + | |
- | * графики математических ожиданий по кластерам; | + | |
- | * дискриптивные статистики по кластерам; | + | |
- | * содержание кластеров (members of each cluster & distance ). | + | |
- | - Провести кластеризацию методом К-средних по признакам. | + | |
- | - Сохранить графики и таблицы результатов исследования. | + | |
- | - Сделать сравнительные выводы по проведенным исследованиям. | + | |
- | - Оформить результаты в виде отчета. | + |