This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
courses:statistical_methods_of_experimental_data_handling:prac6 [2021/01/30 08:20] andrey.suchkov [Постановка задачи] |
courses:statistical_methods_of_experimental_data_handling:prac6 [2024/03/01 19:55] (current) andrey.suchkov [Порядок выполнения работы] |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Лабораторная работа №6: Кластерный анализ. Метод k-средних ====== | + | ====== Практическая работа №6: Кластерный анализ. Метод k-средних ====== |
===== Цель работы ===== | ===== Цель работы ===== | ||
- | Освоение основных понятий и некоторых методов кластерного анализа, в частности, метода k-средних. | + | Освоение основных понятий и некоторых методов кластерного анализа, в частности, метода k-means. |
===== Постановка задачи ===== | ===== Постановка задачи ===== | ||
- | Дано конечное множество из объектов, представленных двумя признаками (в качестве этого множества принимаем исходную двумерную выборку, сформированную ранее в лабораторной работе №4). Выполнить разбиение исходного множества объектов на конечное число подмножеств (кластеров) с использованием метода k-средних. Полученные результаты содержательно проинтерпретировать. | + | Дано конечное множество из объектов, представленных двумя признаками (в качестве этого множества принимаем исходную двумерную выборку, сформированную ранее в практической работе №4). Выполнить разбиение исходного множества объектов на конечное число подмножеств (кластеров) с использованием метода k-means. Полученные результаты содержательно проинтерпретировать. |
===== Порядок выполнения работы ===== | ===== Порядок выполнения работы ===== | ||
- | - Нормализовать множество точек, отобразить полученное множество. | + | - Нормализовать множество точек из предыдущего раздела, отобразить полученное множество. |
- | - Определить верхнюю оценку количества кластеров. | + | - Определить <<грубую>> верхнюю оценку количества кластеров: $ \tilde k = \lfloor\sqrt{N/2}\rfloor $, где $ N $ -- число точек. |
- | - Реализовать алгоритм k-means, отобразить полученные кластеры, выделить каждый кластер разным цветом, отметить центроиды. | + | - Реализовать алгоритм k-means в двух вариантах: |
- | - Провести оценку качества разбиения для различных разбиений. | + | - пересчет центра кластера осуществляется после каждого изменения его состава; |
+ | - пересчет центра кластера осуществляется лишь после того, как будет завершен просмотр всех данных (шаг процедуры). | ||
+ | - На каждом шаге процедуры разбиения методом k-means вычислять функционалы качества полученного разбиения: | ||
+ | - $ F_1 $ -- сумма по всем кластерам квадратов расстояний элементов кластеров до центров соответствующих кластеров; | ||
+ | - $ F_2 $ -- сумма по всем кластерам внутрикластерных расстояний между элементами кластеров; | ||
+ | - $ F_3 $ -- сумма по всем кластерам внутрикластерных дисперсий (относительно центров кластеров). | ||
+ | - Отобразить полученные кластеры, выделить каждый кластер разным цветом, отметить центроиды. | ||
- Содержательно проинтерпретировать полученные результаты. | - Содержательно проинтерпретировать полученные результаты. | ||
- //Дополнительные необязательные задания:// | - //Дополнительные необязательные задания:// | ||
- | - //Реализовать алгоритмы k-medians и k-medoids. Отобразить полученные кластеры, выделить каждый кластер разным цветом, отметить центроиды. Провести оценку методов, сделать выводы.// | + | - //Реализовать алгоритмы [[https://en.wikipedia.org/wiki/K-medians_clustering|k-medians]] и [[https://en.wikipedia.org/wiki/K-medoids|k-medoids]]. Отобразить полученные кластеры, выделить каждый кластер разным цветом, отметить центроиды. Провести оценку методов, сделать выводы.// |
- | - //С помощью метода локтя и/или метода силуэтов выявить для каждого метода оптимальное количество кластеров.// | + | - //С помощью [[https://en.wikipedia.org/wiki/Elbow_method_(clustering)|метода локтя]] и/или [[https://en.wikipedia.org/wiki/Silhouette_(clustering)|метода силуэтов]] выявить для каждого метода оптимальное количество кластеров.// |
- | - //Реализовать модификацию k-means++. Объяснить её приемущества. Сравнить с обычным методом k-means.// | + | - //Реализовать модификацию [[https://en.wikipedia.org/wiki/K-means%2B%2B|k-means++]]. Объяснить её приемущества. Сравнить с обычным методом k-means.// |
===== Содержание отчёта ===== | ===== Содержание отчёта ===== | ||
Line 30: | Line 36: | ||
- Дать классификацию и охарактеризовать основные методы кластерного анализа. | - Дать классификацию и охарактеризовать основные методы кластерного анализа. | ||
- Критерии качества кластерных разбиений. | - Критерии качества кластерных разбиений. | ||
- | - Описать и прокомментировать метод k-средних кластерного анализа. | + | - Описать и прокомментировать метод k-means кластерного анализа. |