courses:statistical_methods_of_experimental_data_handling:prac6

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:statistical_methods_of_experimental_data_handling:prac6 [2021/03/24 15:08]
andrey.suchkov [Порядок выполнения работы]
courses:statistical_methods_of_experimental_data_handling:prac6 [2024/03/01 19:55] (current)
andrey.suchkov [Порядок выполнения работы]
Line 1: Line 1:
-====== ​Лабораторная работа №6: Кластерный анализ. Метод k-средних ======+====== ​Практическая работа №6: Кластерный анализ. Метод k-средних ======
 ===== Цель работы ===== ===== Цель работы =====
-Освоение основных понятий и некоторых методов кластерного анализа,​ в частности,​ метода k-средних.+Освоение основных понятий и некоторых методов кластерного анализа,​ в частности,​ метода k-means.
  
 ===== Постановка задачи ===== ===== Постановка задачи =====
-Дано конечное множество из объектов,​ представленных двумя признаками (в качестве этого множества принимаем исходную двумерную выборку,​ сформированную ранее в лабораторной работе №4). Выполнить разбиение исходного множества объектов на конечное число подмножеств (кластеров) с использованием метода k-средних. Полученные результаты содержательно проинтерпретировать.+Дано конечное множество из объектов,​ представленных двумя признаками (в качестве этого множества принимаем исходную двумерную выборку,​ сформированную ранее в практической работе №4). Выполнить разбиение исходного множества объектов на конечное число подмножеств (кластеров) с использованием метода k-means. Полученные результаты содержательно проинтерпретировать.
  
 ===== Порядок выполнения работы ===== ===== Порядок выполнения работы =====
-  - Нормализовать множество точек, отобразить полученное множество. +  - Нормализовать множество точек ​из предыдущего раздела, отобразить полученное множество. 
-  - Определить верхнюю оценку количества кластеров ​по формуле: $ \bar k = \lfloor\sqrt{N/​2}\rfloor $, где $ N $ -- число точек. +  - Определить ​<<​грубую>> ​верхнюю оценку количества кластеров:​ $ \tilde k = \lfloor\sqrt{N/​2}\rfloor $, где $ N $ -- число точек. 
-  - Реализовать алгоритм k-meansотобразить полученные кластерывыделить каждый кластер разным цветомотметить центроиды. +  - Реализовать алгоритм k-means ​в двух вариантах:​  
-  Провести оценку ​качества разбиения для различных разбиений.+    - пересчет центра кластера ​осуществляется после каждого изменения его состава; 
 +    - пересчет центра кластера осуществляется лишь после того, как будет завершен просмотр всех данных (шаг процедуры). 
 +  - На каждом шаге процедуры разбиения методом k-means ​вычислять функционалы качества полученного ​разбиения: 
 +    - $ F_1 $ -- сумма по всем кластерам квадратов расстояний элементов кластеров до центров соответствующих кластеров;​ 
 +    $ F_2 $ -- сумма по всем кластерам внутрикластерных расстояний между элементами ​кластеров;​ 
 +    - $ F_3 $ -- сумма по всем кластерам внутрикластерных дисперсий (относительно центров кластеров). 
 +  - Отобразить полученные кластеры,​ выделить каждый кластер ​разным цветом,​ отметить центроиды.
   - Содержательно проинтерпретировать полученные результаты.   - Содержательно проинтерпретировать полученные результаты.
   - //​Дополнительные необязательные задания://​   - //​Дополнительные необязательные задания://​
-    - //​Реализовать алгоритмы k-medians и k-medoids. Отобразить полученные кластеры,​ выделить каждый кластер разным цветом,​ отметить центроиды. Провести оценку методов,​ сделать выводы.//​ +    - //​Реализовать алгоритмы ​[[https://​en.wikipedia.org/​wiki/​K-medians_clustering|k-medians]] и [[https://​en.wikipedia.org/​wiki/​K-medoids|k-medoids]]. Отобразить полученные кластеры,​ выделить каждый кластер разным цветом,​ отметить центроиды. Провести оценку методов,​ сделать выводы.//​ 
-    - //С помощью метода локтя и/или метода силуэтов выявить для каждого метода оптимальное количество кластеров.//​ +    - //С помощью ​[[https://​en.wikipedia.org/​wiki/​Elbow_method_(clustering)|метода локтя]] и/​или ​[[https://​en.wikipedia.org/​wiki/​Silhouette_(clustering)|метода силуэтов]] выявить для каждого метода оптимальное количество кластеров.//​ 
-    - //​Реализовать модификацию k-means++. Объяснить её приемущества. Сравнить с обычным методом k-means.//+    - //​Реализовать модификацию ​[[https://​en.wikipedia.org/​wiki/​K-means%2B%2B|k-means++]]. Объяснить её приемущества. Сравнить с обычным методом k-means.//
  
 ===== Содержание отчёта ===== ===== Содержание отчёта =====
Line 30: Line 36:
   - Дать классификацию и охарактеризовать основные методы кластерного анализа.   - Дать классификацию и охарактеризовать основные методы кластерного анализа.
   - Критерии качества кластерных разбиений.   - Критерии качества кластерных разбиений.
-  - Описать и прокомментировать метод k-средних ​кластерного анализа.+  - Описать и прокомментировать метод k-means кластерного анализа.
courses/statistical_methods_of_experimental_data_handling/prac6.1616598491.txt.gz · Last modified: 2022/12/10 09:08 (external edit)