courses:data_analysis_and_interpretation:task4

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task4 [2019/11/29 13:29]
andrey.suchkov [Основные теоретические положения]
courses:data_analysis_and_interpretation:task4 [2022/12/10 09:08] (current)
Line 3: Line 3:
 Ознакомиться с методами кластер-анализа на основе языка R. Ознакомиться с методами кластер-анализа на основе языка R.
 ===== Основные теоретические положения ===== ===== Основные теоретические положения =====
-Термин кластерный анализ (впервые понятие введено математиком Р. Трионом,​ 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос,​ задаваемый исследователями во многих областях,​ состоит в том, как организовать наблюдаемые данные в наглядные структуры,​ т.е. развернуть таксономии. Например,​ биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой,​ принятой в биологии,​ человек принадлежит к приматам,​ млекопитающим,​ амниотам,​ позвоночным и животным. Заметьте,​ что в этой классификации,​ чем выше уровень агрегации,​ тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами),​ чем с "отдаленными" ​членами семейства млекопитающих (например,​ собаками) и т.д.+Термин кластерный анализ (впервые понятие введено математиком Р. Трионом,​ 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос,​ задаваемый исследователями во многих областях,​ состоит в том, как организовать наблюдаемые данные в наглядные структуры,​ т.е. развернуть таксономии. Например,​ биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой,​ принятой в биологии,​ человек принадлежит к приматам,​ млекопитающим,​ амниотам,​ позвоночным и животным. Заметьте,​ что в этой классификации,​ чем выше уровень агрегации,​ тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами),​ чем с <<отдаленными>> ​членами семейства млекопитающих (например,​ собаками) и т.д.
  
-Фактически,​ кластерный анализ является не столько обычным статистическим методом,​ сколько ​"набором" ​различных алгоритмов ​"распределения объектов по кластерам". Существует точка зрения,​ что в отличие от многих других статистических процедур,​ методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов,​ но все еще находитесь в описательной стадии исследования. Следует понимать,​ что кластерный анализ определяет ​"наиболее возможно значимое решение".+Фактически,​ кластерный анализ является не столько обычным статистическим методом,​ сколько ​<<набором>> ​различных алгоритмов ​<<распределения объектов по кластерам>>. Существует точка зрения,​ что в отличие от многих других статистических процедур,​ методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов,​ но все еще находитесь в описательной стадии исследования. Следует понимать,​ что кластерный анализ определяет ​<<наиболее возможно значимое решение>>.
  
 //​Деревья кластеризации.//​ Назначение алгоритма построения деревьев кластеризации заключается в постепенном объединении объектов в достаточно большие кластеры,​ используя меры расстояния и сходства между объектами. //​Деревья кластеризации.//​ Назначение алгоритма построения деревьев кластеризации заключается в постепенном объединении объектов в достаточно большие кластеры,​ используя меры расстояния и сходства между объектами.
Line 15: Line 15:
 Использующиеся способы объединения кластеров:​ Использующиеся способы объединения кластеров:​
   * Одиночная связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах;​   * Одиночная связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах;​
-  * Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах,​ то есть ​"наиболее удаленными соседями".+  * Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах,​ то есть ​<<наиболее удаленными соседями>>.
   * Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них.   * Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них.
   * Метод Варда. Метод минимизирует сумму квадратов для любых двух (гипотетических) кластеров,​ которые могут быть сформированы на каждом шаге.   * Метод Варда. Метод минимизирует сумму квадратов для любых двух (гипотетических) кластеров,​ которые могут быть сформированы на каждом шаге.
courses/data_analysis_and_interpretation/task4.1575034182.txt.gz · Last modified: 2022/12/10 09:08 (external edit)