courses:data_analysis_and_interpretation:exam
Экзамен
Список экзаменационных вопросов
- Проблема обработки данных. Матрица данных. Гипотеза компактности и скрытых факторов.
- Структура матрицы данных и задачи обработки. Матрица объект-объект и признак-признак. Расстояние и близость.
- Измерение признаков. Отношения и их представление. Основные проблемы измерений.
- Основные типы шкал. Проблема адекватности. Классификация данных: общая постановка задачи.
- Решающие функции и основные подходы к их построению.
- Классификация данных как статистическая задача.
- Классификация в случае двух нормальных распределений с равными матрицами ковариаций.
- Примеры построения решающих функции для нормальных распределений с равными диагональными матрицами ковариаций.
- Ошибки классификации для случая двух нормальных распределений с равными матрицами ковариаций.
- Апостриорная вероятность отнесения данных к классу (на основе теоремы Байеса) для случая многомерных нормальных распределений.
- Классификация при количестве классов больше двух (нормальное распределение с равными матрицами ковариаций).
- Классификация для случая двух нормальных распределений с разными матрицами ковариаций.
- Линейный дискриминант Фишера.
- Пошаговый дискриминантный анализ.
- Кластерный анализ: общая постановка задачи, определение расстояний между объектами и кластерами, критерии кластеризации.
- Последовательная процедура итеративной оптимизации в задачах кластер-анализа.
- Параллельная процедура кластеризации. Алгоритм k-внутригрупповых средних.
- Алгоритм автоматической классификации на основе алгоритма адаптивного выбора подклассов (АВП).
- Иерархическая группировка.
- Обучаемые классификаторы: детерминистский подход. Вероятность получения линейного разделения классов.
- Построение линейных решающих правил персептронного типа – обучение с коррекцией ошибок.
- Построение линейных решающих функции методом градиентной минимизации функции качества.
- Алгоритмы оценки информативности признаков.
- Метод главных компонент для выбора признаков.
- Факторный анализ: общая модель.
- Структура факторных уравнений. Неоднозначность факторного решения. Метод главных факторов.
- Метод центроидных факторов.
- Проблема оценки значений факторов и виды факторных моделей.
- Оценки общностей и вращение факторов.
- Многомерное шкалирование.
Перечень экзаменационных задач
- Выполнить центрирование и нормирование матрицы данных.
- Построить байесовское решающее правило для двух классов для нормального распределения.
- Построить решающее правило для классификации двух классов на основе апостериорных вероятностей.
- Найти уравнение линии равной плотности вероятностей $f(x) = C$, для двумерного нормального распределения.
- Построить решающую функцию для классификации 2-х нормальных классов
- Найти расстояние Махалонобиса для двух классов. Найти выражение для средней ошибки классификации этих классов с использованием байесовской решающей функции.
- Построить решающее правило для классификации двух классов с разными матрицами ковариации.
- Написать первые $n$ шагов персептронной процедуры обучения для классификации двух классов $X_1$, $X_2$, состоящих из векторов заданных построчно в матрицах $X_1$, $X_2$.
- Определить расстояние между двумя кластерами $C_1$, $C_2$ по методу ближайшего соседства.
- Написать $n$ шагов процедуры кластеризации по методу k-средних.
- Произвести иерархическую кластеризацию данных, заданных построчно в матрице $C$.
- Найти выражения главных компонент для набора данных с заданной матрицей ковариации $\Sigma$.