courses:data_analysis_and_interpretation:task2

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task2 [2019/01/10 11:00]
andrey.suchkov
courses:data_analysis_and_interpretation:task2 [2019/10/09 14:23]
andrey.suchkov [Практическая работа №2: Подготовка статистических данных для последующей обработки]
Line 1: Line 1:
-====== Практическая работа №2 ======+====== Практическая работа №2: Подготовка статистических данных ​====== 
 +===== Цель работы ===== 
 +Подготовить данные для работы с R на базе искомого набора статистических данных. 
 +===== Основные теоритические положения ===== 
 +Рассмотрим традиционный способ представления результатов эксперимента -- матрицу данных. Пусть исследователь располагает совокупностью из $N$ наблюдений над состоянием исследуемого явления. При этом явление описано набором из $n$ характеристик,​ значения которых тем или иным способом измерены в ходе эксперимента. Данные характеристики носят название признаков,​ показателей или параметров. Такая информация представляется в виде двухмерной таблицы чисел $\mathbf X$ размерности $N \times n$ или в виде матрицы $X$ размерности $N \times n$: 
 +$$ X =  
 +\begin{pmatrix} 
 +x_{11} & \ldots & x_{1j} & \ldots & x_{1n}\\ 
 +\ldots & \ldots & \ldots & \ldots & \ldots\\ 
 +x_{i1} & \ldots & x_{ij} & \ldots & x_{in}\\ 
 +\ldots & \ldots & \ldots & \ldots & \ldots\\ 
 +x_{N1} & \ldots & x_{Nj} & \ldots & x_{Nn}\\ 
 +\end{pmatrix} 
 +$$ 
 +Строки матрицы $X$ соответствуют наблюдениям или, другими словами,​ объектам наблюдения. В качестве объектов наблюдения выступают,​ например:​ в социологии -- респонденты (анкетируемые люди), в экономике -- предприятия,​ виды продукции и т.д. Столбцы матрицы $X$ соответствуют признакам,​ характеризующим изучаемое явление. Как правило,​ это наиболее легко измеряемые характеристики объектов. Например,​ предприятие характеризуется численностью,​ стоимостью основных фондов,​ видом выпускаемой продукции и т.д. Очевидно,​ что элемент $X_{ij}$ представляет собой значение признака $j$, измеренное на объекте $i$. Часто матрица данных $X$ приводится к стандартной форме следующим преобразованием (для элементов матрицы в стандартной форме используется обозначение $x'​$):​ 
 +$$ 
 +x'_j = \frac{x_{ij} - \bar x_j}{\sigma_j},​ 
 +$$ 
 +$$ 
 +\bar x_j = \frac1N\sum_{i = 1}^Nx_{ij},​ 
 +$$ 
 +$$ 
 +\sigma_j^2 = \frac1N\sum_{i = 1}^N(x_{ij} - \bar x_j)^2, \, i = 1..N, \, j = 1..n, 
 +$$ 
 +где $\bar x_j$, $\sigma_j^2$ -- среднее и дисперсия по столбцу с номером $j$, после которого стандартная матрица $X'$ обладает следующими свойствами:​ 
 +$$ 
 +\overline{x'​_j} = \frac1N\sum_{i = 1}^Nx'​_{ij} = 0, 
 +$$ 
 +$$ 
 +(\sigma'​_j)^2 = \frac1N\sum_{i = 1}^N(x'​_{ij})^2 = 1, \, i = 1..N, \, j = 1..n. 
 +$$ 
 +Зачастую признаки,​ описывающие некоторый объект,​ имеют существенно различный физический смысл. Это приводит к тому, что величины в различных столбцах исходной матрицы трудно сопоставлять между собой, например,​ //​килограмм//​ и //​метр//​. Поэтому получение стандартизованной матрицы можно понимать как приведение всех признаков к некоторой единой условной физической величине,​ выраженной в одних и тех же условных единицах. 
 +===== Постановка задачи ===== 
 +Выбрав набор данных,​ одобренный преподавателем,​ подготовить данные для последующей работы с помощью инструментов R. 
 +===== Порядок выполнения работы ===== 
 +===== Содержание отчёта ===== 
 + 
courses/data_analysis_and_interpretation/task2.txt · Last modified: 2022/12/10 09:08 (external edit)