This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
courses:data_analysis_and_interpretation:task1 [2019/07/12 19:10] andrey.suchkov [Порядок выполнения работы] |
courses:data_analysis_and_interpretation:task1 [2022/12/10 09:08] (current) |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Практическая работа №1: Основы работы с языком R ====== | ====== Практическая работа №1: Основы работы с языком R ====== | ||
===== Цель работы ===== | ===== Цель работы ===== | ||
- | Научиться создавать программы на языке R, формировать и обрабатывать с их помощью статистические данные, а также пользоваться контекстной помощью. | + | Изучить приёмы работы со средой RStudio, научиться создавать программы на языке R, формировать и обрабатывать с их помощью статистические данные, а также пользоваться контекстной помощью. |
===== Основные теоретические положения ===== | ===== Основные теоретические положения ===== | ||
R -- язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. R широко используется как статистическое программное обеспечение для анализа данных и фактически стал стандартом для статистических программ. R поддерживает широкий спектр статистических и численных методов и обладает хорошей расширяемостью с помощью пакетов. Пакеты представляют собой библиотеки для работы специфических функций или специальных областей применения. В базовую поставку R включен основной набор пакетов, а всего по состоянию на 2017 год доступно более 11778 пакетов. Ещё одна особенность R -- возможность создания качественной графики, которая может включать математические символы. | R -- язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. R широко используется как статистическое программное обеспечение для анализа данных и фактически стал стандартом для статистических программ. R поддерживает широкий спектр статистических и численных методов и обладает хорошей расширяемостью с помощью пакетов. Пакеты представляют собой библиотеки для работы специфических функций или специальных областей применения. В базовую поставку R включен основной набор пакетов, а всего по состоянию на 2017 год доступно более 11778 пакетов. Ещё одна особенность R -- возможность создания качественной графики, которая может включать математические символы. | ||
+ | |||
+ | RStudio -- свободная среда разработки программного обеспечения с открытым исходным кодом для языка программирования R, который предназначен для статистической обработки данных и работы с графикой. RStudio написана на языке программирования C++ и использует фреймворк Qt для графического интерфейса пользователя. | ||
===== Постановка задачи ===== | ===== Постановка задачи ===== | ||
- | Используя средства языка R провести анализ таблицы данных "Социологический опрос", получить необходимые результаты, сделать выводы. | + | Используя средства языка R провести анализ таблицы данных <<Социологический опрос>>, получить необходимые результаты, сделать выводы. |
===== Порядок выполнения работы ===== | ===== Порядок выполнения работы ===== | ||
- | - Создать таблицу данных <<Социологический опрос>> из 6 случаев и 4 переменных с помощью конструкции ''data.frame''. Имена переменных задать следующие: ''name'' (ФИО), ''sex'' (Пол), ''age'' (Возраст), ''education'' (Образование), ''income'' (Доход). | + | - Создать таблицу данных <<Социологический опрос>> из 6 случаев и 4 переменных с помощью конструкции ''data.frame()''. Имена переменных задать следующие: ''name'' (ФИО), ''sex'' (Пол), ''age'' (Возраст), ''education'' (Образование), ''income'' (Доход). |
- | - Переменные Пол и Образование представить как факторные. | + | - Переменные Пол и Образование представить как факторные. Проверить, что эти переменные действительно факторные любым удобным способом с соответствующим сообщением в консоли. |
- Добавить в таблицу новую переменную ''income_20'' (Доход_20), значения которой равны Доход + премия в размере 20% от Дохода. | - Добавить в таблицу новую переменную ''income_20'' (Доход_20), значения которой равны Доход + премия в размере 20% от Дохода. | ||
- Рассчитать среднее значение Дохода и вывести его на экран. | - Рассчитать среднее значение Дохода и вывести его на экран. | ||
Line 15: | Line 17: | ||
- Добавить в таблицу новую переменную ''income_S'' (Доход_С), значения которой равны Доход + Доход_20. | - Добавить в таблицу новую переменную ''income_S'' (Доход_С), значения которой равны Доход + Доход_20. | ||
- Добавить новую переменную ''income_M'' (Доход_М). Необходимо найти максимальный доход и для каждого респондента определить, сколько процентов от максимального дохода составляет его доход. | - Добавить новую переменную ''income_M'' (Доход_М). Необходимо найти максимальный доход и для каждого респондента определить, сколько процентов от максимального дохода составляет его доход. | ||
+ | - Рассчитать среднее значение дохода в зависимости от пола. | ||
+ | - Удалить переменную ''income_20''. | ||
- Составить таблицу 1000x3, содержащую в качестве первой переменной значения значения $x_i \in [0,\,2\pi]$ ($x_i$ изменяется с постоянным шагом), в качестве второй -- значения $\sin x_i$ и в качестве третьей -- значения $\sin x_i + X$, где $X \sim \mathcal N(0,\,0.005)$. | - Составить таблицу 1000x3, содержащую в качестве первой переменной значения значения $x_i \in [0,\,2\pi]$ ($x_i$ изменяется с постоянным шагом), в качестве второй -- значения $\sin x_i$ и в качестве третьей -- значения $\sin x_i + X$, где $X \sim \mathcal N(0,\,0.005)$. | ||
- | - Построить соответствующие графики. | + | - Создать новый dataframe, в котором будут сохранены только первые 100 строк и последние 50 строк таблицы из п. 10. |
+ | - Используя инструменты R вывести первые 5 строчек датафрейма из п. 11. | ||
+ | - Используя инструменты R вывести последние 5 строчек датафрейма из п. 11. | ||
+ | - Нарисовать 2 синусоиды, используя данные из п. 10. | ||
==== Таблица "Социологический опрос" ==== | ==== Таблица "Социологический опрос" ==== | ||
- | ^ ФИО ^ Пол ^ Возрас ^ Образование ^ Доход ^ | + | ^ name ^ sex ^ age ^ education ^ income ^ |
- | | Петров П. | Муж | 21 | Среднее | 125 | | + | | John Davis | Male | 21 | Secondary | 125 | |
- | | Комарова И. | Жен | 23 | Высшее | 345 | | + | | Angela Williams | Female | 23 | Higher | 345 | |
- | | Филова Р. | Жен | 40 | - | 50 | | + | | Janice Markhammer | Female | 40 | - | 50 | |
- | | Статистов М. | Муж | 35 | Среднее | 399 | | + | | Bullwinkle Moose | Male | 35 | Secondary | 399 | |
- | | Ивлева Т. | Жен | 18 | Среднее | 136 | | + | | Mary Rayburn | Female | 18 | Secondary | 136 | |
- | | Часов И. | Муж | 20 | Высшее | 120 | | + | | Greg Knox | Male | 20 | Higher | 120 | |
+ | ===== Содержание отчёта ===== |