courses:data_analysis_and_interpretation:task1

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:data_analysis_and_interpretation:task1 [2019/07/11 13:56]
andrey.suchkov [Таблица Социологический опрос]
courses:data_analysis_and_interpretation:task1 [2022/12/10 09:08] (current)
Line 1: Line 1:
 ====== Практическая работа №1: Основы работы с языком R ====== ====== Практическая работа №1: Основы работы с языком R ======
 ===== Цель работы ===== ===== Цель работы =====
-Научиться создавать программы на языке R, формировать и обрабатывать с их помощью статистические данные,​ а также пользоваться контекстной помощью.+Изучить приёмы работы со средой RStudio, научиться создавать программы на языке R, формировать и обрабатывать с их помощью статистические данные,​ а также пользоваться контекстной помощью.
 ===== Основные теоретические положения ===== ===== Основные теоретические положения =====
 R -- язык программирования для статистической обработки данных и работы с графикой,​ а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. R широко используется как статистическое программное обеспечение для анализа данных и фактически стал стандартом для статистических программ. R поддерживает широкий спектр статистических и численных методов и обладает хорошей расширяемостью с помощью пакетов. Пакеты представляют собой библиотеки для работы специфических функций или специальных областей применения. В базовую поставку R включен основной набор пакетов,​ а всего по состоянию на 2017 год доступно более 11778 пакетов. Ещё одна особенность R -- возможность создания качественной графики,​ которая может включать математические символы. R -- язык программирования для статистической обработки данных и работы с графикой,​ а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. R широко используется как статистическое программное обеспечение для анализа данных и фактически стал стандартом для статистических программ. R поддерживает широкий спектр статистических и численных методов и обладает хорошей расширяемостью с помощью пакетов. Пакеты представляют собой библиотеки для работы специфических функций или специальных областей применения. В базовую поставку R включен основной набор пакетов,​ а всего по состоянию на 2017 год доступно более 11778 пакетов. Ещё одна особенность R -- возможность создания качественной графики,​ которая может включать математические символы.
-===== Общая формулировка задачи ===== 
-Используя средства языка R провести анализ таблицы данных "​Социологический опрос",​ получить необходимые результаты,​ сделать выводы. 
  
-==== Порядок выполнения работы ==== +RStudio -- свободная среда разработки программного обеспечения с открытым исходным кодом для языка программирования R, который предназначен для статистической обработки данных и работы с графикой. RStudio написана на языке программирования C++ и использует фреймворк Qt для графического интерфейса пользователя. 
-  - Создать таблицу ​с заголовком «Социологический опрос» из 6 случаев и 4 переменных. Имена переменных задать следующие:​ Пол, Возраст,​ Образование,​ Доход. ​В качестве названий случаев задать ​ФИО, заполнить ​ее. +===== Постановка задачи ===== 
-  - Сопоставить текстовым значениям Пол и Образование численные значения и метки. +Используя средства языка R провести анализ таблицы данных <<​Социологический опрос>>,​ получить необходимые результаты,​ сделать выводы. 
-  - Добавить новую переменную Доход_20,​ значения которой равны Доход + премия в размере 20% от Дохода ​(рассчитать по формуле)+ 
-  - Изучить блоковые операции и определить среднее значение Дохода. +===== Порядок выполнения работы ​===== 
-  - Используя ​Статистические графики ​построить столбчатую диаграмму для Возраста и Дохода. +  - Создать таблицу ​данных <<Социологический опрос>> ​из 6 случаев и 4 переменных ​с помощью конструкции ''​data.frame()''​. Имена переменных задать следующие: ​''​name''​ (ФИО), ''​sex''​ (Пол)''​age''​ (Возраст)''​education''​ (Образование)''​income''​ (Доход). 
-  - Изменить ​графические установки и сохранить ​их в отдельном файлеприменить ​их к новому графику+  - Переменные Пол и Образование ​представить как факторные. Проверить, что эти ​переменные действительно факторные любым удобным способом с соответствующим сообщением в консоли. 
-  - Изучить интерактивный графический анализ данных: кисть и редактор данных графика. +  - Добавить ​в таблицу ​новую переменную ​''​income_20''​ (Доход_20), значения которой равны Доход + премия в размере 20% от Дохода. 
-  - Отредактировать ​файл отчета и сохранить.+  - Рассчитать среднее значение Дохода ​и вывести его на экран
 +  - Используя инструменты R построить столбчатую диаграмму для Возраста и Дохода. 
 +  - Добавить ​в таблицу новую переменную ''​income_S''​ (Доход_С),​ значения которой ​равны Доход + Доход_20. 
 +  - Добавить ​новую переменную ''​income_M''​ (Доход_М). Необходимо найти максимальный доход и для каждого респондента определить, сколько процентов от максимального дохода составляет его доход
 +  - Рассчитать среднее значение дохода в зависимости от пола. 
 +  - Удалить переменную ''​income_20''​. 
 +  - Составить таблицу 1000x3, содержащую в качестве первой переменной значения значения $x_i \in [0,\,2\pi]$ ($x_i$ ​изменяется с постоянным шагом),​ в качестве второй -- значения $\sin x_i$ и в качестве третьей -- значения $\sin x_i + X$, где $X \sim \mathcal N(0,​\,​0.005)$. 
 +  - Создать новый dataframe, в котором будут сохранены только первые 100 строк ​и последние 50 строк таблицы из п. 10
 +  - Используя инструменты R вывести первые 5 строчек ​датафрейма из п. 11. 
 +  - Используя инструменты R вывести последние 5 строчек датафрейма ​из п. 11. 
 +  - Нарисовать ​2 синусоиды,​ используя данные из п. 10. 
 +==== Таблица "Социологический опрос" ==== 
 +^  name               ​^ ​ sex     ​^ ​ age  ^  education ​ ^  income ​ ^ 
 +|  John Davis         ​| ​ Male    |  21   ​| ​ Secondary ​ |  125     | 
 +|  Angela Williams ​   |  Female ​ |  23   ​| ​ Higher ​    ​| ​ 345     | 
 +|  Janice Markhammer ​ |  Female ​ |  40   ​| ​ -          |  50      | 
 +|  Bullwinkle Moose   ​| ​ Male    |  35   ​| ​ Secondary ​ |  399     | 
 +|  Mary Rayburn ​      ​| ​ Female ​ |  18   ​| ​ Secondary ​ |  136     | 
 +|  Greg Knox          |  Male    |  20   ​| ​ Higher ​    ​| ​ 120     | 
 +===== Содержание отчёта ===== 
courses/data_analysis_and_interpretation/task1.1562853402.txt.gz · Last modified: 2022/12/10 09:08 (external edit)