Upload
verdad
View
113
Download
9
Embed Size (px)
DESCRIPTION
Третья полевая школа по почвенной зоологии и экологии для молодых ученых «Почвенно-зоологические исследования: от планирования к публикации». Анализ экологических данных с использованием языка программирования R. Андрей Цыганов Пензенский государственный университет. - PowerPoint PPT Presentation
Citation preview
Анализ экологических данных с использованием языка программирования R
Андрей ЦыгановПензенский государственный
университет
Третья полевая школа по почвенной зоологии и экологии для молодых ученых «Почвенно-зоологические исследования: от планирования к публикации»
ПО для анализа данных – неотъемлемая часть экологических исследований
• Экологические данные– Многомерные (основные объекты экологии, т.е. сообщества,
экосистемы, трудно охарактеризовать одним показателем)– Массивные (широкий пространственно-временной охват,
автоматизированные методы сбора данных)
• Сложные алгоритмы анализа (большой объем вычислений)
• Нетривиальные способы графического представления данных
Выбор ПО при планировании исследования
Выбор ПО
Как анализировать
данные?
Как собирать данные?
Как представлять
данные?
Прочие характеристики ПО
• Гибкость, т.е. возможность настройки под ваши конкретные потребности
• Возможности обновления ПО• Универсальность• Лицензионные условия• Совместимость ПО (в случае если планируется
использование нескольких программ)
ПО для анализа данных• (см. Comparison of statistical software in Wikipedia)
• Microsoft Excel (плохо приспособлен для работы с научными данными)
• STATISTICA, SPSS, Origin, MatLab (лицензионное, отсутствуют специфические экологические анализы)
• Primer, CANOCO (лицензионное, редкое обновление)
• Past и др. (редкое обновление, узкая специализация)
Что такое R?
– это комплексное программное обеспечение для обработки, анализа и графического представления данных
Включает в себя:язык программированияпрограммную среду
Почему R? Преимущества
• Доступность– Распространяется бесплатно– Центральная система хранения и
распространения www.cran.r-project.org
Почему R? Преимущества
• Доступность• Универсальность
– Стабильная база и множество дополнений (пакетов или библиотек)
• “vegan” анализ структуры сообществ• “FD” функциональные признаки• “spdep” пространственное распределение• “map” работа с картами• и ~ 1500 вариантов
Почему R? Преимущества
• Доступность• Универсальность• Актуальность
– Новые методы анализа доступны практически сразу после их публикации
Почему R? Преимущества
• Доступность• Универсальность• Актуальность• Графические возможности
– Практически неограниченный набор вариантов графического представления данных
Почему R? Преимущества
0 10 20 30 40 50
-2-1
01
2
Simple Use of Color In a Plot
Just a Whisper of a Label
1 2 3 4 5 6 7 8 9 10
-20
24
6
Notched Boxplots
Group
x
Freq
uenc
y
-4 -2 0 2 4
050
100
150
200
1000 Normal Random Variates
Sepal.Length
2.0 3.0 4.0 0.5 1.5 2.5
4.5
6.0
7.5
2.0
3.0
4.0
Sepal.Width
Petal.Length
13
57
4.5 6.0 7.5
0.5
1.5
2.5
1 3 5 7
Petal.Width
Edgar Anderson's Iris Data
0 200 400 600 800
020
040
060
0
100
100
110
110
110
110
120
130
140 150
160
160
170
180
19 0
A Topographic Map of Maunga Whau
Meters North
Met
ers
Wes
t
10 Meter Contour Spacing
Почему R? Преимущества
• Доступность• Универсальность• Актуальность• Графические возможности
– Практически неограниченный набор вариантов графического представления данных
– .ps, .pdf, .tif, .png, .jpeg и др.
Почему R? Преимущества
• Доступность• Универсальность• Актуальность• Графические возможности• Гибкость
– возможность написания собственных функций– только необходимая информация
Почему R? Преимущества
• Доступность• Универсальность• Актуальность• Графические возможности• Гибкость• Воспроизводимость анализов
Почему R? «Недостатки»
• Интерфейс командной строки (графический интерфейс R commander, RKWard, RExcel и до.)
• Недостаточно литературы на русском языке
Принципы R• Объекты
– вектор (x1, x2, x3, .. xn), х = число или текст– матрица (многомерные, чаще двумерные векторы)
x11, x12, x 1 3, .. x 1 n
x21, x22, x 2 3, .. x 2 n
. . . . .
xm1, xm2, xm3, .. xmn
– фактор (категориальные данные)– список (несколько объектов разного типа)– таблица данных (список векторов и/или факторов)– и др.
• Команды– Команда (аргумент1, аргумент2, …, аргументn)
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Пример из экологии
Литература• На русском языке
• Шипунов А.Б., Балдин Е.М., Волкова П.А. и др. Наглядная статистика. Используем R! Москва: ДМК пресс, 2012– 298 с.
• Статистический анализ данных в системе R. Учебное пособие / А.Г. Буховец, П.В. Москалев, В.П. Богатова, Т.Я. Бирючинская; Под ред. проф. Буховца А.Г. –– Воронеж: ВГАУ, 2010. –– 124 с.
• Геостатистический анализ данных в экологии и природопользовании (с применением пакета R): Учебное пособие / А.А. Савельев, С.С. Мухарамова, А.Г. Пилюгин, Н.А. Чижикова. – Казань: Казанский университет, 2012. – 120 с.
• На английском языке– Серия “Use R!” издательства Springer– Для начинающих
• Dalgaard P. (2008) Introductory statistics with R. Second edition. Springer. 363 p.– Для экологов
• Borcard D., Gillet F., Legendre P. (2012) Numerical Ecology with R. Springer. 319 p.
В качестве заключения• Выбор ПО важный этап в планировании и проведении
исследований
• При выборе ПО желательно руководствоваться не только потребностями самого исследования, но и обращать внимание на прочие характеристики ПО
• Язык программирования R – оптимальный вариант
• Интерфейс программной строки не так страшен
Спасибо за внимание!