Структура

Методы и подходы, использованные в ходе выполнения проекта

      Анализ и уточнение эколого-ценотических групп (ЭЦГ) видов проводили оригинальным экспертно-статистическом методом на основе совместного анализа экологических и ценотических свойств видов растений (Смирнов и др., 2006а,б). В качестве экологических свойств видов анализировали балльные оценки видов по шести факторам, взятым из таблиц Г. Элленберга (Ellenberg, 1996): увлажнения, богатства, кислотности почвы, освещенности, температурного режима и континентальности климата. В качестве ценотических характеристик видов брали координаты видов в ординационном пространстве геоботанических описаний. Список характеристик видов см. здесь. Для этого использовали следующие геоботанические данные: 591 описание северной тайги (259 анализируемых видов), 844 описания средней тайги (394 вида), 293 описания южной тайги (276 видов) и 2019 описаний широколиственных лесов и лесостепи (1027 видов). Ординацию описаний бореальной и гемибореальной зоны (Рис. 1-3) проводили методом неметрического многомерного шкалирования (Non-metric Multidimensional Scaling, NMS), который в настоящее время считается наиболее перспективным методом экологической ординации (McCune, Grace, 2002). К достоинствам метода относится возможность выбора произвольной меры расстояния (мы использовали меру Брея-Кертиса), а также наличие встроенной процедуры определения оптимальной размерности (числа осей) ординации. Координаты видов рассчитывались взвешенным усреднением координат описаний.
Рис. 1.Результаты ординации геоботанических описаний северной тайги методом неметрического многомерного шкалирования.
Рис. 2.Результаты ординации геоботанических описаний средней тайги методом неметрического многомерного шкалирования.
Рис. 3.Результаты ординации геоботанических описаний южной тайги методом неметрического многомерного шкалирования.
На диаграммах приведены векторы экологических факторов, рассчитанные по шкалам Элленберга: F - увлажнение почвы, L - освещенность, N - богатство почвы азотом, R - кислотность почвы, T - температурный режим, C - континентальность климата.
      Ординация геоботанических описаний зоны умеренных лесов и лесостепи (Рис. 4) из-за большого объема данных проводилась вычислительно менее требовательным методом, чем NMS, - анализом соответствий с удаленным трендом (Detrended Correspondence Analysis, DCA) (Hill, Gauch, 1980). Этот метод обладает рядом хорошо известных недостатков (McCune, Grace, 2002; Смирнов, Ханина, 2004). Однако, в данном случае была получена хорошо интерпретируемая ординационная диаграмма, координаты видов в которой использовались далее для анализа.
Рис. 4.Результаты ординации геоботанических описаний широколиственных лесов и лесостепи анализом соответствий с удаленным трендом. На диаграмме приведены векторы экологических факторов, рассчитанные по шкалам Элленберга: F - увлажнение почвы, L - освещенность, N - богатство почвы азотом, К - континентальность климата.
      Ординацию описаний проводили с помощью программы PC-ORD версии 5 (McCune, Mefford, 2006).

      Основным статистическим методом описания состава ЭЦГ был выбран многомерный дискриминантный анализ (ДА). Выбор ДА в качестве основного статистического метода обосновывался двумя причинами. Во-первых, возможностью его использования в качестве описательного метода, без проверки статистических гипотез, что отчасти сглаживает жесткость требований, предъявляемых ДА к входным данным. Во-вторых, алгоритм ДА устроен таким образом, что позволяет легко отслеживать результаты работы алгоритма на каждом шаге; понимать, в частности, почему по результатам ДА вид попадает в ту или иную группу и вносить необходимые коррекции. Это свойство ДА важно именно при экспертно-статистическом подходе к анализу данных. Впервые ДА для анализа видовых группировок (фитосоциологических групп) по экологическим шкалам был использован в работе Van der Maarel (1993). Мы впервые применили подобный подход для исследования растительности Европейской России, расширив и дополнив его оригинальной методикой (Смирнов и др., 2006а, б). Для расчетов использовался классический вариант ДА (непошаговый, линейный), представленный в пакете Statistica версии 6 (StatSoft, Inc., 2001). Априорные вероятности принадлежности вида к той или иной ЭЦГ считались равными для всех групп.

      Дополнительно, при уточнении ЭЦГ видов умеренной зоны, в ДА были добавлены в качестве новой переменной жизненные формы видов по Раункиеру (Raunkiaer, 1934). Анализировали следующие жизненные формы растений: геофиты, гемикриптофиты, гидрофиты, терофиты, травянистые хамефиты. Переменная «жизненная форма» являлась категориальной (качественной), поэтому для оценки ее вклада в дискриминацию (в разделение видов по группам) традиционный ДА был недостаточен. Для работы с этой переменной мы использовали модуль программы Statistica 6 "General Discriminant Analysis Models", GDA. Данный модуль представляет собой объединение возможностей традиционного ДА с общей линейной моделью. Последняя является обобщением модели линейной регрессии для случаев, когда 1) независимые переменные (предикторы) могут быть как качественными, так и количественными, 2) зависимых переменных может быть несколько. Проведение ДА в рамках общей линейной модели позволяет также планировать сложные схемы анализа, с учетом всех возможных взаимодействий между предикторами. Последнее обстоятельство важно для корректной обработки именно категорильных предикторов. В силу статистической специфики категорильных предикторов рекомендуется протестировать модели, учитывающие взаимодействие качественных и количественных переменных (указано в файле помощи программы Statistica). Мы проверили взаимодействия переменной «жизненная форма» с остальными переменными в GDA, все они оказались незначимыми. Поэтому мы остановились на обычной аддитивной модели, без взаимодействия переменных.

      Помимо ДА, в проекте были использованы так называемые деревья решений (Decision Trees), или классификационные деревья. Это набор методов, составляющий важную часть современного и бурно развивающегося подхода к анализу данных, который известен в западной литературе как Data Mining (букв. - добыча данных). Деревья решений становятся популярным инструментом в количественной экологии, в т.ч. при работе с функциональными группами (Nygaard, Ejrnes, 2004). Визуальный анализ деревьев дает быструю оценку качества классификации и облегчает интерпретацию основных результатов - позволяет оценить, например, важность переменных в анализе вообще и для конкретных групп в частности, положение различных ЭЦГ в пространстве анализируемых переменных и т.п. В этом смысле деревья служат полезным дополнением к ДА, поскольку последний имеет ограниченные возможности для графического представления результатов - в основном в канонической части ДА. Для проекта нами был выбран алгоритм С4.5, основанный на методе построения деревьев решений, впервые предложенный Куинленом (Quinlan, 1993) и реализованный во многих пакетах Data Mining. Мы использовали свободно распространяемый пакет Weka версии 3.5.1 (Witten, Frank, 2005), где алгоритм C4.5 представлен под внутренним обозначением J48. Построение деревьев осуществлялось со следующими параметрами: критерий доверия (уровень усечения дерева) - 0.01-0.25, минимальное число объектов в одном листе - 5, прочие установки оставлены по умолчанию. Для оценки качества классификации использовалась процедура перекрестной проверки (cross-validation) c числом подвыборок (folds) - 10.