Структура

Лаборатория кристаллографии макромолекул



Данные заметки содержат обзор работ, выполненных в ЛКМ ИМПБ РАН. Информация об исследованиях других авторов по данной тематике может быть найдена в указанных ниже оригинальных статьях.

Разработка методики ab-initio решения фазовой проблемы кристаллографии белка, стартуя с низкого разрешения.

(1990-2002)

      Целью проекта являлась разработка ab-initio методики определения фаз структурных факторов. Под ab-initio здесь понимается следующее: исходной информацией для решения фазовой проблемы являются лишь значения модулей структурных факторов и информация общего типа, не связанная с дополнительными экспериментами с данным белком.

      На первой стадии расшифровки структуры биологических макромолекул методом рентгеновского анализа делается попытка найти функцию ρ(x,y,z), описывающую распределение электронов в кристалле исследуемого объекта. Эта функция имеет периодичность по трем пространственным направлениям и может быть представлена в виде трехмерного ряда Фурье

(1)     

Комплексные коэффициенты F(h,k,l)exp[i φ(h,k,l)] этого ряда называются в кристаллографии структурными факторами, а вещественные величины F(h,k,l) и φ(h,k,l) - соответственно модулями и фазами структурных факторов. "Классический" рентгеновский эксперимент позволяет определять лишь значения модулей F(h,k,l) структурных факторов. Проблема восстановления значений фаз структурных факторов φ(h,k,l) (необходимых для расчета распределения ρ(x,y,z) называется фазовой проблемой рентгеноструктурного анализа. Естественно, для решения этой проблемы должна быть привлечена какая-то дополнительная информация об исследуемом объекте. В том случае, когда в расчет распределения ρ(x,y,z) по приведенной формуле включены не все, а только часть слагаемых, говорят о расчете синтеза Фурье электронной плотности конечного разрешения. Разрешение синтеза Фурье определяется количеством слагаемых, используемых при расчете - чем больше слагаемых присутствует, тем выше разрешение синтеза, тем более тонкие детали структуры можно определить, анализируя этот синтез.

      Определение структуры биологических макромолекул по данным рентгеновского рассеяния представляет собой сложную задачу, требующую значительных долей как компьютерной обработки, так и квалифицированного человеческого труда. В РСА низкомолекулярных соединений современные компьютерные комплексы позволяют получать координаты атомов почти автоматически, стартуя непосредственно с экспериментальных данных. Однако такая "прямая" расшифровка структуры для биологических макромолекул на сегодняшний день невозможна (за исключением уникальных работ с маленькими белками). Обычно работа проходит ряд стадий: приближенный расчет функции, описывающей распределение электронов в изучаемом объекте (расчет синтеза Фурье электронной плотности); интерпретация синтеза Фурье в структурных терминах и построение предварительной атомной модели; уточнение параметров модели. Успех работы в значительной мере определяется первым этапом - построением интерпретируемого синтеза Фурье. Главная проблема его расчета заключается в том, что рентгеновский эксперимент позволяет получить только часть информации, необходимой для расчета синтеза - модули комплексных структурных факторов (коэффициентов в разложении функции распределения электронной плотности в ряд Фурье). Проблема восстановления необходимых для расчета синтеза Фурье значений фаз составляет центральную ("фазовую") проблему РСА. Существуют 3 направления в традиционных подходах к решению фазовой проблемы. Первое направление опирается на получение химическими методами модифицированного белка (изоморфного производного) и проведение с ним дополнительных рентгеновских экспериментов (метод изоморфного замещения). Второе направление использует наличие в исследуемых кристаллах аномально рассеивающих атомов и высокое качество кристаллов (использование многоволнового аномального рассеяния). Третье направление предполагает существование гомологичных белков с уже известной структурой (метод молекулярного замещения). Целью описываемого проекта была разработка подхода, свободного от этих ограничений и опирающегося на дополнительную информацию общего, математического типа, не связанную с проведением трудоемких дополнительных экспериментов.

      В зависимости от количества структурных факторов, для которых удалось определить фазы и которые были включены в расчет синтеза, говорят о синтезах низкого, среднего или высокого разрешения. Синтезы низкого разрешения позволяют определить расположение молекул в кристаллической ячейке, их ориентацию и общие очертания молекул. Такая информация является стартовой для дальнейших исследований и является необходимой при применении метода молекулярного замещения. Синтезы среднего разрешения позволяют определить элементы вторичной структуры, ход полипептидной цепи, положения боковых групп и служат основой для построения предварительной атомной модели. Получение интерпретируемого синтеза среднего разрешения является залогом успешного определения исследуемой структуры. Синтезы высокого разрешения позволяют изучать более тонкие детали структуры, например, локализовать молекулы связанной с белком воды, изучать альтернативные конформации боковых групп и главной цепи и т.д. Целью данного проекта являлась разработка методики решения фазовой проблемы при низком разрешении и продвижения к среднему разрешению.

      В основе разработанной методики лежит итерационная процедура Монте-Карловского типа, сопряженная с многоуровневой фильтрацией и специальными процедурами кластерного анализа и усреднения. Первым этапом этой процедуры является случайная генерация большого числа (тысяч или миллионов) потенциально возможных наборов фаз. (Каждый такой набор именуется далее "фазовый вариант" или просто "вариант"). На начальных стадиях работы все варианты генерируются с равной вероятностью. На более поздних стадиях, когда появляется некоторая информация о предпочтительных значениях тех или иных фаз, генерация происходит с учетом этой информации. Сгенерированные наборы фаз образуют стартовую, случайную "популяцию" вариантов. Эта популяция может содержать как близкие к правильному решению фазовой проблемы варианты ("хорошие" варианты), так и наборы фаз, весьма далекие от искомого решения. Дальнейшая задача состоит в "обогащении" стартовой популяции, то есть в повышении процентного содержания в ней "хороших" вариантов.

      Каждый из фазовых наборов стартовой популяции позволяет (в совокупности с экспериментально измеренными модулями структурных факторов) рассчитать пробный синтез Фурье. Свойства этого синтеза могли бы служить признаком того, являются ли использованные при расчете фазы разумными или нет (если на синтезе проявляются детали, характерные для реальных распределений электронной плотности, то можно говорить о разумных фазах). Однако адекватная математическая формулировка того, что мы ожидаем от правильного синтеза Фурье, представляет серьезную сложность. Были исследованы различные критерии оценки качества синтезов Фурье и установлено, что при работе при низком и среднем разрешении все эти критерии являются слабыми и не дают возможности окончательного суждения об исследуемом синтезе (обзор некоторых критериев качества дан ниже). В частности, приемлемым (с точки зрения выбранного критерия) качеством могут обладать синтезы, полученные с использованием совершенно неправильных значений фаз. Наоборот, синтезы, рассчитанные с достаточно правильными (хотя и не идеальными) фазами, могут не удовлетворять предъявляемым требованиям. Таким образом, было показано, что решение фазовой проблемы в общем случае не может быть найдено путем поиска глобального оптимума критерия такого типа. Тем не менее, было установлено, что рассмотренные критерии обладают определенной селективность в статистическом смысле, то есть применение таких критериев для отбора вариантов из стартовой популяции позволяет повысить содержание хороших вариантов по сравнению со стартовой популяцией. Следует отметить, что среди отобранных вариантов по-прежнему могут содержаться совершенно неправильные наборы фаз и наоборот, хорошие варианты, присутствовавшие в стартовой популяции, могут быть утеряны в процессе такого отбора. Тем не менее, имеет место эффект "обогащения" популяции, проявляющийся в увеличении доли хороших вариантов в популяции. Такая процедура обогащения, основанная на нескольких критериях отбора, составляет второй этап разработанной процедуры определения фаз.

      Следствием обогащения популяции является то, что в конфигурационном пространстве всех вариантов начинают возникать точки повышенной концентрации отобранных вариантов, и эти точки близки к искомому решению фазовой проблемы. В простейшем случае, когда точка концентрации одна, соответствующий набор фаз может быть взят как приближенное решение фазовой проблемы на текущем этапе. Более аккуратные значения фаз могут быть получены путем применения специально разработанной процедуры усреднения отобранных вариантов. Более сложные ситуации могут быть выявлены при помощи методов кластерного анализа, адаптированных к используемой методике решения фазовой проблемы. Эти методы позволяют выявить наличие нескольких различных точек концентрации отобранных вариантов и выделить кластеры вариантов, тяготеющих к той или иной точке концентрации. Усреднение вариантов внутри каждого из кластеров позволяет получить небольшое число альтернативных потенциальных решений фазовой проблемы. Эти решения могут служить далее для проведения параллельных ветвей расчетов по уточнению решения до тех пор, пока решения не сблизятся, либо какие-то из них будут отвергнуты за очевидной непригодностью. Найденное решение (или решения) используется для генерации случайной популяции вариантов при следующих итерациях.

      Выбор критериев отбора решений играет ключевую роль для успеха процедуры обогащения популяции фазовых вариантов. Ниже дается краткий обзор некоторых критериев. Более подробная информация об использовании этих критериев может быть найдена на соответствующих страницах сайта.

      Гистограммы синтезов Фурье электронной плотности представляют собой набор частот, с которыми встречаются те или иные значения электронной плотности. Тесты показали, что для синтезов со случайными фазами такое распределение частот близко к гауссовому, в то время как для реальных белковых структур это распределение обладает характерной асимметричной формой. Разработана процедура предсказания эталонных гистограмм для белков с еще не установленной структурой (на базе макроскопических характеристик). В процедуре обогащения популяции вариантов отбираются те наборы фаз, чьи синтезы Фурье имеют гистограмму, близкую к эталонной.

      Топологические свойства областей высокой электронной плотности. При изучении свойств синтезов Фурье рассматриваются области в элементарной ячейке, состоящие из точек с высокими значениями электронной плотности ("верхушки плотности"). Для синтезов Фурье низкого разрешения, рассчитанных с правильными значениями фаз и отвечающих реальным белковым кристаллам, такие "верхушки" состоят из небольшого числа разделенных компактных областей, причем количество этих областей равно числу молекул в ячейке. При больших ошибках в фазах эти области превращаются в систему бесконечных "тяжей", не позволяющих выделить изображения отдельных молекул. Для синтезов среднего разрешения область высоких значений, отвечающая молекуле, представляется в виде единого неразрывного куска цепи, следующего ходу полипептидной цепи. При ошибочных фазах эта область распадается на множество мелких "брызг". Такого рода различия в свойствах связности могут служить основой для критерия отбора. Тесты показали высокую эффективность критериев такого рода.

      Использование статистического правдоподобия. При наличии фиксированного набора модулей структурных факторов с каждым пробным набором фаз можно связать соответствующий им синтез Фурье и область в элементарной ячейке, образованную максимальными значениями этого синтеза. С каждой областью такого типа можно связать статистическую гипотезу, заключающуюся в том, что наблюденные в эксперименте модули структурных факторов соответствуют набору атомов, размещенных случайно в тестируемой области. Величина статистического правдоподобия, соответствующего этой гипотезе, может быть выбрана как мера достоверности выбора области и, соответственно, как мера достоверности выбора соответствующего набора фаз. Расчет величины правдоподобия представляет собой сложную математическую задачу. Авторами была предложена и реализована вычислительная процедура Монте-Карловского типа, позволяющая обойти эту сложность.

      Использование бинарности искомых функций. Неоднозначность решения фазовой проблемы может быть существенно уменьшена за счет наложения дополнительного условия бинарности на искомое распределение, т.е. постановки задачи поиска области пространства, занятой атомами исследуемого вещества, вместо поиска конкретных значений электронной плотности в отдельных точках. Искомое распределение электронной плотности (равно как и бинарная функция, описывающая область концентрации электронной плотности в объекте) связано с экспериментально регистрируемыми значениями нелинейными уравнениями, что существенно осложняет поиск решения. В то же время существует эффективный математический аппарат, предназначенный для решения задач поиска бинарных функций при наличии линейных ограничений (булевское линейное программирование, БЛП). Был разработан подход к замене точных нелинейных ограничений более слабыми линейными ограничениями, что позволяет использовать для эффективного решения ослабленной задачи промышленные пакеты программ целочисленного линейного программирования.

      Использование FAM (Few Atoms Model) метода. При этом подходе в качестве дополнительного ограничения используется гипотеза о том, что при низком разрешении распределение электронной плотности можно достаточно хорошо приблизить суммой вкладов небольшого числа очень больших псевдоатомов (глобул). Или, соответственно, структурные факторы при низком разрешении (и, в частности, их фазы) можно приблизить структурными факторами, рассчитанными по модели, состоящей из небольшого числа псевдоатомов. Тесты с известными структурами подтверждают это предположение. Проблема, однако, состоит в том, чтобы найти такие положения центров глобул, которые приводят к правильным фазам.

24 марта 2003
В.Ю.Лунин

Публикации

Полные тексты публикаций


  1. Lunin, V.Yu., Urzhumtsev, A.G. & Skovoroda, T.A. (1990). "Direct low-resolution phasing from electron-density histograms in protein crystallography". Acta Cryst., A46, 540-544.

  2. Lunin, V.Yu. (1991). "Use of the electron-density-syntheses histograms or solving of the phase problem in protein crystallography". Preprint, Pushchino Research Center, Pushchino, Russia.


  3. Лунин В.Ю. (1992). "Использование статистических характеристик синтезов Фурье электронной плотности для решения фазовой проблемы в кристаллографии белка". Автореферат диссертации на соискание ученой степени д.ф.-м.н., ОНТИ ПНЦ РАН, Пущино.

  4. Лунин В.Ю. (1992). "Использование статистических характеристик синтезов Фурье электронной плотности для решения фазовой проблемы в кристаллографии белка". Диссертация на соискание ученой степени д.ф.-м.н., ИК РАН, Москва.

  5. Lunin, V.Yu. (1993). "Electron-Density Histograms and the Phase Problem". Acta Cryst. D49, 90-99.

  6. Lunin, V.Yu., Lunina, N.L., Petrova, T.E., Vernoslova, E.A., Urzhumtsev, A.G. & Podjarny, A.D. (1994). "On the ab-initio solution of the phase problem for macromolecules at very low resolution. The Few Atoms Model method". Joint CCP4 and ESF-EACBM Newsletter on Protein Crystallography, 30, 37-44.

  7. Lunin, V.Yu., Lunina, N.L., Petrova, T.E., Vernoslova, E.A., Urzhumtsev, A.G. & Podjarny, A.D. (1995). "On the ab-initio Solution of the Phase Problem for Macromolecules at Very Low Resolution: the Few Atoms Model Method". Acta Cryst., D51, 896-903.

  8. Volkmann, N., Schlunzen, F., Urzhumtsev, A.G., Vernoslova, E.A., Podjarny, A.D., Roth, M., Pebay-Peyroula , E., Berkovitch-Yellin, Z., Zaytzev-Bashan, A. & Yonath, A. (1995). "On ab-initio phasing of ribosomal particles at very low resolution". Joint CCP4 and ESF-EACBM Newsletter on Protein Crystallography, 31, 23-32.

  9. Urzhumtsev, A.G., Vernoslova, E.A. & Podjarny, A.D. (1996). "Approaches to Very Low Resolution Phasing of the Ribosome 50S particle from Thermus thermophilus by the Few-Atoms-Models and Molecular-Replacement Methods". Acta Crys., D52,1092-1097.

  10. Urzhumtsev, A. (1996). "Développement de méthodes et logiciels pour la détermination de structures macromoléculaires par radiocristallographie. Applications à différents projets". Synthèse d'activitée scientifique, Strasbourg, 1996.

  11. Podjarny, A.D., Urzhumtsev, A.G. & Lunin, V.Y. (1997). "Model based low resolution phasing". In: Direct Methods for Solving Macromolecular Structures, ed. S.Fortier, NATO ASI Series C, Vol.507, 421-431.

  12. Urzhumtsev A.G., Lunin V.Yu. & Podjarny A.D. (1997). "Low resolution crystallographic images". In "Recent Advances in Phasing", ed. By K.S.W.Wilson, G.Davies, A.W.Ashton & S.Bailey, Proceedings of the CCP4 Study Weekend, University of York, 3-4 January, 1997, 207-214.

  13. Podjarny, A.D. & Urzhumtsev, A.G. (1997). "Low resolution phasing". In: Methods in Enzymology, Academic Press, San Diego., C.W.Carter, Jr., R.M.Sweet, eds. 276A, 641-658.

  14. Lunin, V.Yu., Lunina, N.L., Petrova, T.E., Urzhumtsev, A.G. & Podjarny, A.D. (1998). "On the Ab initio solution of the Phase Problem for Macromolecules at Very Low Resolution. II. Generalized Likelihood Based Approach to Cluster Discrimination". Acta Cryst. D54, 726-734.

  15. Лунина Н.Л. (1998). "Вычислительные подходы к решению фазовой проблемы кристаллографии биополимеров при низком разрешении". Автореферат диссертации на соискание ученой степени кандидата физико-математических наук. ОНТИ ПНЦ РАН, Пущино.

  16. Лунина Н.Л. (1998). "Вычислительные подходы к решению фазовой проблемы кристаллографии биополимеров при низком разрешении". Диссертация на соискание ученой степени кандидата физико-математических наук, ИТЭБ РАН, Пущино.

  17. Lunin, V.Y., Lunina, N.L. & Urzhumtsev, A.G. (1999). "Seminvariant density decomposition and connectivity analysis and their application to very low resolution macromolecular phasing". Acta Cryst. A55, 916-925.

  18. Petrova, T.E., Lunin, V.Y. & Podjarny, A.D. (1999). "A likelihood-based search for the macromolecular position in the crystalline unit cell". Acta Crys. A55, 739-745.

  19. Lunin, V.Y., Lunina, N.L., Petrova, T.E., Skovoroda, T.P., Urzhumtsev, A.G. & Podjarny, A.D. (2000). "Low-resolution ab initio phasing: problems and advances". Acta Cryst. D56, 1223-1232.

  20. Urzhumtsev, A.G., Lunina, N.L., Skovoroda, T.P., Podjarny, A.D. & Lunin, V.Y. (2000). "Density constraints and low-resolution phasing". Acta Cryst. D56, 1233-1244.

  21. Petrova, T.E., Lunin, V.Y. & Podjarny, A.D. (2000). "Ab initio low-resolution phasing in crystallography of macromolecules by maximization of likelihood". Acta Cryst. D56, 1245-1252.

  22. Lunin, V.Y., Lunina, N.L. & Urzhumtsev, A.G. (2000). "Connectivity properties of high-density regions and ab initio phasing at low resolution". Acta Cryst. A56, 375-382.

  23. Lunin, V.Y., Lunina, N.L., Petrova, T.E., Skovoroda, T.P., Urzhumtsev, A.G. & Podjarny, A.D. (2000). "Low-resolution ab initio phasing: problems and advances". Acta Cryst. D56, 1223-1232.

  24. Urzhumtsev, A.G., Lunina, N.L., Skovoroda, T.P., Podjarny, A.D. & Lunin, V.Y. (2000). "Density constraints and low-resolution phasing". Acta Cryst. D56, 1233-1244.

  25. Petrova, T.E., Lunin, V.Y. & Podjarny, A.D. (2000). "Ab initio low-resolution phasing in crystallography of macromolecules by maximization of likelihood". Acta Cryst. D56, 1245-1252.

  26. Lunin, V.Y., Lunina, N.L., Ritter, S., Frey, I., Berg, A., Diderichs, K., Podjarny, A.D., Urzhumtsev, A. & Baumstark M.W. (2001). "Low-resolution data analysis for low-density lipoprotein particle". Acta Cryst., D57, 108-121.

  27. Петрова Т.Е. (2000). "Использование принципа максимального правдоподобия при решении фазовой проблемы в кристаллографии макромолекул". Автореферат диссертации на соискание ученой степени кандидата физико-математических наук. Пущино.

  28. Петрова Т.Е. (2000). "Использование принципа максимального правдоподобия при решении фазовой проблемы в кристаллографии макромолекул". Диссертация на соискание ученой степени кандидата физико-математических наук, ИТЭБ РАН, Пущино.

  29. Lunin, V.Y., Podjarny, A.D. & Urzhumtsev, A. (2001). "Low-resolution phasing in macromolecular crystallography". In : Advances in Structure Analysis, CSCA, Prague, Czech Republic, R.Kuzel & J.Hasek, eds., 4-36.

  30. Urzhumtsev, A., Podjarny, A. & Lunin, V.Y. (2001). "Ab initio phasing starting from low resolution". Invited article. Euroconference on Phasing, 23-27 June 2001, Martina Franca, Italy, 4.35-4.40.

  31. Lunin, V.Y., Urzhumtsev, A. & Bockmayr, A. (2002). "Direct phasing by Binary integer programming and its use for envelope determination". CCP4 Newsletter on Protein Crystallograph, 40_12.

  32. Lunin, V.Y., Urzhumtsev, A. & Bockmayr, A. (2002). "Direct phasing by binary integer programming". Acta Cryst. A58, 283-291.