Исследователи из Национального института стандартов и технологий (NIST) разработали новый статистический инструмент, который они использовали для прогнозирования функций белков. Он не только может помочь в сложной работе по модификации белков практически полезными способами, но и работает с методами, их можно полностью интерпретировать, что является преимуществом перед обычным искусственным интеллектом (ИИ), который помогал в белковой инженерии в прошлом.
Новый инструмент, названный LANTERN, может оказаться полезным в самых разных областях – от производства биотоплива до улучшения сельскохозяйственных культур и разработки новых методов лечения заболеваний.
Белки, как строительные блоки биологии, являются ключевым элементом во всех этих задачах. Но хотя внести изменения в нить ДНК, лежащую в основе того или иного белка, относительно легко, остается сложной задачей определить, какие именно пары оснований – ступеньки на лестнице ДНК – являются ключом к желаемому результату. Поиск таких ключей был прерогативой ИИ на основе глубоких нейронных сетей (ГНС), которые, несмотря на свою эффективность, как известно, непрозрачны для человеческого понимания.
Описанный в новой работе, опубликованной в Proceedings of the National Academy of Sciences, FONAR демонстрирует способность предсказывать генетические изменения, необходимые для создания полезных различий в трех различных белках. Один из них – шипованный белок с поверхности вируса SARS-CoV-2, который вызывает COVID-19; понимание того, как изменения в ДНК могут изменить этот шипованный белок, может помочь эпидемиологам предсказать будущие пандемии.
Два других – хорошо известные лабораторные рабочие лошадки: белок LacI из бактерии E. coli и зеленый флуоресцентный белок (GFP), используемый в качестве маркера в биологических экспериментах. Выбор этих трех объектов позволил команде NIST продемонстрировать не только то, что их инструмент работает, но и то, что его результаты поддаются интерпретации – важная характеристика для промышленности, которой нужны прогностические методы, помогающие понять основную систему.
“У нас есть подход, который можно полностью интерпретировать, но при этом он не теряет своей предсказательной силы, – делится Питер Тоннер, статистик и вычислительный биолог из NIST и главный разработчик LANTERN. – Широко распространено мнение, что, если вы хотите получить одну из этих вещей, вы не сможете получить другую. Мы показали, что иногда можно получить и то, и другое”.