Команда ученых из Биохаба Чан Цукерберг в Стэнфордском университете разработала метод машинного обучения для количественного анализа и сравнения изображений – в данном случае микроскопических изображений белков – без каких-либо предварительных знаний. Как сообщается в журнале Nature Methods, их алгоритм, получивший название “cytoself”, предоставляет богатую и подробную информацию о расположении и функции белка в клетке. Эта возможность может ускорить время исследований для клеточных биологов и, в конечном счете, использоваться для ускорения открытия лекарств и их скрининга.
Cytoself не только демонстрирует возможности алгоритмов машинного обучения, но и дает представление о клетках, основных строительных блоках жизни, и белках, молекулярных строительных блоках клеток. Каждая клетка содержит около 10 000 различных типов белков – некоторые из них работают отдельно, многие – вместе, выполняя различную работу в разных частях клетки для поддержания ее здоровья.
“Клетка гораздо более пространственно организована, чем мы думали ранее. Это важный биологический вывод о том, как устроена человеческая клетка”, — рассказывает Мануэль Леонетти, соавтор исследования.
Как и все инструменты, разработанные в CZ Biohub, cytoself имеет открытый исходный код и доступен для всех.
Cytoself является примером так называемого самообучения, то есть человек не учит алгоритм чему-либо об изображениях белков, как это происходит при контролируемом обучении.
“При контролируемом обучении приходится обучать машину по очереди на примерах; это большая и очень утомительная работа. И если машина ограничена категориями, которым ее обучают люди, это может внести предвзятость в систему”, — делится Хирофуми Кобаяши, ведущий автор исследования.
Выяснилось, что алгоритм смог извлечь очень много информации из изображений.
“Уровень детализации локализации белков оказался гораздо выше, чем мы могли себе представить. Машина преобразует каждое изображение белка в математический вектор. Таким образом, вы можете начать ранжировать изображения, которые выглядят одинаково. Мы поняли, что таким образом мы можем с высокой точностью предсказать, какие белки работают вместе в клетке, просто сравнивая их изображения, что было просто удивительно”, – отмечают ученые.
Хотя ранее уже были проведены некоторые работы по визуализации белков с использованием самоконтролируемых или не самоконтролируемых моделей, никогда ранее самоконтролируемое обучение не использовалось столь успешно на таком большом наборе данных, включающем более 1 миллиона изображений, охватывающих более 1300 белков, измеренных на живых человеческих клетках.
Эти изображения стали результатом проекта CZ Biohub OpenCell под руководством Леонетти, направленного на создание полной карты человеческой клетки, включая в конечном итоге характеристику примерно 20 000 типов белков, которые питают клетки человека. Ранее в этом году журнал Science опубликовал первые 1 310 белков, которые они охарактеризовали, включая изображения каждого белка (полученные с помощью флуоресцентной метки) и сравнение их взаимодействий друг с другом.