Исследователи наводят порядок в больших данных биологии человека

Многолетнее исследование, проведенное учеными из Центра анализа данных Саймонса (SCDA) и крупных университетов и медицинских школ, открыло новые важные горизонты, установив, как гены работают вместе в 144 различных тканях и типах клеток человека, выполняя функции этих тканей.

Документ, который будет опубликован в сети Nature Genetics 27 апреля, также демонстрирует, как информатика и статистические методы могут сочетаться для агрегирования и анализа очень больших – и потрясающе разнообразных – геномных коллекций «больших данных».

Под руководством Ольги Троянской, заместителя директора по геномике SCDA, команда собрала и интегрировала данные примерно из 38 000 полногеномных экспериментов (из примерно 14 000 публикаций). Эти наборы данных обязательно содержат не только информацию о функциях РНК / белков клеток, но и информацию от людей, у которых диагностированы различные заболевания.

Используя интегративный вычислительный анализ, исследователи сначала выделили функциональные генетические взаимосвязи, содержащиеся в этих обширных наборах данных, для различных типов тканей. Затем, объединив этот тканеспецифический функциональный сигнал с соответствующими исследованиями геномных ассоциаций на основе ДНК соответствующего заболевания (GWAS), исследователи смогли идентифицировать статистические ассоциации между генами и заболеваниями, которые в противном случае невозможно было бы обнаружить.

Получившаяся в результате методика, которую они назвали “ сетевым ассоциативным исследованием ” или NetWAS, таким образом, объединяет количественную генетику с функциональной геномикой для повышения эффективности GWAS и выявления генов, лежащих в основе сложных заболеваний человека. А поскольку этот метод полностью основан на данных, NetWAS избегает предвзятости в сторону более изученных генов и путей, позволяя обнаруживать новые ассоциации.

Директор SCDA Лесли Грингард говорит:, "Ольга и ее сотрудники продемонстрировали, что выдающихся результатов можно достичь, объединив глубокие биологические знания с современными вычислительными методами и применив их к крупномасштабным, зашумленным и разнородным наборам данных."

Результатом их усилий стали 144 функциональные сети взаимодействия генов для таких разных органов, как почки, печень и весь мозг. В статье описываются функциональные нарушения генов при таких заболеваниях, как гипертония, диабет и ожирение.

Важно отметить, что хотя такие функциональные сети взаимодействия генов уже были созданы на животных моделях, этот подвиг еще не был достигнут – и не мог бы быть достигнут без «больших данных» – в тканях человека. Многие типы клеток человека, важные для болезни, не могут быть изучены с помощью традиционных прямых экспериментов, поэтому возможность вместо этого работать с этими обширными наборами данных была критическим обходным путем.

"Ключевой проблемой биологии человека является то, что генетические цепи в человеческих тканях и типах клеток очень трудно изучать экспериментально," говорит Троянская, которая также является профессором кафедры информатики и Института интегративной геномики Льюиса-Сиглера в Принстонском университете. "Например, клетки подоцитов в почках, которые выполняют фильтрующую функцию почек, не могут быть изолированы для исследования в лаборатории, а функция генов не может быть идентифицирована с помощью экспериментов в масштабе генома. Тем не менее, нам нужно понять, как белки взаимодействуют в этих клетках, если мы хотим понять и лечить хроническое заболевание почек. Наш подход собрал эти большие коллекции данных, чтобы построить карту того, как генетические цепи функционируют в клетках подоцитов и во многих других тканях и типах клеток, имеющих отношение к заболеванию."

Эти результаты имеют важное значение для нашего понимания нормальной функции генов, но также и для использования и разработки лекарств: причинные гены или гены-мишени могут быть лучше идентифицированы для лечения, и можно ожидать ранее неожиданных взаимодействий с лекарствами и нарушений. "Биомедицинские исследователи могут использовать эти сети и пути, которые они открывают, для понимания действия лекарств и побочных эффектов в контексте конкретных тканей, связанных с заболеванием, а также для перепрофилирования лекарств," Троянская говорит. "Эти сети также могут быть полезны для понимания того, как работают различные методы лечения, и для помощи в разработке новых методов лечения."

Исследователи также создали онлайн-ресурс, чтобы другие ученые могли использовать NetWAS и получать доступ к тканевым сетям. Команда создала интерактивный сервер, Комплексный анализ сетей в тканях в масштабе генома, или GIANT. GIANT позволяет пользователям исследовать сети, сравнивать, как генетические схемы различаются в тканях, и анализировать данные генетических исследований, чтобы найти гены, вызывающие заболевания.

Аарон К. Вонг, специалист по обработке данных в SCDA и бывший аспирант факультета информатики в Принстоне, был первым в создании GIANT. "Нашей целью было разработать ресурс, доступный для биомедицинских исследователей," он говорит. "Например, с помощью GIANT исследователи, изучающие болезнь Паркинсона, могут искать сеть черной субстанции, которая представляет область мозга, пораженную болезнью Паркинсона, для выявления новых генов и путей, участвующих в болезни." Вонг – один из трех соавторов статьи.

Двое других соавторов статьи – Арджун Кришнан, научный сотрудник Института Льюиса-Сиглера; и Кейси С. Грин, доцент кафедры генетики Дартмутского колледжа, который с 2009 по 2012 годы был докторантом группы Троянской. Другими ключевыми участниками этого исследования были Эмануэла Риччиотти, Гаррет А. Фитцджеральд и Тило Гроссер из отдела фармакологии и Института трансляционной медицины и терапии Медицинской школы Перельмана Пенсильванского университета; Даниил I. Часман из Бригама и женской больницы и Гарвардской медицинской школы в Бостоне; и Кара Долински из Института Льюиса-Сиглера в Принстонском университете.

"Это захватывающее время для биомедицинских исследований, и я считаю, что мы все еще находимся на ранних этапах разработки новых способов размышления о биологических сетях и их контроле," Грингард говорит.