Данные исследованийИспользование высокоскоростных компьютеров в борьбе против ВИЧ

Кристин Ферт (Kristin Firth) и Миа Мэтьюсоу (Mia Matusow)

Думая о медиках-исследователях, вы, наверное, представляете себе мужчин и женщин в белых халатах с пробирками и микроскопами? Возможно, они вам видятся как группа химиков из университета или фармацевтической компании? Это распространенное и, конечно, вполне соответствующее действительности представление о медицинских исследованиях, но это

всего лишь одна сторона работы медиков. В действительности некоторые медицинские исследования проводятся совершенно иначе.

Возможно, вы будете удивлены, когда узнаете, что исследовательский центр корпорации Майкрософт играет ключевую роль в попытках изготовить вакцину против вируса иммунодефицита человека (ВИЧ). Более того, при этом в корпорации нет ни единой спиртовой горелки. Отдел исследований выглядит точно так же, как и любое другое офисное помещение со столами и большим количеством компьютеров.

Так какова же роль корпорации Майкрософт в этих исследованиях? Ученые в белых халатах, работающие в различных университетах и исследовательских центрах, включая госпиталь MGH в Бостоне, университет Британской Колумбии, Вашингтонский университет, Центр исследования рака Фреда Хатчинсона и университет Мердока из Австралии, накопили за время своей работы огромный объем данных. А группа eScience из исследовательского центра корпорации Майкрософт, состоящая из шести человек, из которых пятеро находится в Редмонде, штат Вашингтон, а один — в Нью-Мексико, помогает исследователям обрабатывать и анализировать эту информацию. Исследовательский центр корпорации Майкрософт впервые принял участие в этой программе в 2003 году. Сейчас группа eScience сотрудничает с учеными в рамках самых различных проектов, затрагивающих проблемы общества. Группа работает в тесном контакте с учеными из других организаций, создает специальные программные решения, собирает числовые данные и анализирует результаты.

В рамках одного из приоритетных проектов корпорация помогает анализировать данные по схемам мутации ВИЧ. Дэвид Гекерман (David Heckerman), профессор медицины, кандидат наук, старший научный сотрудник корпорации Майкрософт, рассказывает, что под воздействием иммунной системы зараженного человека ВИЧ быстро мутирует. «В процессе исследований мы пытаемся выяснить, как именно ВИЧ мутирует под воздействием иммунной системы носителя. При этом мы ищем взаимосвязи между типом иммунной системы конкретного пациента и белковыми последовательностями вируса».

Типы иммунных систем и последовательности ВИЧ ученые определяют по образцам, взятым у зараженных людей. Именно на этом этапе происходит обработка числовых данных. Исследование предусматривает поиск взаимозависимостей между тремя тысячами аминокислот ВИЧ и сотнями типов иммунных систем людей. «Мы разработали статистические тесты, дающие больше достоверных взаимосвязей и уменьшающие количество ошибочно положительных или отрицательных результатов, — говорит Карл Кади (Carl Kadie), кандидат наук, ведущий инженер-разработчик исследовательского программного обеспечения корпорации Майкрософт. — Однако эти тесты требуют огромных компьютерных мощностей, причем тем больше, чем больше задействовано образцов. Смысл в том, чтобы создать миллионы моделей и определить максимально достоверные взаимосвязи».

Использование высокоскоростных компьютеров в борьбе против ВИЧ

Всего несколько лет назад ограниченные возможности обработки данных сильно замедляли исследования. Участвующие в проекте исследователи корпорации Майкрософт, вооруженные всего шестью компьютерами, не обладали достаточными мощностями для выполнения анализа в разумные сроки. Анализ всех позиций генома вакцины и различных типов иммунной системы всего лишь 200 образцов занял бы целый год. Даже если бы исследователи использовали исключительно для этого анализа 20 компьютеров, они все равно столкнулись бы со сложной проблемой запуска тестов вручную на 20 отдельных ПК, получения 20 отдельных наборов результатов и обязательного использования дополнительной программы (и времени) для сведения результатов. Управление несколькими заданиями, сбор информации из разных источников и прочие задачи заняли бы слишком много времени. Поэтому они обратились к группе высокоскоростных вычислений (High-Performance Computing, HPC) корпорации Майкрософт.

В 2006 г. исследователи внедрили Windows® Compute Cluster Server 2003. Это решение HPC позволило исследователям объединить мощности многочисленных компьютеров. Фактически сервер Windows Compute Cluster Server позволяет распределять работу между параллельно работающими узлами сервера. Задачи распределения данных по узлам, управления данными и объединения результатов выполняются автоматически. В решение включены процедуры настройки, набор средств управления и встроенный планировщик заданий.

Наконец, оно позволило преодолеть наиболее существенные технические трудности: сняло ограничения по вычислительной мощности и полностью автоматизировало процессы распределения работы и управления данными.

Установка

Специалисты исследовательского центра корпорации Майкрософт полагали, что кластерный подход будет оптимальным решением в данной ситуации. Сервер Windows Compute Cluster Server 2003 хорошо подходит для проектов, где используются приложения, многократно выполняющие одну и ту же операцию (например, в случаях, когда решение проблемы и анализ можно ускорить с помощью параллельного выполнения задач). Однако развертывание такого решения представляет собой не самую простую задачу, поскольку создание систем для высокоскоростных вычислений требует серьезных расходов, особенно на электропитание и системы охлаждения. Системы для высокоскоростных вычислений включают множество серверов, которые могут неделями работать в режиме стопроцентной загрузки процессора.

На следующих этапах нужно определить максимальный размер кластера, который может себе позволить организация, а также место его установки. Если текущая среда построена на базе Windows с Active Directory®, то у администраторов уже есть инфраструктура, необходимая для установки, развертывания и поддержки кластера. В средах, где служба каталогов Active Directory еще не используется, потребуются дополнительные этапы конфигурации.

Кроме всего прочего нужно решить, каким образом создавать узлы внутри кластера. Можно выбрать использование средств, которые входят в пакет Windows Compute Cluster Server 2003, или остановиться на собственных технологиях развертывания. Необходимо установить саму ОС Windows Compute Cluster Server 2003, а также программные приложения, которые будут запускаться в кластере. Кроме того, необходимо предоставить доступ к кластеру пользователям, то есть дать им возможность подключаться и отправлять задания с помощью графического интерфейса или командной строки.

Windows Compute Cluster Server 2003 — это 64-разрядная операционная система (типичная архитектура среды Windows Compute Cluster Server 2003 изображена на рисунке 1). На момент написания этой статьи (июнь 2007 г.) исследовательский центр корпорации Майкрософт запускал самые различные приложения в кластере из 25 серверов IBM eServer 326. В каждом из этих серверов было установлено по два процессора AMD Opteron с частотой 2,6 ГГц.

Рис. 1 Построение высокопроизводительной вычислительной среды на базе Windows Compute Cluster Server 2003

Рис. 1** Построение высокопроизводительной вычислительной среды на базе Windows Compute Cluster Server 2003 **(Щелкните изображение, чтобы увеличить его)

Развернув Windows Compute Cluster Server, группа обновила приложение для поиска генетических взаимосвязей, чтобы его можно было запускать в кластерной среде. Развертывать приложения для кластеров не всегда одинаково сложно. Объем необходимого программирования обычно зависит от самого приложения.

Сначала группа разработала универсальный интерфейс пользователя с помощью встроенных средств Windows Compute Cluster Server. Но это было лишь временное решение. Вскоре было разработано собственное веб-приложение, которое было более гибким и поддерживало доступ к некоторым узлам кластера специалистам, находящимся за пределами офиса Майкрософт. Дело в том, что корпорация Майкрософт участвует в форуме по распределенным вычислениям (Open Grid Forum), и некоторые кластеры исследовательского центра Майкрософт открыты пользователям из университетов, расположенных по всему миру. Это позволяет исследователям сотрудничать и распределять рабочую нагрузку.

Помимо графического интерфейса сервер Windows Compute Cluster Server поддерживает интерфейс командной строки, что дает пользователям возможность создавать сценарии. Кроме того, сервер имеет множество различных интерфейсов API, которые можно использовать для разработки программ, взаимодействующих непосредственно с планировщиком заданий Windows Compute Cluster. Центр исследований корпорации Майкрософт выбрал именно эту технологию.

Получение результатов

Использование высокоскоростных вычислений позволило группе eScience из исследовательского центра Майкрософт достичь значительных успехов на пути к созданию вакцины против ВИЧ. «Благодаря высокоскоростным компьютерам мы стали получать результаты гораздо быстрее, — говорит г-н Гекерман. —. Несколько других научных групп, с которыми мы на данный момент сотрудничаем, используют наши статистические технологии и делятся своими открытиями. В итоге ученые уже почти сформулировали новую гипотезу, которую мы будем проверять. Если бы мы до сих пор использовали старые технологии, каждый этап процесса получения результатов занял бы целый год. Теперь для этого нужен всего один день».

До внедрения Windows Compute Cluster Server исследовательский центр корпорации Майкрософт вынужден был бы использовать непрактичные, отнимающие много времени методы анализа. «После появления Windows Compute Cluster Server, — говорит г-н Кади, — выполнение 50 задач по 200 000 образцов в каждом занимает у нас столько же времени, сколько раньше занимало выполнение одной задачи».

Теперь, когда у группы eScience появились огромные вычислительные мощности, она может проводить тесты, включающие многократную обработку смоделированных данных. Результаты тестирования смоделированных данных имеют решающее значение при определении наборов реальных, представляющих наибольший интерес. Чем больше создано моделей, тем надежнее результат.

Извлеченные уроки

Безусловно, исследовательский центр корпорации Майкрософт выиграл от использования ОС Windows Compute Cluster Server, но симбиоз оказался еще важнее. Разработчики из группы высокоскоростных вычислений, работающие над второй версией Windows Compute Cluster Server, по-прежнему получают и используют отзывы группы eScience.

В частности, в процессе наблюдения за работой кластера исследовательского центра сотрудники группы HPC очень многое узнали о распределении ресурсов и нашли оптимальный способ распределения ресурсов кластера между пользователями. Например, в данном проекте средний пользователь обычно создавал по одному заданию за раз, в среднем по 50 задач в каждом задании. Пользователь отправлял задание, а планировщик заданий Windows Compute Cluster выделял достаточное количество ресурсов для выполнения всех 50 задач. Для этого он незамедлительно привлекал к выполнению задач все доступные узлы. Такой сценарий не создал бы проблем в однопользовательской среде, но при наличии нескольких пользователей, для которых очень важна одновременная работа над проектами, реализовать его достаточно сложно.

Теперь после завершения 10 из 50 задач не происходит освобождение 10 серверов. Перед тем как переключить ресурсы серверов на выполнение другого задания, диспетчер ожидает выполнения всех 50 задач. Разработчики из группы HPC ищут способ перераспределения ресурсов после завершения каждой задачи, а не всего задания.

Кроме того, исследовательский центр корпорации Майкрософт ожидает, что группа HPC поможет устранить определенные проблемы, относящиеся к удобству взаимодействия с сервером Windows Compute Cluster Server пользователей. Исследователи особенно хотят реализовать такой механизм обеспечения безопасности, чтобы учетные данные пользователей автоматически передавались в вычислительный кластер с пользовательского компьютера с веб-интерфейсом. Это решение должно работать с Microsoft® .NET Framework и дополнять проверку подлинности на основе форм ASP.NET, чтобы веб-приложения могли передавать узлам кластера все учетные данные пользователей при каждой отправке задания.

Теперь члены группы eScience исследовательского центра Майкрософт и их коллеги со всего мира могут сосредоточиться на наиболее важных элементах своей работы и передать обработку данных и управление заданиями компьютерам. «Мы может и дальше работать в одной команде, — считает г-н Гекерман. — Мы расширяем границы знаний о ВИЧ и успешно двигаемся вперед в борьбе с этой болезнью».

Кристин Ферт (Kristin Firth) и Миа Мэтьюсоу (Mia Matusow), сотрудники Blue Line Writing & Editing, в течение последних десяти лет занимались разработкой стратегических материалов для государственных и частных корпоративных организаций, действующих на трех континентах.

© 2008 Корпорация Майкрософт и компания CMP Media, LLC. Все права защищены; полное или частичное воспроизведение без разрешения запрещено.