Историческая справка
Методы глубокого машинного обучения разработаны еще в 1960-е гг., но из-за низкой производственной мощности компьютеров они не нашли массового применения и вновь проявили себя уже только в 2012 г., когда сверточная нейронная сеть (НС) выиграла у классических конкурс алгоритмов распознавания изображений [1]. К сожалению, до сих пор данные технологии недостаточно широко применяются для анализа изображений при микроскопической визуализации клеток, тканей и органов в биологии и медицине. Это прежде всего обусловлено техническими сложностями получения большого количества воспроизводимых по качеству микроскопических изображений анализируемых объектов.
Одной из областей, где машинное обучение получило наибольшее распространение, является патоморфология. Сканирование и оцифровка препаратов позволили перейти от техники микроскопирования к визуализации всего препарата целиком в сверхвысоком разрешении, размечать и использовать эти изображения для решения задач классификации, семантической сегментации и детекции объектов с помощью глубоких НС, что дало начало целому направлению – digital pathology. В PubMed при поисковом запросе «histopathology neural network» за последние 5 лет обнаруживаются тысячи статей и с каждым годом их количество растет (https://pubmed.ncbi.nlm.nih.gov/?term=histopathology+neural+network&filter=datesearch.y_5). Это свидетельствует о том, что технические возможности, наконец, достигли необходимого уровня, и данная тематика становится актуальной, но все еще малоисследованной. При этом микроскопическая морфология содержит тысячи различных объектов, характеристики которых можно получать и анализировать с помощью современных компьютеров и программного обеспечения. Морфологические науки достигли некоторого предела своего развития, а с помощью машинного обучения (и глубоких НС, в частности) морфометрия может приобрести интенсивное развитие благодаря внедрению цифровизации и алгоритмизации исследований в цитологии, гистологии, эмбриологии и патологической анатомии.
Машинное обучение в патоморфологии
Исходным материалом для анализа и машинного обучения в морфологических науках являются микроскопические изображения субклеточных структур, клеток, тканей, органов и даже целых организмов, которые можно получать с помощью электронной, световой, фазово-контрастной, флуоресцентной и других видов микроскопии. При этом необходимо соблюдать два основных условия: 1) изображения должны быть качественно воспроизводимыми и 2) изображений должно быть много (от сотен тысяч, и чем изображений больше, тем точнее анализ). Современные сканеры гистологических препаратов, тайм-лапс микроскопы и пополняющиеся открытые базы данных позволяют получать огромное количество качественных изображений самых разных биологических объектов для обучения НС, но эффективные инструменты анализа таких данных развиваются с существенным отставанием. Использование сверточных НС позволяет разработать подобные инструменты в самых различных областях.
При использовании НС для семантической сегментации гистологических изображений задачи формулируются таким образом, чтобы находить конкретные структурные элементы или морфологические паттерны в изучаемом объекте. Для обучений НС необходимо определить целевые структуры или паттерны структур, несущих или ненесущих (по принципу +/-, есть/нет) какой-либо признак (или признаки), количественная оценка совокупного присутствия которого сигнализирует о нарушении структуры клетки/ткани/органа/организма. К сожалению, такой подход обучения НС по заданным паттернам не позволяет искусственному интеллекту самостоятельно найти какие-либо новые, неизвестные человеку различия между патологическими процессами.
Подавляющее большинство публикаций по глубокому обучению в медицине посвящено использованию НС в онкоморфологии – наиболее актуальному и востребованному направлению патологической анатомии. Задача машинного обучения в патологической анатомии сводится к тому, чтобы отличить опухолевую ткань от нормальной и в данной области уже достигнуты некоторые успехи. J. Ker et al. [1] продемонстрировали, что НС без ошибок различает нормальную ткань мозга от глиобластомы, а при разделении нормальной ткани молочной железы от рака in situ допускает менее 10% ошибок. Другие авторы [2] добились уровня ошибки менее 3% при разделении доброкачественных и злокачественных опухолей молочной железы. Yan et al. получили схожие результаты: ошибки при дифференцировке злокачественных инвазивных и in situ опухолей от нормальных тканей составили 5% и 3%, соответственно, в то время как при определении доброкачественных опухолей их уровень был несколько выше – до 13% [3]. Hekler et al. [4] при дифференциальном разделении невуса и меланомы продемонстрировали точность, составившую 68% и оказавшуюся статистически выше, чем при анализе, проведенном на том же материале патологоанатомами (59%). Таким образом, можно заключить, что с относительно несложными задачами НС справляется не хуже квалифицированного специалиста [5]. Более сложной задачей является сопоставление схожих патологических процессов или объектов, локализующихся в морфологически близких структурах ткани (строме, паренхиме). При сравнении глиомы высокой и низкой степени злокачественности (high grade и low grade) была получена точность 97,5% [1]. Korbar et al. [6] с помощью НС добились точности в 93% при дифференцировке доброкачественных опухолей толстой кишки и нормальной ткани.
Реже НС используют в диагностике неопухолевых заболеваний. Wei et al. [7] использовали НС для выявления целиакии в биоптатах двенадцатиперстной кишки. С точностью 87% удалось отличать нормальную слизистую оболочку, неспецифическое воспаление и целиакию. Martin et al. [8] показали, что НС выявляет гастрит почти с 100% точностью, и с 90% – реактивную гастропатию. Также НС используются для оценки качества репродуктивных тканей и органов в программах сохранения и восстановления репродуктивной функции. С помощью сверточной НС удалось произвести высокоточную оценку плотности фолликулов в овариальной ткани [9]. Кроме того анализ гистологических изображений с помощью искусственного интеллекта позволяет оценивать патоморфоз эндометрия [10]. Перечисленные работы были проведены на небольших выборках и безусловно требуют дальнейшей валидации. Также важно отметить, что для отдельного ряда клинических случаев требуется разработка отдельного программного продукта.
Для повышения качества прогностической способности используется технология дообучения предобученной НС. Так, можно получить хорошие результаты даже с относительно небольшим объемом выборки. Для исследователей доступен ряд глубоких НС. Крупные компании в области информационных технологий уже выпустили и выложили в свободный доступ нейросети (ResNet, Inception V3, AlexNet и т.д.), которые предобучены на размеченных объектах реального мира из набора изображений ImageNet [11]. Во многих задачах применение дообучения предобученных НС позволяет существенно повысить точность по сравнению с обучением НС с нуля на имеющемся морфологическом материале.
Большой проблемой обучения НС при анализе микроскопических изображений является подбор, разметка и стандартизация этих изображений, определение зоны интереса, которая на данном этапе не может быть решена без участия человека. НС обучается на изображениях одинакового или разного размера: сканированные гистологические изображения нарезают на квадраты или прямоугольники, при этом патологоанатом выделяет зону интереса. Количественная представленность анализируемого признака в разных изображениях (участках ткани) может существенно различаться, поэтому должно быть проанализировано большое количество изображений, чтобы максимально уменьшить вероятность ошибки. При анализе изображений также применяется аугментация – методика создания дополнительных обучающих материалов из имеющихся данных, позволяющая увеличить количество изображений, тем самым повысив качество обучения НС. Например, используется вращение изображений вокруг центральной оси, искажение изображения для имитации наклона в горизонтальной плоскости, отражение в горизонтальной или вертикальной плоскости, масштабирование и т.д. [2]. Аугментация позволяет увеличить исходный объем данных в разы, но ключевым является не финальное число изображений, а однородность исходных микропрепаратов и количество исходных клинических или экспериментальных объектов.
Благодаря применению современных подходов к обучению НС, получается достаточно хорошо различать как опухолевую, так и неопухолевую патологию, однако доверить НС диагностику сложных случаев пока не получается. Мнение, полученное с помощью НС, специалист может принять во внимание, но решение он примет с учетом комплекса факторов. Получается, что НС обеспечивает поддержку диагностического решения (diagnostic decision support): НС может провести морфологический скрининг и все подозрительные случаи передать патологоанатому, чтобы врач определил окончательный морфологический диагноз. Еще одним потенциальным направлением развития является морфометрия, которая может быть выполнена НС как в клинической диагностике, так и в рамках экспериментальных исследований.
Машинное обучение в программах вспомогательных репродуктивных технологий
Одним из результатов применения машинного обучения являются клинические прогностические модели. Такие модели – это результат применения аналитических методов, обнаруживающих прогностическое влияние различных входных параметров на результаты лечения с определенным уровнем достоверности. В рамках программ вспомогательных репродуктивных технологий (ВРТ) методы машинного обучения применяются для оценки клинических характеристик пациентов, параметров цикла, а также эмбриологических данных с целью предикции исхода ВРТ. Первое подобное исследование с применением искусственных НС было проведено Kaufmann et al. [12] в 1997 г. На основании 455 циклов ВРТ авторы создали клиническую прогностическую модель, построенную с использованием таких переменных, как возраст пациентки, количество полученных ооцитов, количество перенесенных эмбрионов и факта криоконсервации эмбриона. Точность полученной модели составила 59%. По прошествии 20 лет был накоплен большой массив данных об успехах программ ВРТ в крупных клинических центрах. Техническое развитие позволило реализовывать математические алгоритмы для создания десятков прогностических моделей с различной точностью и различными параметрами входных данных. Существует ряд решений для построения предиктивных моделей в области ВРТ на основе различных моделей машинного обучения, включая: support vector machines (SVM), neural network (NN), k-nearest neighbors (kNN), naive bayes (NB), random forest (RF) и decision tree (DT). Недостатком полученных моделей является их слабая валидация в клинике [13]. Различия в системах сбора данных о пациентах, субъективность вносимой информации или ее недостаточность не позволяет сделать ту или иную разработанную модель универсальной.
Наиболее эффективным подходом ВРТ является проведение стимуляции суперовуляции яичников с получением достаточного количества зрелых ооцитов. Часто это приводит к формированию больше одного эмбриона, пригодного для переноса в полость матки. Таким образом, очень важным становится вопрос селекции эмбрионов для приоритетного переноса и достижения беременности в кратчайшие сроки [14]. Морфологическая оценка была основным критерием отбора эмбрионов на протяжении десятилетий [15]. Оценка в первый день (16–20 часов после оплодотворения) включает оценку пронуклеусов и наличие второго полярного тела как индикаторов правильного оплодотворения. Оценка на третий день – это оценка дробления эмбриона, согласно критериям Европейского общества репродукции человека и эмбриологии (ESHRE): количество и размер бластомеров, наличие мультинуклеации, фрагментации или вакуолей. Оценка эмбрионов на стадии бластоцист проходит на пятый и шестой день культивирования по системе Гарднера. На основании перечисленных оценок проводится отбор эмбриона с наилучшими морфологическими параметрами для переноса в полость матки.
Тем не менее, несмотря на очевидные имеющиеся корреляции, морфология эмбриона не всегда является надежным и абсолютным показателем его имплантационного потенциала: оптимальная по морфометрии бластоциста не всегда приводит к беременности, тогда как морфологически субоптимальный эмбрион может привести и к рождению здорового ребенка.
С развитием технологий преимплантационного генетического скрининга (ПГС) стало ясно, что нельзя всецело полагаться на морфологический анализ при выборе эуплоидного эмбриона. Так, было показано, что нет корреляции между хромосомным статусом эмбриона и морфологической оценкой эмбриона на стадии дробления [16]. Для эмбрионов на стадии бластоцисты есть более высокая вероятность эуплоидии среди морфологически хороших бластоцист, но все же влияние анеуплоидии на качество эмбриона трудноуловимо [16]. Даже эмбрионы с хорошей морфологией могут нести генетические аномалии, и, наоборот, среди эмбрионов низкого качества по морфологии, есть эуплоидные эмбрионы. Преимплантационное генетическое тестирование может повысить эффективность ЭКО для определенной группы пациентов, тем не менее данный подход имеет ряд недостатков. Во-первых, это инвазивный метод, который теоретически может понизить жизнеспособность эмбриона. Во-вторых, ПГС требует дополнительные финансовые затраты со стороны пациенток. В-третьих, данный метод предполагает сегментацию лечебного цикла с криоконсервацией всех эмбрионов и переноса размороженного эмбриона в последующих циклах. Другим перспективным подходом к селекции эмбрионов является оценка их метаболического статуса по анализу среды для культивирования. Данный метод является неинвазивным и основывается на анализе концентраций веществ в среде для культивирования эмбрионов. При данном подходе оценивается, как потребление веществ, так и секреция их в культуральную среду. Было показано, что профили концентраций аминокислот, пирувата и глюкозы коррелируют с имплантационным потенциалом эмбрионов [17–20]. Для оценки метаболического статуса эмбриона также можно применять спектроскопию в ближнем инфракрасном диапазоне. Данный метод основывается на сравнении спектров поглощения среды для культивирования эмбрионов и контрольной среды с последующим вычислением «балла жизнеспособности эмбриона» [21]. Так было продемонстрировано, что балл жизнеспособности коррелирует с имплантационным потенциалом эмбрионов на стадии бластоцисты [22].
Тем не менее, несмотря на успехи в данной области, оценка метаболического статуса эмбриона в настоящее время не вошла в рутинную клиническую практику. Данный метод требует дальнейшей доработки и валидации. Также он имеет ряд ограничений, так как требует крайне стабильных условий культивирования, высокотехнологичного оборудования и разработку специальных алгоритмов анализа данных.
Рутинная процедура оценки эмбрионов в клиниках ЭКО основана на наблюдении с помощью световой микроскопии в установленное время. В двухтысячных годах наряду с классическими показателями морфологии бластоцисты, внимание клиницистов привлекли морфокинетические параметры, получаемые с помощью тайм-лапс микроскопии, что дало дополнительные параметры для оценки качества эмбрионов [23]. Тайм-лапс микроскопия позволяет получить важную информацию о развитие эмбрионов, которую зачастую нельзя получить при краткосрочной оценке эмбрионов раз в несколько дней. Система тайм-лапс объединяет три основных элемента: инкубатор, оптический микроскоп и программное обеспечение. Эти элементы обеспечивают постоянное наблюдение за развитием эмбриона при сохранении оптимальных условий культивирования. Маркеры, выявленные тайм-лапс микроскопией, обладают клинической значимостью при их отборе: например, время между оплодотворением и первым дроблением является важным параметром, который коррелирует с определенными прогностическими показателями жизнеспособности эмбрионов [24].
Тайм-лапс данные обладают рядом преимуществ по сравнению с рутинным морфологическим анализом. Они позволяют определить не только точное время до первого дробления и общее число клеточных делений, но и добиться более тщательного морфологического мониторинга, связанного с развитием эмбриона: тайм-лапс обнаруживает такие события, как нерегулярные деления, начало уплотнения или появление бластоцели, детекцию мейотического и митотического делений. В исследовании Lemmen et al. [25] было оценено 102 эмбриона в течение 20–24 часов, анализировалось время и координация дробления во время раннего развития зиготы. Авторы отметили, что успешно имплантированные эмбрионы дробились быстрее и более синхронно после первого расщепления и что время исчезновения пронуклеуса на стадии 4-клеток у них было меньше. Значимое преимущество тайм-лапс микроскопии при отборе эмбрионов показано в проспективном когортном исследовании Adamson et al. [26]: из 319 пациентов клиническая беременность при отборе эмбриона с помощью оценки морфокинетических параметров наступила в 46% случаев, в то время как традиционная оценка по стандартной морфологической классификации привела к 32% беременностей.
Метаанализ, проведенный Pribenszky et al. [27], указывает на перспективность и клиническую значимость использования систем визуализации с тайм-лапс технологией в программах ВРТ. Авторы проанализировали имеющиеся данные об исходах беременностей, где применялся выбор эмбриона по морфокинетическим параметрам, и сделали вывод, что использование этой технологии приводит к снижению процента ранней потери беременности и увеличению продолжительности наступившей беременности. На основании данных нескольких рандомизированных испытаний был получен вывод, что смена рутинной практики стандартного наблюдение в фиксированные моменты времени на непрерывное наблюдение с оценкой морфокинетических параметров обоснована, и данное направление будет активно развиваться.
С момента начала использования тайм-лапс микроскопии в клинической практике было предложено несколько критериев оценки эмбрионов, которые будут подвергнуты трансферу, чтобы достичь наибольшей частоты живорождения. Предлагались следующие критерии: время первого дробления (14,3±6,0 мин); время между первым и вторым митотическим делением или до стадии 2–3 бластомеров (11,1±2,2 ч); и время между вторым и третьим дроблением или до стадии 3–4 бластомеров (1,0±1,6 ч) [28]. Meseguer et al. [29] предложили критерии прогноза успешной имплантации: t5 время между ICSI и стадии 5 бластомеров (48,8–56,6 ч); t3–t2, время длительности стадии двух бластомеров (≤11,9 ч); переход к стадии 4 бластомеров (≤0,76 ч). На основании предложенных критериев Meseguer et al. [29] предложили 10 категорий (A+/A–, B+/B–, C+/C–, D+/D–, E, F) с разной частотой успешной имплантации. Дальнейшие исследования в целом подтвердили соответствие такой классификации эмбрионов и частоты успешной имплантации [24].
Несмотря на увеличивающееся количество исследований применения тайм-лапс микроскопии, ряд авторов критически относятся к данной технологии, аргументируя это тем, что результаты оцениваются по удачной имплантации, а не по частоте живорождений [30]. В более современных системах оценки качества эмбрионов с помощью тайм-лапс микроскопии это учитывается. Так сравнительный анализ TLIA (time-lapse imaging algorithm), разработанный Fishel et al. [31], показал большую селективную силу алгоритма по сравнению с обычными общепринятыми критериями оценки качества бластоцист, которые основаны на морфологических критериях, и использующих в качестве конечной точки живорождение. Несмотря на то, что критерии оценки эмбрионов Гарднера также оказались эффективными для определения потенциала живорождения, они оказались слабее, чем TLIA [32]. Система TLIA базируется на присвоение определенного ранга эмбриону от A до D, которые основываются на таких показателях, как время, прошедшее от оплодотворения до начала дробления, время формирования бластоцисты и другие. Для переноса выбирается тот эмбрион, который получил наибольший ранг [31].
В работе [33] также с привлечением тайм-лапс микроскопии показана ценность таких показателей как время формирования морулы (time of morulation (tM)) и оценка качества трофэктодермы, которые, по результатам исследования оказались единственными признаками для прогнозирования частоты живорождения, хотя как отмечают сами авторы, время начала формирования бластоцисты также является значимым критерием. Было показано, что если время формирования морулы было меньше 80 ч, а качество трофэктодермы высокое, то частота живорождения составляла порядка 55,2%, а если более 80 ч – 25,5%.
Таким образом, оценка качества эмбрионов на основе тайм-лапс микроскопии является эффективным инструментом [34]. Однако для оптимизации данного метода и внедрения в широкую клиническую практику требуется разработка более специфичных критериев и автоматизированных алгоритмов, позволяющих распознавать эмбрионы, перенос которых закончится живорождением с наибольшей вероятностью, а также дальнейшая валидация таких критериев и протоколов.
Проблемы применения алгоритмов искусственного интеллекта в биомедицине
Проведенный анализ литературы демонстрирует высокую актуальность темы. За последние несколько лет разработаны и широко используются методы оцифровки микроскопических изображений клеток и тканей, но отсутствуют эффективные инструменты анализа и интерпретации получаемых массивов данных и почти отсутствуют валидированные и внедренные в клиническую практику программные продукты.
Причин отсутствия готовых решений с использованием искусственного интеллекта несколько: низкий коэффициент согласия экспертов, повышенные требования к качеству моделей машинного обучения, открытый вопрос ответственности за принятие машиной врачебных решений, недостаточный объем данных в рамках отдельного медицинского учреждения, отсутствие междисциплинарных команд, отсутствие нормативно-правовой базы.
Одним из показательных примеров нетривиальности применения искусственного интеллекта в медицине является отсутствие результатов соизмеримых с затратами у подразделения IBM Watson Health, фирмы разработавшей суперкомпьютер, оснащенный системой искусственного интеллекта (https://spectrum.ieee.org/biomedical/diagnostics/how-ibm-watson-overpromised-and-underdelivered-on-ai-health-care).
Watson Health и ряд других не таких известных компаний предприняли попытки применить искусственный интеллект к медицине путем переноса методов машинного обучения с изображений бытовых предметов на биомедицинский домен. Неуспех подобных инициатив говорит о том, что в области присутствует скрытая сложность. Одна из ключевых проблем применения методов искусственного интеллекта к медицинскому домену - вероятностная природа глубоких НС. Какой бы качественной ни была НС всегда есть вероятность, что алгоритм не определит больного человека и в этот момент возникает как вопрос ответственности, так и ряд других вопросов, которые не позволяют широко внедрить искусственный интеллект во все сферы медицины.
Однако существует область систем поддержки принятия врачебных решений, аудита врачебных решений и скрининговых исследований, «домедицина», в которых кажется возможным постепенное внедрение высококачественных моделей искусственного интеллекта. Качество моделей тем не менее остается важным вопросом, так как в случае скрининга большого количества пациентов большое количество ложноположительных срабатываний модели приведет к перегрузке врачей.
Для качественного обучения моделей прежде всего нужен большой объем качественных обучающих данных. Зачастую одно подразделение или даже медицинский центр целиком не может обеспечить достаточное количество данных и/или их качественную разметку врачами.
На успех применения моделей машинного обучения влияет не только качество собранных данных, но и качество разметки. Например, в классическом data science для обучения НС распознаванию объектов реального мира по изображениям котов, собак и самолетов привлекаются люди без специализированного образования, и стоимость такой разметки сравнительно невысока. В свою очередь, в медицинском домене стоимость качественной разметки врачами-экспертами крайне высока. К тому же, даже у экспертов зачастую наблюдается невысокая степень согласия [35]. Вопросам согласия врачей посвящаются целые исследования [36]. При этом экономия на разметке данных экспертами низкой квалификации обычно не приводит к получению модели достаточного качества.
Дополнительные сложности при обучении моделей искусственного интеллекта могут возникают при использовании приборов разных производителей, ручных методов работы с образцами, например, при ручной окраске иммуногистохимических препаратов. Также сложности возникают при попытке обработки данных с неструктурированными диагнозами на естественном языке и зачастую с различными вариантами сокращений.
Инфраструктура и передовые методы для анализа медицинских данных
Для того, чтобы обучать модели искусственного интеллекта, применимые на практике, требуется:
Высокое качество инфраструктуры. Одной из основных тенденций в области развития IT-инфраструктуры является использование облачных технологий. Облачные платформы позволяют разделить зоны ответственности на обслуживание низкоуровневой базовой платформы и на сопровождение конечных сервисов с использованием технологий получения виртуализированных ресурсов по запросу.
Передовой научный подход к сбору и хранению данных. Необходимо учитывать, что при росте требований к качеству обученной модели на основе глубоких НС объем обучающих данных растет. Также требуется заложить в системе соответствующий уровень безопасности хранения большого объема персональных данных пациентов.
Передовой научный подход к технологиям искусственного интеллекта позволяет эффективно обрабатывать медицинские данные и извлекать из них смысл. Один из современных многообещающих подходов – это обучение с частичным привлечением учителя: модель, предобученная на большом количестве неразмеченных данных, дообучается на небольшом количестве качественно размеченных данных [37].
Высокая квалификация специалистов, размечающих данные (интеграция врачей в процесс). На основе некачественно размеченных данных зачастую невозможно обучить модель, которая обеспечит приемлемое соотношение сигнал/шум. Качество разметки данных определяется, помимо прочего, степенью согласия экспертов.
Реализация всех этих процессов представляет собой сложную задачу, причем даже для такой хорошо изученной области, как патоморфологические исследования. Помимо всех вышеупомянутых пунктов для эффективной работы желательно также наличие единой специализированной системы разметки данных, так как отображение гистологических изображений в обычных системах для разметки изображений затруднительно из-за их размера. Отдельная проблема – запись заключений на естественном языке. Помимо различных сокращений состав заключения может существенно отличаться из-за различия врачебных школ и терминологии как в мире, так и внутри России в зависимости от региона. Для обучения моделей, способных анализировать гистологические изображения, в научных статьях используются сотни, а иногда и тысячи размеченных изображений.
Заключение
Обучение моделей искусственного интеллекта для создания качественных программных продуктов, применимых на практике, требует принципиально новых подходов. Для создания и внедрения такого рода продуктов, обеспечивающих здоровье и долголетие людей посредством развития предиктивной, превентивной и персонализированной медицины, требуются как использование современной инфраструктуры хранения и анализа данных (облачные технологии), так и передовые методы, которые позволяют минимизировать количество разметки (дообучение нейронной сети, адаптация к домену, контрастное обучение) (рисунок).