Размер шрифта
Цветовая схема
Изображения
Форма
Межсимвольный интервал
Межстрочный интервал
стандартные настройки
обычная версия сайта
закрыть
  • Вход
  • Регистрация
  • Помощь
Выбрать БД
Простой поискРасширенный поискИстория поисков
Главная / Результаты поиска

Вариабельность заключений при интерпретации КТ-снимков: один за всех и все за одного

Кульберг Н.С.[1], Решетников Р.В.[2], Новик В.П.[3], Елизаров А.Б.[3], Гусев М.А.[4], Гомболевский В.А.[3], Владзимирский А.В.[3], Морозов С.П.[3]
Digital Diagnostics
Т. 2, № 2, С. 105-118
Опубликовано: 10 2021
Тип ресурса: Статья

DOI:10.17816/DD60622

Аннотация:

<em>Обоснование.</em> Разметка наборов медицинских изображений во многом полагается на субъективную интерпретацию наблюдаемых подозрительных структур. На настоящий момент не существует рекомендованного протокола по определению эталонных данных (ground truth), основанных на врачебных описаниях.

<em>Цель</em> ― анализ правильности и согласованности оценок рентгенологов, принимавших участие в подготовке общедоступного набора данных CTLungCa-500; определение взаимосвязи этих показателей с количеством специалистов, проводящих независимую интерпретацию изображений, полученных при компьютерно-томографическом (КТ) исследовании.

<em>Материал</em> <em>и</em> <em>методы.</em> Набор данных, в разметке которого принимали участие 34 рентгенолога, включает 536 КТ-исследований пациентов из группы риска развития рака лёгкого. Каждое КТ-исследование было независимо интерпретировано шестью специалистами, после чего обнаруженные ими подозрительные структуры проходили арбитраж другим экспертом. Для каждого эксперта подсчитывали количество истинно положительных, ложноположительных, истинно отрицательных и ложноотрицательных находок, на основании которых проводили оценку диагностической точности рентгенологов. Для анализа согласованности между заключениями рентгенологов использовали метрику процентного показателя.

<em>Результаты.</em> Увеличение количества специалистов, проводящих независимую интерпретацию КТ-исследований, ведёт к росту правильности их оценок при снижении согласованности. Среди факторов, влияющих на согласованность заключений между парами исследователей, выделяется расхождение мнений по поводу наличия лёгочного очага в конкретном участке КТ-снимка.

<em>Заключение.</em> Увеличение числа независимых первичных интерпретаций способно повысить их комбинированную правильность при условии проведения арбитража, причём квалификация рентгенологов не имеет определяющего значения для качества анализа. Проведение первичной разметки силами четырёх рентгенологов является оптимальным с точки зрения сочетания правильности интерпретации и её стоимости.

<p><em>BACKGROUND:</em> The markup of medical image datasets is based on the subjective interpretation of the observed entities by radiologists. There is currently no widely accepted protocol for determining ground truth based on radiologists reports.</p> <p><em>AIM:</em> To assess the accuracy of radiologist interpretations and their agreement for the publicly available dataset CTLungCa-500, as well as the relationship between these parameters and the number of independent readers of CT scans.</p> <p><em>MATERIALS AND METHODS:</em> Thirty-four radiologists took part in the dataset markup. The dataset included 536 patients who were at high risk of developing lung cancer. For each scan, six radiologists worked independently to create a report. After that, an arbitrator reviewed the lesions discovered by them. The number of true-positive, false-positive, true-negative, and false-negative findings was calculated for each reader to assess diagnostic accuracy. Further, the inter-observer variability was analyzed using the percentage agreement metric.</p> <p><em>RESULTS:</em> An increase in the number of independent readers providing CT scan interpretations leads to accuracy increase associated with a decrease in agreement. The majority of disagreements were associated with the presence of a lung nodule in a specific site of the CT scan.</p> <p><em>CONCLUSION:</em> If arbitration is provided, an increase in the number of independent initial readers can improve their combined accuracy. The experience and diagnostic accuracy of individual readers have no bearing on the quality of a crowd-tagging annotation. At four independent readings per CT scan, the optimal balance of markup accuracy and cost was achieved.</p>
[1]Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы; Федеральный исследовательский центр «Информатика и управление» Российской академии наук
[2]Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы; Первый Московский государственный медицинский университет имени И.М. Сеченова (Сеченовский университет)
[3]Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы
[4]Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы; Московский политехнический университет
Язык текста: Русский
ISSN: 2712-8490
Кульберг Н.С. Николай Сергеевич Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы; Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Решетников Р.В. Роман Владимирович Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы; Первый Московский государственный медицинский университет имени И.М. Сеченова (Сеченовский университет)
Новик В.П. Владимир Петрович Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы
Елизаров А.Б. Алексей Борисович Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы
Гусев М.А. Максим Александрович Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы; Московский политехнический университет
Гомболевский В.А. Виктор Александрович Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы
Владзимирский А.В. Антон Вячеславович Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы
Морозов С.П. Сергей Павлович Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы
Научно-практический КЦ диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы
Moscow Center for Diagnostics and Telemedicine
Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Federal Research Center “Computer Science and Control” of Russian Academy of Sciences
Первый Московский государственный медицинский университет имени И.М. Сеченова (Сеченовский университет)
Sechenov First Moscow State Medical University (Sechenov University)
Московский политехнический университет
Moscow Polytechnic University
Kulberg N.S. Nikolay S. Moscow Center for Diagnostics and Telemedicine; Federal Research Center “Computer Science and Control” of Russian Academy of Sciences
Reshetnikov R.V. Roman V. Moscow Center for Diagnostics and Telemedicine; Sechenov First Moscow State Medical University (Sechenov University)
Novik V.P. Vladimir P. Moscow Center for Diagnostics and Telemedicine
Elizarov A.B. Alexey B. Moscow Center for Diagnostics and Telemedicine
Gusev M.A. Maxim A. Moscow Center for Diagnostics and Telemedicine; Moscow Polytechnic University
Gombolevskiy V.A. Victor A. Moscow Center for Diagnostics and Telemedicine
Vladzymyrskyy A.V. Anton V. Moscow Center for Diagnostics and Telemedicine
Morozov S.P. Sergey P. Moscow Center for Diagnostics and Telemedicine
Inter-observer variability between readers of CT images: all for one and one for all eng
Вариабельность заключений при интерпретации КТ-снимков: один за всех и все за одного
Текст визуальный электронный
Digital Diagnostics
Eco-Vector
Т. 2, № 2 С. 105-118
2021
компьютерная томография
computed tomography
набор данных
эталонные данные
согласованность между заключениями
рентгеновская компьютерная томография
X-ray computed tomography
datasets as topic
ground truth
observer variation
计算机断层扫描,数据集,参考数据,结论之间的一致性
Статья

<em>Обоснование.</em> Разметка наборов медицинских изображений во многом полагается на субъективную интерпретацию наблюдаемых подозрительных структур. На настоящий момент не существует рекомендованного протокола по определению эталонных данных (ground truth), основанных на врачебных описаниях.

<em>Цель</em> ― анализ правильности и согласованности оценок рентгенологов, принимавших участие в подготовке общедоступного набора данных CTLungCa-500; определение взаимосвязи этих показателей с количеством специалистов, проводящих независимую интерпретацию изображений, полученных при компьютерно-томографическом (КТ) исследовании.

<em>Материал</em> <em>и</em> <em>методы.</em> Набор данных, в разметке которого принимали участие 34 рентгенолога, включает 536 КТ-исследований пациентов из группы риска развития рака лёгкого. Каждое КТ-исследование было независимо интерпретировано шестью специалистами, после чего обнаруженные ими подозрительные структуры проходили арбитраж другим экспертом. Для каждого эксперта подсчитывали количество истинно положительных, ложноположительных, истинно отрицательных и ложноотрицательных находок, на основании которых проводили оценку диагностической точности рентгенологов. Для анализа согласованности между заключениями рентгенологов использовали метрику процентного показателя.

<em>Результаты.</em> Увеличение количества специалистов, проводящих независимую интерпретацию КТ-исследований, ведёт к росту правильности их оценок при снижении согласованности. Среди факторов, влияющих на согласованность заключений между парами исследователей, выделяется расхождение мнений по поводу наличия лёгочного очага в конкретном участке КТ-снимка.

<em>Заключение.</em> Увеличение числа независимых первичных интерпретаций способно повысить их комбинированную правильность при условии проведения арбитража, причём квалификация рентгенологов не имеет определяющего значения для качества анализа. Проведение первичной разметки силами четырёх рентгенологов является оптимальным с точки зрения сочетания правильности интерпретации и её стоимости.

<p><em>BACKGROUND:</em> The markup of medical image datasets is based on the subjective interpretation of the observed entities by radiologists. There is currently no widely accepted protocol for determining ground truth based on radiologists reports.</p> <p><em>AIM:</em> To assess the accuracy of radiologist interpretations and their agreement for the publicly available dataset CTLungCa-500, as well as the relationship between these parameters and the number of independent readers of CT scans.</p> <p><em>MATERIALS AND METHODS:</em> Thirty-four radiologists took part in the dataset markup. The dataset included 536 patients who were at high risk of developing lung cancer. For each scan, six radiologists worked independently to create a report. After that, an arbitrator reviewed the lesions discovered by them. The number of true-positive, false-positive, true-negative, and false-negative findings was calculated for each reader to assess diagnostic accuracy. Further, the inter-observer variability was analyzed using the percentage agreement metric.</p> <p><em>RESULTS:</em> An increase in the number of independent readers providing CT scan interpretations leads to accuracy increase associated with a decrease in agreement. The majority of disagreements were associated with the presence of a lung nodule in a specific site of the CT scan.</p> <p><em>CONCLUSION:</em> If arbitration is provided, an increase in the number of independent initial readers can improve their combined accuracy. The experience and diagnostic accuracy of individual readers have no bearing on the quality of a crowd-tagging annotation. At four independent readings per CT scan, the optimal balance of markup accuracy and cost was achieved.</p>