Контроль эффективности фотоинтерпретации спутниковых данных волонтёрами для решения задач бинарной классификации растительного покрова

Авторы
Ёлкина Е.С.(1), Плотников Д.Е.(1), Толпин В.А.(1), Щербенко Е.В.(2)
Организации
(1) Институт космических исследований РАН, Москва, Россия
(2) ООО ИКИЗ, Москва, Россия
Сессия
Дистанционное зондирование Земли
Подсекция
Картографирование
Форма представления
Устный
Текст тезисов
Задачи дистанционного картографирования больших территорий алгоритмами с обучением сопряжены с необходимостью использования точной и распределённой обучающей выборки. Способом получения таких данных может быть организация краудсорс-разметки путем фотоинтерпретации спутниковых данных [1], [2], [3], что особенно актуально в случае отсутствия или недоступности наземных данных для исторических периодов наблюдений. Благодаря наличию постоянно обновляющихся архивов открытых спутниковых данных, развитию доступности геоинформационных систем, возможностям организации удаленной работы, краудсорсинг (привлечение не-экспертов для выполнения работ) в области дистанционного зондирования Земли используется всё шире [3], [5]. При этом большой интерес представляет как методология проведения краудсорс-работ, так и вопросы оценки точности и контроля надежности получаемых результатов [4], [5], [6].

В данной работе представлены результаты эксперимента [2] по созданию и оценке распределенной опорной выборки с помощью волонтёров на территорию Европейской России для решения задачи распознавания используемых пахотных земель. Цель работы – разработка подходов к слиянию хорошо представленных волонтерских наборов с ограниченными «экспертными» наборами с максимизацией общего качества получаемой выборки. В рамках эксперимента была организована краудсорс-платформа на базе системы Вега-Science [7], [9], где участниками проводилась разметка объектов наземного покрова двух классов: «пашня» и «не-пашня» (для бинарной классификации) путём массовой фотоинтерпретации спутниковых снимков. Для дешифрирования использовались спутниковые данные за 2017 год наблюдений, прежде всего, архивы данных спутников Landsat и Sentinel-2, а также временные ряды вегетационного индекса NDVI по данным прибора MODIS (Terra и Aqua). В среднем участник-волонтёр за выделенное ему время интерпретировал не менее 400 объектов на территории Европейской России и прилегающих стран. В результате общее количество объектов, доступных для анализа в рамках эксперимента составило 4866, из них почти половина были контрольными, т.е. были интерпретированы также и экспертами. Объекты для интерпретации были распределены методом случайного стратифицированного семплинга, что обеспечило репрезентативность и полноту полученной разметки. Нормальное распределение числа контрольных точек по участникам эксперимента гарантирует сравнимость результатов оценки точности участников.

Оценка точности полученных данных и анализ устойчивости результатов были проведены с использованием ГИС-системы QGIS и языка Python. Оценка качества полученных данных включала в себя как оценку точностей, так и пространственный анализ по агроэкологическим зонам (стратам) GAEZ – Global Agro-Ecological Zones [10], которые отражают разбиение на относительно однородные территории с точки зрения агропрактик. Для оценки точности волонтёров использованы метрики F1-score по классам «пашня» и «не-пашня» и общая точности (Overall Accuracy). Было оценено распределение точностей внутри группы волонтёров и проведено ранжирование волонтёров по уровню точности. Для оценки стабильности результата волонтёра были построены гистограммы распределения точности в зависимости от агрозоны. Было обнаружено, что общая точность распознавания класса «не-пашня» в среднем выше точности распознавания класса «пашня», а общая точность не опускается ниже 0.65. Средняя общая точность бинарной классификации объектов волонтёрами составила 0.87 со стандартным отклонением 0.06.

Была проведена оценка пространственных тенденций точности волонтёров на территории всей Европейской части России с выявлением «простых» и «сложных» для интерпретации территорий на основе стратификации GAEZ. Построены картограммы по значениям метрик точности для оценки пространственных тенденций ошибок. Данный анализ позволил выявить зоны, где можно снизить вклад экспертов, не потеряв в качестве краудсорс-выборки. Точность распознавания «пашни» в среднем по страте ожидаемо ниже точности распознавания «не-пашни» (средние значения F1-score 0.85 и 0.88 соответственно). Примечательно высокое стандартное отклонение (0.22) для F1-score по классу «пашня» - это говорит о сильных различиях в точностях интерпретации пахотных земель от агрозоны к агрозоне. Также была проведена оценка устойчивости результатов в зависимости от размера выборки: построен график в форме кривой зависимости точности волонтёров от объема выборки с целью поиска компромисса между затратами на исследование и точностью.

Предложенные подходы к организации и контролю качества создания разметки с привлечением волонтёров можно использовать для получения достоверных и быстроформируемых опорных данных на большие территории, в частности, для создания распределенной выборки контролируемой точности для распознавания используемой пашни на территории РФ, в том числе, на «исторические» эпохи. Потенциальными преимуществами подхода является скорость обработки больших территорий, относительно низкие затраты на организацию и финансирование работ, возможность сократить количество экспертов до определённого минимума.
Работа выполнялась с использованием ресурсов ЦКП "ИКИ-Мониторинг" [8] при поддержке Минобрнауки (тема "Мониторинг", госрегистрация № 122042500031-8).

Литература
1. Плотников Д.Е., De Abelleyra D., Veron S.R., Zhang M., Толпин В.А., Барталев С.А., Lavreniuk M., Waldner F., Ziad A. Картографирование пахотных земель в различных регионах глобальной сети JECAM на основе спутниковых данных Landsat и полученной методом краудсорсинга опорной информации // "Информационные технологии в дистанционном зондировании Земли - RORSE 2018". ИКИ РАН, 2019. С. 177-184. DOI: doi.org/10.21046/rorse2018.177.
2. Ёлкина Е.С., Плотников Д.Е., Толпин В.А., Щербенко Е.В. Анализ результатов эксперимента по созданию опорных выборок на больших территориях с помощью краудсорсинга // Материалы 20-й Международной конференции «Современные проблемы дистанционного зондирования Земли из космоса». Москва: ИКИ РАН, 2022. C. 353. DOI 10.21046/20DZZconf-2022a
3. E. Saralioglu and O. Gungor, “Crowdsourcing in Remote Sensing: A Review of Applications and Future Directions,” in IEEE Geoscience and Remote Sensing Magazine, vol. 8, no. 4, pp. 89–110, Dec. 2020, doi: 10.1109/MGRS.2020.2975132
4. See L, Comber A, Salk C, Fritz S, van der Velde M, Perger C, et al. (2013) Comparing the Quality of Crowdsourced Data Contributed by Expert and Non-Experts. PLoS ONE 8(7): e69958. https://doi.org/10.1371/journal.pone.0069958.
5. Waldner F., Schucknecht A., Lesiv M., Gallego J., See L., Pérez-Hoyos A., d’Andrimont R., de Maet T., Laso Bayas J.C., Fritz S., Leo O., Kerdiles H., Díez M., Van Tricht K., Gilliams S., Shelestov A., Lavreniuk M., Simões M., Ferraz R., Bellón B., Bégué A., Hazeu, G., Stonacek V., Kolomaznik J., Misurec J., Veron S.R., De Abelleyra D., Plotnikov D.E., Mingyong L., Singha M., Patil P., Zhang Y., Defourny, Р. Conflation of expert and crowd reference data to validate global binary thematic maps // Remote Sensing of Environment. 2019. Vol. 221. P. 235–246. DOI: 10.1016/j.rse.2018.10.039.
6. Michael F. Goodchild, Linna Li, Assuring the quality of volunteered geographic information, Spatial Statistics, Volume 1, 2012, Pages 110-120, ISSN 2211-6753, https://doi.org/10.1016/j.spasta.2012.03.002.
7. Лупян Е.А., Прошин А.А., Бурцев М.А., Кашницкий А.В., Балашов И.В., Барталев С.А., Бриль А.А., Егоров В.А., Жарко В.О., Константинова А.М., Кобец Д.А., Мазуров А.А., Марченков В.В., Матвеев А.М., Миклашевич Т.С., Плотников Д.Е., Радченко М.В., Стыценко Ф.В., Сычугов И.Г., Толпин В.А., Уваров И.А., Хвостиков С.А., Ховратович Т.С. Система "Вега-Science": особенности построения, основные возможности и опыт использования // Современные проблемы дистанционного зондирования Земли из космоса. 2021. Т. 18. № 6. С. 9-31. DOI: 10.21046/2070-7401-2021-18-6-9-31.
8. Лупян Е.А., Прошин А.А., Бурцев М.А., Кашницкий А.В., Балашов И.В., Барталев С.А., Константинова А.М., Кобец Д.А., Мазуров А.А., Марченков В.В., Матвеев А.М., Радченко М.В., Сычугов И.Г., Толпин В.А., Уваров И.А. Опыт эксплуатации и развития центра коллективного пользования системами архивации, обработки и анализа спутниковых данных (ЦКП «ИКИ-Мониторинг») // Современные проблемы дистанционного зондирования Земли из космоса. 2019. Т. 16. № 3. С. 151-170. DOI: 10.21046/2070-7401-2019-16-3-151-170.
9. URL: sci-vega.ru
10. URL: https://gaez.fao.org/