Plant Phenomics | 小麥麥穗自動檢測大規模圖像數據庫:為可用于農業生產和研究現場的AI算法測試奠基
在國際協作下,來自7個國家、9個研究機構的十幾名研究人員創建了基于提高通用性的圖像來自動檢測小麥麥穗的大規模數據庫。
構建了用于小麥AI研究的國際圖像收集平臺和識別標準。
以此數據為契機,舉辦了以小麥麥穗識別為目的的世界性圖像識別比賽。期待通過這次競賽帶動今后農學領域AI研究的快速發展。
2020年8月,Plant Phenomics發表了題為Global Wheat Head Detection (GWHD) Dataset: A Large and Diverse Dataset of High-Resolution RGB-Labelled Images to Develop and Benchmark Wheat Head Detection Methods的研究論文。來自7個國家、9個研究機構的十幾名研究人員通過國際共同研究構建了Global Wheat Head Detection (GWHD)數據集。這是世界首個匯集了大規模且富于多樣性的帶有標簽的小麥麥穗圖像數據集。在小麥栽培和研究現場,與麥穗有關的調查如單位面積的穗數等主要通過目測。為了減少此類勞動,研究人員們們正在推進通過圖像分析和深度學習實現自動化的技術開發。然而,以往的研究通。常使用有限的數據集來創建麥穗的檢測模型,不能創建出有通用性的模型。因此,來自7個國家9個研究機構的研究人員開展合作,共同收集了約19萬份不同品種、不同生育階段、不同栽培條件的小麥麥穗的高分辨率圖像。此外還根據圖像獲取的指導方針和數據共享標準的FAIR原則(注1),提出了的最低限度元數據的關聯以及統一的麥穗標記方法。GWHD數據集將在(http://www.global-wheat.com/)上公開,旨在為全世界的研究人員在麥穗識別方法的開發和數據標準的制定上提供參考。
近年來,運用最新的信息科學對作物進行高速、高精度的表型分析(以下稱為phenotyping)的相關研究開發,在世界各地都很盛行。其中,對利用圖像傳感和機器學習的高速phenotyping有很高期待。比如,有多項研究成果表明,作為小麥產量主要構成要素之一的單位面積的穗數調查,也應該從原來的多名調查人員的肉眼計數變為基于深度學習的自動計數。然而,現有的研究成果大多以各自較少的實驗數據為對象建立了麥穗檢測模型,由于對不同的栽培條件、品種沒有通用性,因此難以擴大規模。另外,麥穗的識別在計算機視覺研究領域也是一個難題。究其原因,不僅是觀察條件、品種差異、生育階段、麥穗的方向等有偏差,還有可能因風而造成的模糊、因密集個體群造成的重疊等,都是妨礙正確識別的主要因素。
為了能夠制作出具有通用性的麥穗檢測模型,以構建大規模且富于多樣性的帶有標簽的小麥麥穗圖像數據集為目標,發表者們與世界各國的研究人員開展了合作。日本東京大學和國立研究開發法人農業·食品產業技術綜合研究機構(以下簡稱農研機構)、法國ARVALIS植物研究所和國立農學研究所、加拿大薩斯喀徹溫大學、英國洛桑研究所、瑞士蘇黎世聯邦理工大學、中國南京農業大學、澳大利亞聯邦科學產業研究機構和昆士蘭大學的研究人員,從各自國家的小麥栽培現場,以各種方法收集了合計11個子數據集(Fig.1)。由于攝影手段和器材不同,收集的圖像首先進行了數據的整合(Fig.2),最終生成了合計4,698張準圖像的數據。這些圖像的尺寸為1024×1024像素,每張圖像含有20~70個麥穗(Fig.3)。此后,通過使用一種新的分析技術,使計算機提出是否存在需要人工判斷的麥穗,可以使比以前更有效地選擇用于機器學習的學習數據和麥穗的位置坐標的工作(批注工作)得以實現。并且,對各自的批注結果進行重新審查及手動修正,最終創建了存儲了約19萬小麥麥穗圖像的Global Wheat Head Detection(GWHD)數據集。
Fig.1 Overview of the harmonization process conducted.
Fig.2 Examples of wheat heads difficult to label.
Fig.3 Example of images from different acquisition sites after cropping and rescaling.
利用所構建的GWHD數據集,2020年5月4日起,在IPPN(注2)組織的活動CVPPP 2020(注3)Challenge at ECCV2020(注4)中策劃了“Global Wheat Head Detection challenge”,并在Kaggle(注5)舉行,聚集了來自世界各地的2245支參賽小組(https://www.kaggle.com/c/global-wheat-detection)。本次挑戰賽將以歐洲和北美收集的3,422張圖像數據作為訓練數據,澳大利亞、日本和中國的1,276張圖像數據作為驗證數據進行公開。并由加拿大的GIFS、日本的Kubota、法國的DigitAG和Hiphen贊助,懸賞15,000美元。本數據集的公開和世界級挑戰大會的召開,使農業和研究現場的phenotyping研究和人工智能(AI)工具開發的快速發展備受期待。
Fig.4 Global Wheat Head Detection Challenge.
研究項目成員
E. David (Arvalis,Institut duvégétal,France. PhD Student)
S. Madec (Arvalis,Institut duvégétal, France. Post-doctoral fellow)
P. Sadeghi-Tehran(Plant SciencesDepartment, Rothamsted Research, United Kingdom. Computer Scientist)
H. Aasen (Institute of Agricultural Sciences, ETH Zurich, Switzerland. Dr.)
鄭邦友 (CSIRO Agriculture and Food, Australia. Data Scientist)
劉守陽 (INRAE, France. 作物表型交叉研究中心, 南京農業大學. Dr.)
N. Kirchgessner (Institute of Agricultural Sciences, ETH Zurich, Switzerland. Researcher)
G. Ishikawa (National Agriculture and Food Research Organization Institute of Crop Science, NARO, Division of Basic Research, Breeding Strategies Research Unit. Senior Researcher)
K. Nagasawa (National Agriculture and Food Research Organization Hokkaido Agricultural Research Center, NARO, Division of Field Crop Research and Development, Wheat Breeding Group. Senior Principal Researcher)
M.A. Badhon (Department of Computer Science, University of Saskatchewan, Canada. Master Student)
C. Pozniak (Department of Plant Sciences, University of Saskatchewan, Canada. Professor)
B. de Solan (Arvalis, Institut duvégétal, France. Research Engineer)
A. Hund (Institute of Agricultural Sciences, ETH Zurich, Switzerland. PD Dr.)
S.C. Chapman (School of Foodand Agricultural Sciences, The University of Queensland, Australia. Professor)
F. Baret (INRAE, France. Research Director)
I. Stavness (Department of Computer Science, University of Saskatchewan, Canada. Associate Professor)
郭威 (Institute for Sustainable Agro-ecosystem Services, Graduate School of Agricultural and Life Sciences, The University of Tokyo. Assistant Professor)
備注
1. FAIR原則:FAIR是Findable(可發現)、Accessible(可訪問)、Interoperable(可互操作)、Reusable(可重用)的縮寫,描述了數據公開的適當實施方式,作為數據共享原則被國際社會提倡。
2. IPPN:國際植物phenotyping網絡。
3. CVPPP:Computer Vision Problems in PlantPhenotyping。解決計算機視覺領域的植物phenotyping課題的研討會。
4. ECCV:European Conference on ComputerVision。計算機視覺領域的頂級會議之一。
5. Kaggle:連接企業和政府等組織和數據分析專業的數據科學家/機器學習工程師的平臺。
論文鏈接
https://spj.sciencemag.org/journals/plantphenomics/2020/3521852/
——推薦閱讀——
Easy MPE: Extraction of Quality Microplot Images for UAV-Based High-Throughput Field Phenotyping
https://spj.sciencemag.org/journals/plantphenomics/2019/2591849/
Plant Phenomics | Easy MPE:基于無人機高通量表型技術提取高質量田間小區圖像
A High-Throughput Phenotyping Pipeline for Image Processing and Functional Growth Curve Analysis
https://spj.sciencemag.org/journals/plantphenomics/2020/7481687/
Plant Phenomics | 一種用于圖像處理和函數型數據分析的高通量表型方法
About Plant Phenomics
《植物表型組學》(Plant Phenomics)是由南京農業大學和美國科學促進會(AAAS)合作創辦的英文學術期刊,于2019年1月正式上線發行,是Science合作出版的第二本期刊。采用開放獲取形式,刊載植物表型組學交叉學科熱點領域具有突破性科研進展的原創性研究論文、綜述、數據集和觀點。具體范圍涵蓋高通量表型分析的最新技術,基于圖像分析和機器學習的表型分析研究,提取表型信息的新算法,作物栽培、植物育種和農業實踐中的表型組學新應用,與植物表型相結合的分子生物學、植物生理學、統計學、作物模型和其他組學研究,表型組學相關的植物生物學等。期刊已被CABI、CNKI和DOAJ數據庫收錄。
說明:本文由《植物表型組學》編輯部負責組稿。中文內容僅供參考,一切內容以英文原版為準。
編輯:周燦彧(實習)、孔敏
審核:尹歡