本文收录于《农业信息化》2022年第11期,目次02
摘要:该文以新疆生产建设兵团2018-2021年实地调查成果数据为基础数据,综合考虑样本间差异性、多源样本组织形式,建立兵团农作物实地调查样本数据集,为大范围遥感解译及种植情况分析提供数据支持。同时,该文以兵团第八师作为试验区域,利用样本数据集完成试验区棉花种植分布并探讨其近四年棉花种植变化,验证实地调查样本数据集的必要性。
关键词:农作物;实地调查;样本数据集;遥感影像;棉花
农业是国家关注的重大民生问题,其中农作物种植面积是其重要的统计数据表现形式。随着卫星遥感技术的发展,海量数据源的涌入,数据质量逐步提升,农作物面积统计获取了新型统计手段。中国第三次全国农业普查首次将卫星遥感引入普查中,实现了全国各省主要农作物种植分布的空间获取。而第三次全国农业普查之后,逐年积累的原始实地调查样本数据却未能及时被挖掘可用信息,体现其数据价值。
实地调查数据是农作物面积遥感测量的基础,实地采样点的文字图片信息能够有效反馈采集点作物种植情况及作物生长情况,辅助遥感解译,并提供检验依据,是遥感影像与实地种植情况的有效桥梁。目前,国内外建立的遥感影像数据集已经非常成熟,如龚健雅等面向大范围多源遥感影像地物信息智能解译需求,在分析现有样本集现状及问题的基础上,提出遥感影像智能解译样本库设计方案,为多源遥感影像样本库建设提供参考 [1]。赵理君等以全国2012~2017年遥感影像数据为基础建立的全国地表类型遥感影像样本数据集,涵盖了土壤、水田、岩矿等多种信息[2]。孙启新以地质灾害为切入点,设计了包含地质灾害区和非地质灾害区、滑坡、泥石流、河流、水田等地质灾害遥感影像样本库,并利用卷积神经网络验证样本集实用性[3]。除此之外,国内外研究机构相继制作发布了UC Merced[4]、WHU-RS19[5]、AID[6]等大型遥感影像样本数据集,为模型结构优化、算法策略改进等提供了数据支撑。但目前发布的数据集针对全部地物类型采用遥感影像进行地类标注,缺少以农田为主要作物类型的实地调查样本数据集[7-9]。
基于此,该文以新疆生产建设兵团(以下简称兵团)为研究区,综合物候信息、统计年鉴数据、第三次全国农业普查成果等数据建立2018~2021年兵团农作物实地调查样本数据集,实现兵团近四年实地调查数据的归一化整理及非空间信息的空间显示。同时,获取相应作物季遥感影像(16 m空间分辨率),实现实地调查成果的遥感特征表达。最后,选择典型区域作为验证对象,分析2018年、2021年棉花这一主要农作物的种植面积变化,讨论样本集归一化及非空间信息整理的必要性。
兵团样本数据集建设
1.1 数据内容
1.1.1 矢量数据
1)兵团近四年外业调查成果数据
该专题数据来源于2018~2021年兵团农作物面积遥感测量成果数据,以shpfile形式存放于当年数据库中。专题信息的基础数据为全国第三次农业普查实地调查样本数据,根据样本数据地理位置,利用高分辨率的遥感影像进行人工勾绘,勾绘纯度95%及以上,结合先验知识对勾绘图斑划分一级地类,再由外业人员进行实地调查,对农作物种植用地划分的二级地类进行标注,同时拍摄实地照片,形成当年实地农作物种植信息成果数据。
根据《第三次全国农业普查(2017年修订版)》规定,作物信息部分共计分为农作物、园艺果树、森林、草地、水域等九个一级类,其中农作物类别中包含48个二级类。各地类均以面状地物表示,按顺时针顺序对地块进行编号形成地块编号,数据内容拓扑结构正确。除此之外,成果数据中包含村代码、村名称、图斑编号、作物季节及名称、调查时间等属性内容说明调查成果具体信息。
2)基础地理数据
该数据为行政界线数据及线性参考数据。其中行政界线数据包含县级行政边界、村级行政边界。线性参考数据包含样本数据(300 m×300 m,按位置编号形成样方编号),样方最外边界数据(样方压盖农作物种植最大边界)。该数据以shpfile形式存放于当年数据库中。
1.1.2 栅格数据
栅格数据主要为当年样本所在遥感影像数据及外业调绘照片。其中遥感影像数据空间分辨率为0.8、2、16 m。数据格式为.TIFF,成果内容按样方所在村级行政边界裁切及存储,栅格数据按“村级行政边界代码+影像时间+分辨率”命名。外业调绘照片,为当年农作物种植地块实地种植作物照片。文件以“地块编号+作物名称”命名。
1.1.3 属性数据
属性数据包含调查成果数据情况说明、各类统计数据。调查数据成果情况说明,该年是否存在自然灾害、各作物季调查范围说明等情况说明。
1.2 投影及坐标系统设计
样本数据集内采用albers投影,平面坐标系统为CGCS2000坐标系统。
1.3 数据组织与管理
兵团农作物实地调查样本数据集采用三级存储结果,按兵团级、师级、团场级。数据集内的空间数据按各调查区分区管理,通过统一的地理坐标对地理要素进行叠加与审核。数据集根据数据内容分为3个子数据集:栅格数据集、矢量数据集、属性数据集。具体组织管理格式如图1兵团样本数据集组织管理图。
兵团级样本集数据库按年份划定存储,包含当年基础地理数据及实地调查采集成果数据,成果数据按农作物播种作物季分类存放,同一地块各作物季内作物信息互斥,保证地块信息逻辑一致性。成果以shpfile格式存储。师级样本数据库中存储各师的遥感影像数据(包含0.8~16 m作物各生长期遥感影像)、外业实地采集照片、情况说明等配套文件。其中遥感影像数据存储格式为.TIFF,照片以文件夹格式存储,情况说明为pdf/doc格式存储。团场级样本数据库中主要存储为实地采集样本照片,以文件夹格式存储于师级样本数据库内,照片以JPEG格式存储,可直观显示其种植作物类型,拍摄时间等基础信息。
1.4 样本数据集构建成果
为充分利用野外调查数据,挖掘其潜在信息,建立兵团农作物遥感识别样本数据集,以期提高今后作物识别精度和准确度。首先,利用ArcGIS将2018~2021年外业调查数据的空间属性与非空间属性连接,使得所有的非空间属性即地物照片可在矢量数据上显示,实现非空间属性空间化。另外,对照遥感影像人工核查数据属性字段与遥感影像及照片的一致性,剔除疑问数据,逐年更新,最终形成兵团农作物实地调查样本数据集。
经整理统计后,兵团实地调查样本数据共含37552条地块数据,地块照片10742张,样本收集时间为2018~2021年,样本范围覆盖兵团各师级单位,其中农作物种植地块数据21858条。农作物样本数据集中共包含农作物二级类32种,其中棉花样本数量最多为14779条数据,棉花调查地块面积占农作物样本地块面积的68.10%。其次为春玉米、春小麦、其他农作物、冬小麦、蔬菜(含菜用瓜)。样本集中,实地照片与对应地块信息具有空间伴随性,若该地块存在实地调查照片,点击该地块后页面中可同时显示显示调查时间段内作物照片、调查时间等信息,增强遥感影像与农作物生长周期关联性。
兵团样本数据集应用
棉花是新疆生产建设兵团的主要农作物之一,也是兵团实地调查样本集的重要组成部分,故本节选取兵团棉花种植面积最大的兵团第八师作为试验区,摈弃以往根据经验自行选取训练样本的方式,采用样本数据集建立遥感影像解译标志,获取第八师棉花空间分布成果,并对分类结果进行精度验证,讨论样本数据集对分类结果的影响。
第八师地处天山北麓中段,准噶尔盆地南部,据2020年统计年鉴可知,第八师棉花占全师粮棉种植面积92.69%。根据样本集中该地调查数据对棉花光谱特征及最佳时相进行分析以获取棉花解译最佳卫星影像时相。试验选取2018年4-9月、2021年4-9月GF1\GF6卫星影像作为试验数据,空间分辨率为16 m,包含蓝光、绿光、红光和近红外4个波段。
2.1 样本的遥感特征表达
为辅助农作物的遥感解译,将实地调查样本数据集与遥感影像建立对应关系,表达兵团实地调查样本数据集的遥感影像特征,同时筛选出棉花解译的最佳时相,通过多时相、多光谱及多源数据提取棉花种植面积,提高解译精度。
九大地类间的影像特征差异较为明显,可通过颜色、纹理、形状、位置等信息分辨;而农作物间的影像特征差异不似九大地类间那么明显,不仅仅通过颜色、纹理等信息,还根据不同时相加以区别。
通过近四年实地调查样本与遥感影像的结合,能够体现棉花在各生长时期苗情与各时期遥感影像对应关系,及易与棉花混淆的蔬菜(含菜用瓜)、甜瓜、甜菜几种作物在棉花生长周期内对应的光谱特征,进而确定分类的最佳时相。根据棉花生长周期的光谱特征,并综合考虑与其他作物的相离度,试验区遥感影像以5月初、6月上旬、8月上旬、9月中下旬为影像最佳时相选择。
2.2 棉花种植分布及种植变化
实地调查样本数据集建立完成且选定影像时相后,将选取当年试验区样本数据的60%作为分类样本,40%作为验证集,运用监督分类提取2018年、2021年第八师棉花种植分布,并利用混淆矩阵计算分类精度,以总体分类精度、用户精度、生产者精度作为成果精度衡量指标。
精度检验结果表明2018和2021年第八师棉花分类总体精度准确率均达90%以上(表1),且用户精度和生产者精度也均在90%以上,说明分类结果可靠,与第八师棉花实际种植情况较吻合,表明先验知识的积累对分类精度有积极影响,进一步验证了样本数据集建立的必要性。
根据图6及图7,2018和2021年第八师棉花分类面积与年鉴面积较为接近,准确率均达95%以上;2018~2021年棉花种植面积整体呈下降趋势,且分类面积趋势与统计年鉴棉花趋势相同,减幅均在3%左右。第八师棉花种植面积占耕地面积90%以上,整体种植分布较为均匀且种植结构稳定,只有南部少量近山耕地不种植棉花。其中棉花增加的区域主要分布在第八师西部、南部,增加面积为21.88万亩;减少的区域主要分布在南北两端靠近沙漠区域,减少面积为34.6万亩,其余部分区域棉花种植情况稳定,保持了种植连续性。
结语
该文以新疆生产建设兵团为研究区,以2018~2021年兵团野外调查数据为主体建立了兵团农作物实地调查样本数据集;并将样本数据集作为先验知识,以第八师为试验对象,选择训练样本,运用监督分类方法提取第八师2018、2021年的棉花种植分布,在此基础上确定变化区域,最终得到以下结论:
(1)建设兵团农作物实地调查样本数据集对兵团农作物面积提取具有重要意义。通过多年的调查成果积累,实现单一作物全生命周期监测,实现遥感影像与实地种植情况的有效关联,减少同谱异物情况,增加遥感解译样本选择的准确性,提升识别精度。
2)建立实地样本数据集可提现不同农作物在相同生长周期内的不同光谱特征,确定不同作物的最佳分类时相。其中,棉花的最佳识别时间为6月中旬、9月中下旬,在此时期内能够较好区分易与棉花产生混淆的作物为蔬菜(含菜用瓜)、甜瓜、甜菜三种作物。
3)第八师棉花遥感分类结果与当年统计年鉴数据情况一致,其棉花种植面积达耕地棉花的90%以上,总体种植面积成减少趋势,印证了第八师最主要的农作物为棉花且第八师是兵团棉花种植的主产区之一,其分类方法可推广至其他区域乃至其他作物。
参考文献:
[1] 龚健雅,许越,胡翔云,等.遥感影像智能解译样本库现状与研究[J].测绘学报,2021,50(8):1013-1022.
[2] 赵理君, 郑柯, 史路路,等. 全国地表类型遥感影像样本数据集[J]. 中国科学数据:中英文网络版, 2019, 4(2):12.
[3] 孙启新. 面向卷积神经网络场景解译的地质灾害遥感影像样本库建设研究[D]. 西南交通大学, 2019.
[4] Yang Y and Newsam S. 2010. Bag-of-visual-words and spatial exten‐sions for land-use classification//Proceedings of the 18th SIGSPA‐TIAL International Conference on Advances in Geographic Infor‐mation Systems. San Jose, California: ACM [DOI: 10.1145/1869790.1869829].
[5] Dai D X and Yang W. 2011. Satellite image classification via two-layer sparse coding with biased image representation. IEEE Geoscience and Remote Sensing Letters, 8(1): 173-176.
[6] Xia G S, Hu J W, Hu F, Shi B G, Bai X, Zhong Y F, Zhang L P and Lu X Q. 2017. AID: a benchmark data set for performance evaluation of aerial scene classification. IEEE Transactions on Geoscience and Remote Sensing, 55(7): 3965-3981.
[7] 唐华俊,吴文斌, 杨鹏,等.农作物空间格局遥感监测研究进展[J]. 中国农业科学, 2010, 43(14):2879-2888.
[8] 朱爽, 张锦水. 农作物遥感变化检测识别研究进展[J]. 中国农业资源与区划, 2015, 36(7): 159-168.
[9] 曾广伟. 基于神经网络的耕地遥感图像分类研究与应用[D]. 吉林农业大学, 2013.
作者单位:国家统计局兵团调查总队;二十一世纪空间技术应用股份有限公司
END
2023年出版12期,刊号:CN11-5436/S。
邮发代号:82-133
订阅方式:编辑部直接订阅
订阅地址:北京朝阳区麦子店街41号1008室
邮编:100125
订阅电话:010-59197087
订阅及投稿邮箱:nyxxh2015@163.com