爬取 2 万多张 Flickr 图片,莫纳什大学复现 10 年间日本樱花开放的时空特征

爬取 2 万多张 Flickr 图片,莫纳什大学复现 10 年间日本樱花开放的时空特征
2023年07月14日 12:05 大数据_文摘

作者|alice

编辑|三羊

内容一览:近年来,全球气候变化形势严峻,由此引发的蝴蝶效应,正深刻地影响着人类和大自然。在这一背景下,收集数百甚至数千公里范围内开花模式的数据,了解气候变化如何对开花植物产生影响,成为近年来生态研究的重要课题之一。但传统的方法通常需要耗费大量经费,且需要较长的时间进行采样调查,后勤保障工作也面临着重重困难。而近期发布在《Flora》期刊上的研究,不仅克服了这些问题,同时还揭示出前所未有的细节。

关键词:时空分析   智慧生态学   SNS 数据

樱花作为日本的国花,在大和文化中有着重要的地位。赏花(Hanami,花见),作为极具特色的民间习俗,已有了数百年的历史。然而日本纵跨纬度约 20 度,全国可分为 6 个气候区,各地气候差异明显,因此樱花绽放的时间也各有不同。每值樱花季节,日本的旅游网站也会详细展示各地开花情况,供游客安排赏花时间。近年来,受到气候变化的影响,日本樱花的开放时间也在不断提前。

为了探究日本樱花的开花模式,理解气候变化对物候学的影响,澳大利亚莫纳什大学的研究团队,利用 Python API 与计算机视觉 API,通过社交网站 (SNS) 数据来监测日本的樱花开放情况,并对实验结果与现实情况进行了对比验证。目前该研究已发表在《Flora》期刊,标题为「The spatiotemporal signature of cherry blossom flowering across Japan revealed via analysis of social network site images」。

该研究成果已发表于《Flora》期刊

论文地址:

https://www.sciencedirect.com/science/article/abs/pii/S0367253023001019

 实验过程:数据集的爬取、过滤及分析

 数据集 

本次实验收集樱花开放数据的过程可以分为两个步骤:

1. 从社交网站提取图片数据,包括几个不同的连续阶段

2. 利用计算机视觉 API 及人工核验的方法,对数据进行相关性过滤

考虑到 API 需要同时对时间、空间、文本进行过滤,研究人员选择了 Flickr 作为数据源。首先,使用 Python API 客户端,通过搜索关键词「cherry blossom」,在 Flickr 上收集带有地理坐标的相关图片。

其次,设置 Bounding Box 为 31.186°N-46.178°N, 129.173°E-145.859°E,以确保图片是在日本拍摄。时间范围设定为 2008 年- 2018 年,以排除 COVID-19 导致的全球旅游业下降对数据的影响。

然后,研究人员借助从 gadm.org 获取的日本地理边界进行遮罩处理,从而过滤这些数据,最终获得 80,915 张图片。

2008 年 1 月 1 日至 2018 年 12 月 31 日

Flickr 上搜索定位在日本的「cherry blossom」图片

1、2 月份(蓝色)表示春季来临前的樱花初放;

3-5 月份(绿色)表示记录春季主要樱花盛开期的摄影数据集中度;

10-12 月份(粉色)则表明了在秋季尤其 11 月达到高峰的有趣现象。

尽管 Flickr 的图片通过搜索关键词「cherry blossom」进行了限制,但 SNS 内容仍然可能会与搜索词错误关联,因此需要验证。

对此,研究人员将所有图片提交至 Google Cloud Vision AI,该 API 可以根据每张图像的视觉内容,为其生成了描述性文本标签,从而对单个数据点相关性,自动进行 double-check。

Google Cloud Vision AI 使用预先训练好的机器学习模型,在预定义类别中为图像分配标签。此外,研究人员还对样本数据进行了额外的手动核查,如下表所示:

表 1:Tokyo-filtered 数据集中,各阶段的图像数据

B 列:在 Flickr 搜索「cherry blossom」返回 28,875 张图片,这些图片地理坐标都位于东京地区的行政区域内

C 列:计算机视觉 API 为此数据集返回的文本标签及其相对频率。从文本标签过滤器返回的图像中,有 21,908 张被计算机视觉 API 标记为「cherry blossom」,但由于部分图像也被标记为「autumn」或「maple tree」,因此被剔除后,最终得到 21,633 张图像

D 列:结果图像随机选出用于人工检查的样本

E 列:经人工检查确认为樱花的图像数量

F 列:每月自动处理方法(计算机视觉和标签分析)的预估精度,计算方法为 E/D

G 列:利用该精度,计算 2、3、4 月总共拍摄到的樱花图片数量,计算方法为 C*F

 评估方法 

为了估计樱花的盛开日期,研究人员为数据集中的所有图像生成了以天为单位的时间序列,然后用 7-day width 的三角移动平均指标 (triangular rolling average) 进行处理,中心点赋 unity weight,其两侧紧邻的点赋 0.75 的权重,接下来最接近的点分别赋 0.5 和 0.25 的权重,以此来平整由周末(休闲时间,摄影活动明显增加)和工作日赏花人数不同而带来的拍摄行为 (Photographic activity) 波动。

得出的图表中所显示的拍摄行为波峰,被确定为是樱花盛开的全盛期(mankai)。

对比验证:预测结果与实际数据一致

日本对樱花盛开现象的记录最早可追溯到公元 812 年,自 1953 年起开始有了官方正式的观测记录。为了验证团队的分析方法,实验团队选择了东京和京都两座热门赏花城市的数据,并与日本气象公司 (JMC)、日本国家旅游组织 (JNTO) 每年公布的樱花全面盛开日期进行对比,计算出实验所得峰值日与官方公布日期之间的误差。

通过实验,研究团队得出了日本全国樱花开放的可视化时空数据,1 月下旬 (wks 3-4) 至 5 月下旬 (wks 3-4),樱花开放首先从南部气候温暖的地区逐渐向北方推进,最后由南向北逐渐退缩。如图所示:

图 2: 2008-2018 年日本樱花拍摄地点

每张图的周期对应两周

A-C:樱花图片出现在日本南部较温暖的地区,图片高度集中出现在本州岛的东京与京都的城市中心

D-F:樱花图片增加,开始向本州岛北部延伸

G-I:樱花位置向北扩展,出现在北海道札幌,东京和京都拍摄行为依然活跃,北海道和本州岛北部,樱花拍摄行为更加集中。最后,全国范围内的樱花照片逐渐减少,由南到北退去。

实验团队将经过处理的东京与京都地区樱花活动摄影日时间序列的峰值,与 JMC/JNTO 所公布的日期进行了比较验证。结果显示东京地区的均方根误差为 3.21 日,京都地区为 3.32 日。如下图:

图 3:东京地区二者评估的日期对比

左栏:通过本实验方法所估计的历年东京樱花全盛日期

中栏:JNTO 历年报道的东京樱花全盛日期

右栏:误差,即二者相差天数

图 4:京都地区二者评估的日期对比

左栏:通过本实验方法所估计的历年京都樱花全盛日期

中栏:JNTO 历年报道的京都樱花全盛日期

右栏:误差,即二者相差天数

在实验团队的数据中,还揭示出了樱花在秋季开放的现象。这在 JNTO 所公布的数据中并没有正式指出,体现出了 SNS 数据有能力解析小概率事件,揭示异常的物候学现象,如非季节性开放时间,这对于评估一年四季甚至意外情况下可供获取的花粉花蜜等芳香资源极其重要。

SNS 数据:为生态研究提供新洞见

世界气象组织今年 4 月发布的一篇文章显示,2022 年的全球平均温度比 1850-1900 年的平均值高出了 1.15℃,人类对气候变化的感知较为迟滞,植物则格外敏感。在全球气候变暖的影响下,不仅是日本樱花,我国多地的开花植物也受到了影响。

根据武汉大学樱花观测数据,从上世纪 60 年代开始,武汉大学樱花的始花期明显提前,2000 年之后更是不断突破记录,一度由 3 月下旬提前至 2 月下旬。

20 世纪 90 年代前,山东菏泽的牡丹开花时间主要集中在 4 月下旬,2010 年前后提前到 4 月中旬,近几年更是在 4 月上旬便可观测到花开。

油菜开花的时间也同样有了显著提前的趋势,江西婺源油菜花今年 2 月 22 日就见花了,3 月 13 日进入开花盛期,而在 30 年前,油菜花开花时间一般在 3 月中旬。

Kepios 发布的一份报告显示,截止 2023 年 4 月,全球社交媒体用户数量达到 48 亿,占全球总人口的 59.9%,平均每人每天花费 2 小时 24 分钟使用社交媒体应用,产生海量社交网络数据,有望为生态研究提供新洞见。

作者在本论文中提出的 SNS 分析技术,可以填补公开数据中缺失的部分,帮助科研人员理解气候变化对于开花植物产生的不同程度的影响,对理解蜜蜂、昆虫等重要传粉者的行为具有积极意义。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部