YFCC 100M数据库是2014年来基于雅虎Flickr的影像数据库。该库由1亿条产生于2004年至2014年间的多条媒体数据组成,其中包含了9920万的照片数据以及80万条视频数据。
不过其中只有4800多万张照片和大约10万条视频记录带有地理坐标信息。而在这些坐标信息中又只有260万条是处在俺们国家的范围内。空间连接(spatial join)下来基本上也就50多个城市(或县级单元)的照片统计量超过1000张。需要指出的是,这并非Flickr在中国的全部样本,而只是在这份数据库采样中的样本。
其实,这个数据库的分析之前就很想分析,但始终找不到切入点。尽管有地理坐标,也做了空间链接,但个人感觉仍无论如何都很难与城市、与空间联系起来。在尝试研究几次失败过后,我想索性破罐子破摔,来个分析的“实时播报”吧。做一点写一点,反正这样可以有一定的积累。