Twitter-dataset 数据集免费

JSAI 36 2021-08-24 NLP

资源介绍

Twitter-dataset 数据集 (http://ds.jsai.org.cn/) NLP 第1张

ICWSM 2010论文中的数据可从以下链接获得。我们的数据集已匿名化,以保护用户自己的隐私。我们只发布有关Twitter链接结构的信息。

数据集

  • 链接列表:

    此文件包含我们在2009年9月根据Twitter网络快照从Twitter抓取的所有用户到用户链接的列表。该文件包含1,963,263,821个定向社交链接。

     

    格式: Gzip压缩包。每行包含两个用户标识符,暗示从第一个用户到第二个用户观察到链接(第一个用户跟随第二个用户)。

     

    数据:Twitter关注链接(10.73GB)

  • 转发公约的时间序列:

    此文件包含每天7种不同转发变体(RT,via,转发,转发,HT,R / T和回收符号)的新采用者数。

     

    格式:   xlsx。   每行对应一个转发变体,其中第一列给出了变体的名称,后续列给出了每天新采用者的数量,从2007-03-16(使用第一次转发变体的那天)开始。

     

    数据:转发会议时间序列(<1MB)

我们还在此图中共享一组垃圾邮件发送者节点,这些节点来自Twitter中关于链接耕作的相关项目 。

如果您想引用我们的工作,请使用以下BibTeX条目。

对于Twitter拓扑:

@inproceedings {icwsm10cha,
  作者= {Meeyoung Cha和Hamed Haddadi和Fabricio Benevenuto和Krishna P. Gummadi},
  title = {{衡量用户对Twitter的影响:百万追随者谬误}},
  booktitle = {第四届国际AAAI网络日志和社交媒体会议论文集(ICWSM)}},
  month = {May},
  年= {2010},
  地址= {华盛顿特区,美国}
}

对于转发惯例:

@inproceedings {icwsm12kooti,
  作者= {Farshad Kooti和Haeryun Yang和Meeyoung Cha和Krishna P. Gummadi和Winter A. Mason},
  title = {{在线社交网络中的公约的出现}},
  booktitle = {第六届国际AAAI网络日志和社交媒体会议论文集(ICWSM)}},
  月= {六月},
  年= {2012},
  地址= {都柏林,爱尔兰}
}

END

发表评论

猜你喜欢