【研究池】TwitterOSINT：自动化开源情报收集，分(3) - 情报探索杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表- 情报探索

一、来稿必须是作者独立取得的原创性学术研究成果，来稿的文字复制比（相似度或重复率）必须低于用稿标准，引用部分文字的要在参考文献中注明；署名和作者单位无误，未曾以任何形式用任何文种在国内外公开发表过；未一稿多投。二、来稿除文中特别加以标注和致谢之外，不侵犯任何版权或损害第三方的任何其他权利。如果20天后未收到本刊的录用通知，可自行处理(双方另有约定的除外)。三、来稿经审阅通过，编辑部会将修改意见反馈给您，您应在收到通知7天内提交修改稿。作者享有引用和复制该文的权利及著作权法的其它权利。四、一般来说，4500字（电脑WORD统计，图表另计）以下的文章，不能说清问题，很难保证学术质量，本刊恕不受理。五、论文格式及要素：标题、作者、工作单位全称(院系处室)、摘要、关键词、正文、注释、参考文献(遵从国家标准：GB\T7714-2005，点击查看参考文献格式示例)、作者简介(100字内)、联系方式(通信地址、邮编、电话、电子信箱)。六、处理流程：（1）通过电子邮件将稿件发到我刊唯一投稿信箱（2）我刊初审周期为2－3个工作日，请在投稿3天后查看您的邮箱，收阅我们的审稿回复或用稿通知；若30天内没有收到我们的回复，稿件可自行处理。（3）按用稿通知上的要求办理相关手续后，稿件将进入出版程序。（4）杂志出刊后，我们会按照您提供的地址免费奉寄样刊。七、凡向文教资料杂志社投稿者均被视为接受如下声明：（1）稿件必须是作者本人独立完成的，属原创作品（包括翻译），杜绝抄袭行为，严禁学术腐败现象，严格学术不端检测，如发现系抄袭作品并由此引起的一切责任均由作者本人承担，本刊不承担任何民事连带责任。（2）本刊发表的所有文章，除另有说明外，只代表作者本人的观点，不代表本刊观点。由此引发的任何纠纷和争议本刊不受任何牵连。（3）本刊拥有自主编辑权，但仅限于不违背作者原意的技术性调整。如必须进行重大改动的，编辑部有义务告知作者，或由作者授权编辑修改，或提出意见由作者自己修改。（4）作品在《文教资料》发表后，作者同意其电子版同时发布在文教资料杂志社官方网上。（5）作者同意将其拥有的对其论文的汇编权、翻译权、印刷版和电子版的复制权、网络传播权、发行权等权利在世界范围内无限期转让给《文教资料》杂志社。本刊在与国内外文献数据库或检索系统进行交流合作时，不再征询作者意见，并且不再支付稿酬。九、特别欢迎用电子文档投稿，或邮寄编辑部,勿邮寄私人，以免延误稿件处理时间。

【研究池】TwitterOSINT：自动化开源情报收集，分(3)

作者:

关键词:

摘要：

图1：TwitterOSINT框架

斯坦福自然语言处理图书馆?( />

分析后的推文包括日期、用户名、文本和注释，以一种可由其他工具处理的格式存储，这使得推特开源网络情报更容易将它们从一个工具传递到另一个工具。Logstash、Elasticsearch和Kibana是开源的亚马逊网站服务（AWS），用于在推特开源网络情报中分析和显示信息，对于这个项目，它们是在AWS的“免费层”上运行的(参见 />

推特开源网络情报使用Logstash作为通道，将处理过的推特加载到Elasticsearch中，Elasticsearch是一个分析和本地搜索引擎，用于处理传递给它的大量数据。Kibana是一个分析和可视化工具，支持搜索、查看和与Elasticsearch索引中存储的数据交互。推特开源网络情报使用Kibana创建数据可视化仪表板，如条形图、折线图、散点图、饼图和地图。

4. 结论

用例1：网络安全情报

网络安全行业领导者推荐使用社交媒体作为了解最新安全威胁、黑客和数据泄露的一种权宜之计。推特中的典型例子包括来自在线论坛（例如@Peerlyst）的策划内容帐户；来自安全组织（例如@NISTcyber）的官方帐户；以及专家和教育工作者的个人帐户（例如@SchneierBlog，@BrianKrebs)。

当然，在网络安全事件发生期间，用户自发的在线活动会增加。这些观察表明推特开源网络情报对网络安全分析很有用。

在这项研究中，推特开源网络情报被配置为使用一系列与网络安全风险评估社区相关的术语和概念（如漏洞），和与上下文相关的短语（如软件供应商和软件产品）在该领域进行情报收集。从国家漏洞数据库的条目中获得的一个巨大的语料库( />

回想一下，平均每天有5亿条推文。所应用的额外过滤将源数据从互联网上可用的原始输入数量减少了许多个数量级，减少到不到200条推文。在实践中，通常观察到错误率约为15%，包括假阴性(包含相关情报但在过滤过程中被排除)和假阳性(不包含相关情报但在过滤过程中未被排除)。

人工分析显示，许多假阴性的可操作信息都存在于保留的推文中；因此，信息丢失（由于无意中忽略了相关推文）和噪音（不相关的仍在进行中的推文）相对来说是微不足道的。

图2揭示的是通过程序根据所述配置从TwitterOSINT收集的推文中输出的相关原始数据节选。虽然显示的条目仅限于在筛选过程中被选择和索引的推文（而不是Twitter完整数据库中所有可用的推文），但数据量仍然过大以至于人力无法对实时行为进行快速分辨。然而，通过在TwitterOSINT中提供替代性的可视化功能，可以有效地管理这种过度的信息。

图2：TwitterOSINT发现的相关推文

图3展示了具有代表性的可视化示例。计数聚合（图中左上角）列出了用户指定时间段内相关推文的数量。该数量比前一个时间段大幅增加可能表明一个新出现的事件值得被进一步研究。

饼图（右）显示了推文中最重要的关键词的分布情况。这个参数可以帮助分析人员定位具有特定威胁信息的在线贴文。标签云（左下）是自由形式文本的可视化表示。每个标签（单个关键词或短语）的重要性用字体大小和颜色显示，并基于重要的术语计数。在TwitterOSINT可视化中，分析师可以点击标签云中的一个术语，以显示观察期内包含该关键词的所有原始数据输入情况。

图3：针对网络安全关键词的TwitterOSINT可视化

用例2：网络心理学研究

为了证明其对社会科学家的潜在效用，TwitterOSINT被重新配置了几个与网络心理学相关的关键词和术语，其中包括网络治疗、网络欺凌、网络成瘾、网络行为和网络犯罪。因为与网络安全用例不同，还没有网络心理学专用的NLP语料库存在，所以设置了最小的NLP进行过滤。这种方法是为了模仿研究人员如何使用TwitterOSINT对开放的大数据来源进行探索性研究，以确定所选的概念和术语是否与社交媒体相关，从而与独特的研究问题相关。

图4显示了TwitterOSINT在2019年6月下旬一周的数据收集过程中，根据所选术语创建的具有代表性的可视化。需要注意的是，虽然Twitter中的标签不区分大小写（即 "#hashtag "与 "#HashTag "等相同），但TwitterOSINT是区分大小写的，因此，像?"CYBERBULLYING?"和"cyberbullying?"这样的术语会被被单独索引。拥有相当大的相关Twitter流量是一个积极的指标，表明至少在与本用例中指定的实验关键词相关的领域，该平台可以作为网络心理学研究人员的开源网络情报平台。

文章来源：《情报探索》网址: http://www.qbtszz.cn/zonghexinwen/2021/0806/1457.html