- · 《情报探索》栏目设置[08/03]
- · 《情报探索》数据库收录[08/03]
- · 《情报探索》投稿方式[08/03]
- · 《情报探索》征稿要求[08/03]
- · 《情报探索》刊物宗旨[08/03]
【研究池】TwitterOSINT:自动化开源情报收集,分(2)
作者:网站采编关键词:
摘要:除了成本限制之外,对于一般的研究人员来说,使这些工具适应他们的操作环境的特性是非常困难的。为了克服这一难题,诺福克州立大学(Norfolk State
除了成本限制之外,对于一般的研究人员来说,使这些工具适应他们的操作环境的特性是非常困难的。为了克服这一难题,诺福克州立大学(Norfolk State University,Virginia,USA)开发了一种名为TwitterOSINT的技术能力,它可以帮助分析师和研究人员从非正式的英语文本中提取有用的OSINT,并将其可视化,这些非正式的英语文本通常是在近乎实时的帖子中找到的。TwitterOSINT是使用公开可用的软件和与主题相关的自然语言处理(NLP)工件实现的,并且为了本研究的目的,Twitter的tweet作为所有输入数据的来源。
TwitterOSINT提供了一种新的替代解决方案,因为它完全由公共领域免费提供的工具构建而成,并且它本身是一个免费软件应用程序。它汇集了NLP,机器学习,信息提取和可视化的公共可用工具,以解决OSINT中的大数据问题。最终,TwitterOSINT将海量的信息转化为图形表示,便于分析师或研究人员快速分析、解释并采取行动。
对于像推特(Twitter)这样的开源网络情报(OSINT)数据源的自动化处理来说,另一个挑战来自于正式和非正式表达内容的混合。例如,为了简洁起见,许多推文中会使用缩写、表情符号、首字母缩略词和短语,而不是精心设计、语法正确的句子。自然语言处理(NLP)的目标是将人类语言转换成便于计算机操作的形式。大多数自然语言处理工具都是用来处理正式的、格式良好的人类语言句子的。
考虑到即使是简单的人类语言都会具备语义复杂性,这仍然是相当具有挑战性的。有关自然语言处理的更多技术细节和其演变的历史概述,请参见。开源网络情报的非正式性使得对语言的解释更加困难和模糊;
然而,推特开源网络情报的最终目标不是解决自然语言处理,而是将大数据转化为可操作的信息。由于这个原因,当前的项目集中于集成现有的、经过验证的工具来解决整个问题的各个方面,比如自然语言处理和可视化,而不是为它们开发新的软件解决方案。
应该注意的是,推特提供了应用程序编程接口(APIs),允许第三方软件开发人员使用各种推特数据和服务作为构建块来创建自己的应用程序。有付费订阅和高价应用程序编程接口,它们是“完全忠实的”(即所有推特都可用)。这些通常适用于广泛分析和企业业务使用上。这个项目使用的推特应用程序编程接口是免费的,因此,只提供了所有可用的全局推特的一个子集。
一个粗略的经验法则表明,免费应用程序编程接口从完全忠实的推特流中检索到的推特数量为1%。实际检索到的推特数量,以及它们是否包含所有潜在相关的推特,实际上取决于开发人员应用程序的配置、通过应用程序编程接口检索推特所选择的特征以及采样时间段内的实时推特通信量。对推特开源网络情报概念的初步探索来说,免费应用程序编程接口的总体指标已经足够了。
3. 方法
为了了解最新的趋势和发展,突出专业知识,并与专业人士(在线和亲自)建立联系,许多学科的研究人员和科学家都依赖推特。网络安全思想领袖和专业人士分享对威胁和软件产品的评论。社会科学家们正在利用推特作为一个新的数据源,使他们的研究成果更容易获得。
因此,推特开源网络情报捕获和提取相关数据的实用性通过两个案例进行了研究;一个模拟网络安全防御策略包括收集、监控漏洞、威胁、攻击的趋势、以及几乎实时开发的对策;还有一个从网络心理学提取的探索性数据收集方案,只依赖关键字引用。
推特开源网络情报使用推特的标准流应用程序编程接口,允许它收集和索引几乎实时发布的推特。在推特开源网络情报开发的早期阶段,从有限保真度的推特流中随机选择了三组500条推特,手动检查以确定与计划用例相关的推特的公共属性。这些模式,比如标签、关键字和重要的概念,被用来向推特开源网络情报使用的应用程序编程接口和自然语言处理工具提供配置信息。
此外,这一分析有助于提出相关推特数据的图形表示形式,这将使检索到的信息更易于让人类分析师快速解释。例如,标签云之类的可视化可以让分析人员清楚地看到最经常出现的术语。
如图1所示,在推特开源网络情报使用流式应用程序编程接口收集推特之后,应用几个过滤阶段来消除对进一步处理不感兴趣的推特。这是通过在推特开源网络情报中指定关键字、短语、标签,以及指定相关的时间框架来完成的。从本质上说,我们是在通过删除可能包含关键词或短语的推文,来刻意筛选数据点的数量,但最终推文与具体研究问题无关。
文章来源:《情报探索》 网址: http://www.qbtszz.cn/zonghexinwen/2021/0806/1457.html
上一篇:【研究池】TwitterOSINT:自动化开源情报收集,分
下一篇:情报|B站成国内第三大长视频平台;京东申请“