【研究池】TwitterOSINT：自动化开源情报收集，分(2) - 情报探索杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表- 情报探索

一、来稿必须是作者独立取得的原创性学术研究成果，来稿的文字复制比（相似度或重复率）必须低于用稿标准，引用部分文字的要在参考文献中注明；署名和作者单位无误，未曾以任何形式用任何文种在国内外公开发表过；未一稿多投。二、来稿除文中特别加以标注和致谢之外，不侵犯任何版权或损害第三方的任何其他权利。如果20天后未收到本刊的录用通知，可自行处理(双方另有约定的除外)。三、来稿经审阅通过，编辑部会将修改意见反馈给您，您应在收到通知7天内提交修改稿。作者享有引用和复制该文的权利及著作权法的其它权利。四、一般来说，4500字（电脑WORD统计，图表另计）以下的文章，不能说清问题，很难保证学术质量，本刊恕不受理。五、论文格式及要素：标题、作者、工作单位全称(院系处室)、摘要、关键词、正文、注释、参考文献(遵从国家标准：GB\T7714-2005，点击查看参考文献格式示例)、作者简介(100字内)、联系方式(通信地址、邮编、电话、电子信箱)。六、处理流程：（1）通过电子邮件将稿件发到我刊唯一投稿信箱（2）我刊初审周期为2－3个工作日，请在投稿3天后查看您的邮箱，收阅我们的审稿回复或用稿通知；若30天内没有收到我们的回复，稿件可自行处理。（3）按用稿通知上的要求办理相关手续后，稿件将进入出版程序。（4）杂志出刊后，我们会按照您提供的地址免费奉寄样刊。七、凡向文教资料杂志社投稿者均被视为接受如下声明：（1）稿件必须是作者本人独立完成的，属原创作品（包括翻译），杜绝抄袭行为，严禁学术腐败现象，严格学术不端检测，如发现系抄袭作品并由此引起的一切责任均由作者本人承担，本刊不承担任何民事连带责任。（2）本刊发表的所有文章，除另有说明外，只代表作者本人的观点，不代表本刊观点。由此引发的任何纠纷和争议本刊不受任何牵连。（3）本刊拥有自主编辑权，但仅限于不违背作者原意的技术性调整。如必须进行重大改动的，编辑部有义务告知作者，或由作者授权编辑修改，或提出意见由作者自己修改。（4）作品在《文教资料》发表后，作者同意其电子版同时发布在文教资料杂志社官方网上。（5）作者同意将其拥有的对其论文的汇编权、翻译权、印刷版和电子版的复制权、网络传播权、发行权等权利在世界范围内无限期转让给《文教资料》杂志社。本刊在与国内外文献数据库或检索系统进行交流合作时，不再征询作者意见，并且不再支付稿酬。九、特别欢迎用电子文档投稿，或邮寄编辑部,勿邮寄私人，以免延误稿件处理时间。

【研究池】TwitterOSINT：自动化开源情报收集，分(2)

作者:

关键词:

摘要：

除了成本限制之外，对于一般的研究人员来说，使这些工具适应他们的操作环境的特性是非常困难的。为了克服这一难题，诺福克州立大学（Norfolk State University，Virginia，USA）开发了一种名为TwitterOSINT的技术能力，它可以帮助分析师和研究人员从非正式的英语文本中提取有用的OSINT，并将其可视化，这些非正式的英语文本通常是在近乎实时的帖子中找到的。TwitterOSINT是使用公开可用的软件和与主题相关的自然语言处理(NLP)工件实现的，并且为了本研究的目的，Twitter的tweet作为所有输入数据的来源。

TwitterOSINT提供了一种新的替代解决方案，因为它完全由公共领域免费提供的工具构建而成，并且它本身是一个免费软件应用程序。它汇集了NLP，机器学习，信息提取和可视化的公共可用工具，以解决OSINT中的大数据问题。最终，TwitterOSINT将海量的信息转化为图形表示，便于分析师或研究人员快速分析、解释并采取行动。

对于像推特（Twitter）这样的开源网络情报（OSINT）数据源的自动化处理来说，另一个挑战来自于正式和非正式表达内容的混合。例如，为了简洁起见，许多推文中会使用缩写、表情符号、首字母缩略词和短语，而不是精心设计、语法正确的句子。自然语言处理（NLP）的目标是将人类语言转换成便于计算机操作的形式。大多数自然语言处理工具都是用来处理正式的、格式良好的人类语言句子的。

考虑到即使是简单的人类语言都会具备语义复杂性，这仍然是相当具有挑战性的。有关自然语言处理的更多技术细节和其演变的历史概述，请参见。开源网络情报的非正式性使得对语言的解释更加困难和模糊；

然而，推特开源网络情报的最终目标不是解决自然语言处理，而是将大数据转化为可操作的信息。由于这个原因，当前的项目集中于集成现有的、经过验证的工具来解决整个问题的各个方面，比如自然语言处理和可视化，而不是为它们开发新的软件解决方案。

应该注意的是，推特提供了应用程序编程接口（APIs），允许第三方软件开发人员使用各种推特数据和服务作为构建块来创建自己的应用程序。有付费订阅和高价应用程序编程接口，它们是“完全忠实的”（即所有推特都可用）。这些通常适用于广泛分析和企业业务使用上。这个项目使用的推特应用程序编程接口是免费的，因此，只提供了所有可用的全局推特的一个子集。

一个粗略的经验法则表明，免费应用程序编程接口从完全忠实的推特流中检索到的推特数量为1%。实际检索到的推特数量，以及它们是否包含所有潜在相关的推特，实际上取决于开发人员应用程序的配置、通过应用程序编程接口检索推特所选择的特征以及采样时间段内的实时推特通信量。对推特开源网络情报概念的初步探索来说，免费应用程序编程接口的总体指标已经足够了。

3. 方法

为了了解最新的趋势和发展，突出专业知识，并与专业人士（在线和亲自）建立联系，许多学科的研究人员和科学家都依赖推特。网络安全思想领袖和专业人士分享对威胁和软件产品的评论。社会科学家们正在利用推特作为一个新的数据源，使他们的研究成果更容易获得。

因此，推特开源网络情报捕获和提取相关数据的实用性通过两个案例进行了研究；一个模拟网络安全防御策略包括收集、监控漏洞、威胁、攻击的趋势、以及几乎实时开发的对策；还有一个从网络心理学提取的探索性数据收集方案，只依赖关键字引用。

推特开源网络情报使用推特的标准流应用程序编程接口，允许它收集和索引几乎实时发布的推特。在推特开源网络情报开发的早期阶段，从有限保真度的推特流中随机选择了三组500条推特，手动检查以确定与计划用例相关的推特的公共属性。这些模式，比如标签、关键字和重要的概念，被用来向推特开源网络情报使用的应用程序编程接口和自然语言处理工具提供配置信息。

此外，这一分析有助于提出相关推特数据的图形表示形式，这将使检索到的信息更易于让人类分析师快速解释。例如，标签云之类的可视化可以让分析人员清楚地看到最经常出现的术语。

如图1所示，在推特开源网络情报使用流式应用程序编程接口收集推特之后，应用几个过滤阶段来消除对进一步处理不感兴趣的推特。这是通过在推特开源网络情报中指定关键字、短语、标签，以及指定相关的时间框架来完成的。从本质上说，我们是在通过删除可能包含关键词或短语的推文，来刻意筛选数据点的数量，但最终推文与具体研究问题无关。

文章来源：《情报探索》网址: http://www.qbtszz.cn/zonghexinwen/2021/0806/1457.html