公告介绍 MongoDB 8.0,史上最快的 MongoDB! 阅读更多 >>介绍 MongoDB 8.0,史上最快的 MongoDB! >>

非结构化数据是指那些未按照预设数据模型或模式排列的信息,因此无法存储在传统的关系型数据库或RDBMS中。文本和多媒体是非结构化内容中两种常见的类型。许多业务文档是非结构化的,如电子邮件、视频、照片、网页和音频文件。


非结构化数据

组织生成和收集的数据中有80%到90%是非结构化的,并且其数量正在快速增长——增长速度远快于结构化数据库的增长速度。

非结构化数据存储包含大量可用于指导业务决策的信息。然而,历史上非结构化数据的分析一直非常困难。在人工智能和机器学习的帮助下,新的软件工具正在出现,可以搜索大量数据以发现有益的可操作业务情报。



非结构化数据与结构化数据

让我们先从结构化数据说起:它通常存储在关系型数据库或RDBMS中,有时也被称为关系型数据。它可以很容易地映射到指定的字段——例如,邮编、电话号码和信用卡的字段。符合RDBMS结构的数据既可以通过人工定义的查询,也可以通过软件轻松搜索。

相比之下,非结构化数据不适合这些预定义的数据模型。它不能存储在RDBMS中。由于它有多种格式,因此对于传统软件来说,要摄入、处理和分析它是一个真正的挑战。使用合适的工具可以在文本非结构化数据上执行简单的内容搜索。

除此之外,缺乏一致的内部结构不符合典型数据挖掘系统可以处理的方式。因此,公司普遍无法充分利用客户互动、丰富媒体和社交网络对话等富含价值的数据。这类工具的稳健性现在才刚刚被开发并商业化。



无结构化数据有哪些例子?

无结构化数据可以由人类创建,也可以由机器生成。

以下是一些人类生成的无结构化数据的例子:

  • 电子邮件:电子邮件消息字段是无结构的,无法被传统分析工具解析。尽管如此,电子邮件元数据赋予它一定的结构,这就是为什么电子邮件有时被认为是一种半结构化数据。
  • 文本文件:这一类别包括文字处理文档、电子表格、演示文稿、电子邮件和日志文件。
  • 社交媒体和网站:来自Twitter、LinkedIn和Facebook等社交网络以及Instagram、照片分享网站和YouTube等网站的数据。
  • 移动和通讯数据:这一类别包括短信、电话录音、协作软件、聊天和即时消息。
  • 媒体:这份数据包括数字照片、音频和视频文件。


以下是一些由机器生成的无结构化数据的例子:

  • 科学数据:这包括石油和天然气勘探、太空探索、地震图像和大气数据。
  • 数字监控:这一类别包括侦察照片和视频等数据。
  • 卫星图像:这份数据包括天气数据、地形和军事行动。



什么是结构化、半结构化和无结构化数据?

如我们所见,结构化数据以易于搜索的方式组织。无结构化数据——包括大多数其他类型——存在于音频、视频和社交媒体帖子等格式中,并且不易于传统工具搜索。

一种类型与另一种类型的对比不应被视为冲突。您只需根据自己的应用需求选择其中一种。关系型数据库处理结构化数据,而几乎所有其他类型的系统都可以存储无结构化数据。

使用结构化数据的常见RDBMS应用程序包括航空预订系统、库存控制、销售交易和ATM活动。典型的无结构化用例包括媒体查看和编辑工具、演示软件和文字处理。

还有一个第三类称为半结构化数据。虽然这类信息不存储在关系数据库中,但它具有一些组织属性,这使得它更容易解析和分析。具体来说,半结构化数据包含内部标签和标记,允许进行分组和分层。

电子邮件是一个常见的半结构化数据应用。虽然详细的电子邮件分析需要复杂的工具,但它的原生元数据允许进行基本的分类和关键字搜索。半结构化数据仅占总企业数据的大约5%到10%,但它有一些关键的应用场景。例如,XML标记语言、多功能的JSON数据交换格式以及NoSQL或非关系型数据库。这些最后一种是一个不错的选择,用于存储诸如可变长度的文本等信息。最广泛使用的非关系型数据库 MongoDB通过在JSON格式中本地存储半结构化文档来容纳半结构化文档。



无结构化数据是如何结构化的?

非结构化数据类型实际上可以包含内部结构元素。它们被称为“非结构化”,是因为它们的信息不适合关系数据库所需的表格格式。如前所述,非结构化数据可以是文本或非文本(如音频、视频和图像),可以由人类或机器生成。MongoDB等非关系型数据库是存储许多种非结构化数据的首选选择。



非结构化数据有什么用途?

可以在文本非结构化数据上执行简单的内容搜索。传统的分析工具针对高度结构化的关系型数据进行优化,因此对于如富媒体、客户互动和社交媒体数据等非结构化来源几乎无用。

大数据和非结构化数据通常是一起出现的:IDC估计,这些极其庞大的数据集中有90%是非结构化的。最近出现了新的工具来分析这些和其他非结构化来源。这些平台由人工智能和机器学习驱动,几乎以实时速度运行,并基于发现的模式和洞察自我学习。这些系统正在用于处理大量非结构化数据集,以实现以前从未可能的应用,例如

  • 分析通信以符合监管要求
  • 跟踪和分析客户社交媒体对话和互动
  • 深入了解广泛的客户行为和偏好


非结构化数据是如何存储的?

非结构化数据可以以多种方式存储:在应用程序中、NoSQL(非关系型)数据库、数据湖和数据仓库。像MongoDB Atlas这样的平台特别适合存储、管理和使用非结构化数据。

免费开始使用MongoDB Atlas

使用MongoDB Atlas在云端免费运行MongoDB。无需信用卡。