什么是非结构化数据？ | MongoDB

非结构化数据是指那些未按照预设数据模型或模式排列的信息，因此无法存储在传统的关系型数据库或RDBMS中。文本和多媒体是非结构化内容中两种常见的类型。许多业务文档是非结构化的，如电子邮件、视频、照片、网页和音频文件。

非结构化数据

组织生成和收集的数据中有80%到90%是非结构化的，并且其数量正在快速增长——增长速度远快于结构化数据库的增长速度。

非结构化数据存储包含大量可用于指导业务决策的信息。然而，历史上非结构化数据的分析一直非常困难。在人工智能和机器学习的帮助下，新的软件工具正在出现，可以搜索大量数据以发现有益的可操作业务情报。

非结构化数据与结构化数据

让我们先从结构化数据说起：它通常存储在关系型数据库或RDBMS中，有时也被称为关系型数据。它可以很容易地映射到指定的字段——例如，邮编、电话号码和信用卡的字段。符合RDBMS结构的数据既可以通过人工定义的查询，也可以通过软件轻松搜索。

相比之下，非结构化数据不适合这些预定义的数据模型。它不能存储在RDBMS中。由于它有多种格式，因此对于传统软件来说，要摄入、处理和分析它是一个真正的挑战。使用合适的工具可以在文本非结构化数据上执行简单的内容搜索。

除此之外，缺乏一致的内部结构不符合典型数据挖掘系统可以处理的方式。因此，公司普遍无法充分利用客户互动、丰富媒体和社交网络对话等富含价值的数据。这类工具的稳健性现在才刚刚被开发并商业化。

无结构化数据有哪些例子？

无结构化数据可以由人类创建，也可以由机器生成。

以下是一些人类生成的无结构化数据的例子：

电子邮件：电子邮件消息字段是无结构的，无法被传统分析工具解析。尽管如此，电子邮件元数据赋予它一定的结构，这就是为什么电子邮件有时被认为是一种半结构化数据。
文本文件：这一类别包括文字处理文档、电子表格、演示文稿、电子邮件和日志文件。
社交媒体和网站：来自Twitter、LinkedIn和Facebook等社交网络以及Instagram、照片分享网站和YouTube等网站的数据。
移动和通讯数据：这一类别包括短信、电话录音、协作软件、聊天和即时消息。
媒体：这份数据包括数字照片、音频和视频文件。

以下是一些由机器生成的无结构化数据的例子：

科学数据：这包括石油和天然气勘探、太空探索、地震图像和大气数据。
数字监控：这一类别包括侦察照片和视频等数据。
卫星图像：这份数据包括天气数据、地形和军事行动。

什么是结构化、半结构化和无结构化数据？

如我们所见，结构化数据以易于搜索的方式组织。无结构化数据——包括大多数其他类型——存在于音频、视频和社交媒体帖子等格式中，并且不易于传统工具搜索。

一种类型与另一种类型的对比不应被视为冲突。您只需根据自己的应用需求选择其中一种。关系型数据库处理结构化数据，而几乎所有其他类型的系统都可以存储无结构化数据。

使用结构化数据的常见RDBMS应用程序包括航空预订系统、库存控制、销售交易和ATM活动。典型的无结构化用例包括媒体查看和编辑工具、演示软件和文字处理。

还有一个第三类称为半结构化数据。虽然这类信息不存储在关系数据库中，但它具有一些组织属性，这使得它更容易解析和分析。具体来说，半结构化数据包含内部标签和标记，允许进行分组和分层。

电子邮件是一个常见的半结构化数据应用。虽然详细的电子邮件分析需要复杂的工具，但它的原生元数据允许进行基本的分类和关键字搜索。半结构化数据仅占总企业数据的大约5%到10%，但它有一些关键的应用场景。例如，XML标记语言、多功能的JSON数据交换格式以及NoSQL或非关系型数据库。这些最后一种是一个不错的选择，用于存储诸如可变长度的文本等信息。最广泛使用的非关系型数据库 MongoDB通过在JSON格式中本地存储半结构化文档来容纳半结构化文档。

无结构化数据是如何结构化的？

非结构化数据类型实际上可以包含内部结构元素。它们被称为“非结构化”，是因为它们的信息不适合关系数据库所需的表格格式。如前所述，非结构化数据可以是文本或非文本（如音频、视频和图像），可以由人类或机器生成。MongoDB等非关系型数据库是存储许多种非结构化数据的首选选择。

非结构化数据有什么用途？

可以在文本非结构化数据上执行简单的内容搜索。传统的分析工具针对高度结构化的关系型数据进行优化，因此对于如富媒体、客户互动和社交媒体数据等非结构化来源几乎无用。

大数据和非结构化数据通常是一起出现的：IDC估计，这些极其庞大的数据集中有90%是非结构化的。最近出现了新的工具来分析这些和其他非结构化来源。这些平台由人工智能和机器学习驱动，几乎以实时速度运行，并基于发现的模式和洞察自我学习。这些系统正在用于处理大量非结构化数据集，以实现以前从未可能的应用，例如

分析通信以符合监管要求
跟踪和分析客户社交媒体对话和互动
深入了解广泛的客户行为和偏好

非结构化数据是如何存储的？

非结构化数据可以以多种方式存储：在应用程序中、NoSQL（非关系型）数据库、数据湖和数据仓库。像MongoDB Atlas这样的平台特别适合存储、管理和使用非结构化数据。

非结构化数据

非结构化数据

非结构化数据与结构化数据

无结构化数据有哪些例子？

什么是结构化、半结构化和无结构化数据？

无结构化数据是如何结构化的？

非结构化数据有什么用途？

非结构化数据是如何存储的？

免费开始使用MongoDB Atlas

使用MongoDB Atlas在云端免费运行MongoDB。无需信用卡。