非结构化数据是指那些未按照预设数据模型或模式排列的信息,因此无法存储在传统的关系型数据库或RDBMS中。文本和多媒体是非结构化内容中两种常见的类型。许多业务文档是非结构化的,如电子邮件、视频、照片、网页和音频文件。
组织生成和收集的数据中有80%到90%是非结构化的,并且其数量正在快速增长——增长速度远快于结构化数据库的增长速度。
非结构化数据存储包含大量可用于指导业务决策的信息。然而,历史上非结构化数据的分析一直非常困难。在人工智能和机器学习的帮助下,新的软件工具正在出现,可以搜索大量数据以发现有益的可操作业务情报。
让我们先从结构化数据说起:它通常存储在关系型数据库或RDBMS中,有时也被称为关系型数据。它可以很容易地映射到指定的字段——例如,邮编、电话号码和信用卡的字段。符合RDBMS结构的数据既可以通过人工定义的查询,也可以通过软件轻松搜索。
相比之下,非结构化数据不适合这些预定义的数据模型。它不能存储在RDBMS中。由于它有多种格式,因此对于传统软件来说,要摄入、处理和分析它是一个真正的挑战。使用合适的工具可以在文本非结构化数据上执行简单的内容搜索。
除此之外,缺乏一致的内部结构不符合典型数据挖掘系统可以处理的方式。因此,公司普遍无法充分利用客户互动、丰富媒体和社交网络对话等富含价值的数据。这类工具的稳健性现在才刚刚被开发并商业化。
无结构化数据可以由人类创建,也可以由机器生成。
以下是一些人类生成的无结构化数据的例子:
以下是一些由机器生成的无结构化数据的例子:
如我们所见,结构化数据以易于搜索的方式组织。无结构化数据——包括大多数其他类型——存在于音频、视频和社交媒体帖子等格式中,并且不易于传统工具搜索。
一种类型与另一种类型的对比不应被视为冲突。您只需根据自己的应用需求选择其中一种。关系型数据库处理结构化数据,而几乎所有其他类型的系统都可以存储无结构化数据。
使用结构化数据的常见RDBMS应用程序包括航空预订系统、库存控制、销售交易和ATM活动。典型的无结构化用例包括媒体查看和编辑工具、演示软件和文字处理。
还有一个第三类称为半结构化数据。虽然这类信息不存储在关系数据库中,但它具有一些组织属性,这使得它更容易解析和分析。具体来说,半结构化数据包含内部标签和标记,允许进行分组和分层。
电子邮件是一个常见的半结构化数据应用。虽然详细的电子邮件分析需要复杂的工具,但它的原生元数据允许进行基本的分类和关键字搜索。半结构化数据仅占总企业数据的大约5%到10%,但它有一些关键的应用场景。例如,XML标记语言、多功能的JSON数据交换格式以及NoSQL或非关系型数据库。这些最后一种是一个不错的选择,用于存储诸如可变长度的文本等信息。最广泛使用的非关系型数据库 MongoDB通过在JSON格式中本地存储半结构化文档来容纳半结构化文档。
非结构化数据类型实际上可以包含内部结构元素。它们被称为“非结构化”,是因为它们的信息不适合关系数据库所需的表格格式。如前所述,非结构化数据可以是文本或非文本(如音频、视频和图像),可以由人类或机器生成。MongoDB等非关系型数据库是存储许多种非结构化数据的首选选择。
可以在文本非结构化数据上执行简单的内容搜索。传统的分析工具针对高度结构化的关系型数据进行优化,因此对于如富媒体、客户互动和社交媒体数据等非结构化来源几乎无用。
大数据和非结构化数据通常是一起出现的:IDC估计,这些极其庞大的数据集中有90%是非结构化的。最近出现了新的工具来分析这些和其他非结构化来源。这些平台由人工智能和机器学习驱动,几乎以实时速度运行,并基于发现的模式和洞察自我学习。这些系统正在用于处理大量非结构化数据集,以实现以前从未可能的应用,例如
非结构化数据可以以多种方式存储:在应用程序中、NoSQL(非关系型)数据库、数据湖和数据仓库。像MongoDB Atlas这样的平台特别适合存储、管理和使用非结构化数据。