非结构化数据是指没有预定义模式或数据模型的数据。它与结构化数据相反,结构化数据通常用于传统的关系数据库系统(RDBMS),并以行和列的形式组织。非结构化数据可以使用更现代的技术来管理,如NoSQL数据库、数据湖和数据仓库。
想想您的组织在数据库之外存储的所有媒体文件、文档和电子邮件——这些都是非结构化数据。您每天业务创建的大多数数据都是非结构化的——未能捕捉和分析它将导致重大的机会损失。非结构化数据可以提供重要的额外上下文,从而提高您分析的整体准确性——以及您做出的商业决策。
传统的关系数据库引擎可以从它们精心排序的数据中提取洞察(结构化数据)。然而,这却付出了代价——复杂的设置和配置,这可能限制了未来变化的选择。
重要信息通常存储在非结构化来源中,如文本文件、电子邮件、图像和传感器数据。电子邮件中的自由文本与mpeg编码的视频文件非常不同,但它们都包含用于生成洞察的宝贵信息。唯一共同点就是它们缺乏关系数据库模式所需的形式结构。
专业的非结构化数据库提供了一种存储、管理和查询任何数字资产的方法。许多非结构化数据库还提供了查询各种数据层信息的能力,包括数据湖、在线存档、集群和本地存储。
在需要结构的地方,您可以在访问非结构化数据库引擎的应用程序中强制执行模式验证。
非结构化数据不能被强制符合传统关系数据库的列和行格式。一些关系数据库提供了对BLOB(二进制大对象)类型的支持,允许存储非结构化数据,但提供的功能很少;您可以存储和检索blob,但仍然不能很好地查询它。您必须在将数据写入数据库之前定义数据的结构。
像MongoDB这样的非结构化数据库在数据存储方面采取了不同的方法。文本文件和其他非结构化资产以JSON格式存储为文档。
由于涉及的数据量庞大,NoSQL数据库可以无限扩展。在数据湖或类似系统之上构建,可以通过使用低成本的商用硬件快速增加容量。在处理实时数据,如社交媒体更新或物联网传感器反馈时,这将是必不可少的。
MongoDB NoSQL引擎也可以连接到您的AWS、Azure或Google Cloud平台,以实现最大程度的可扩展性。
矛盾的是,非结构化数据在进行分析之前需要应用一定级别的结构。在某些非结构化数据库中,数据必须通过提取来分析。
想象一下,您想在照片上运行面部识别。首先,您会映射关键参考点以创建一系列测量值(眼睛之间的距离、嘴巴的宽度等)。然后,这个映射可以用来与其他照片的关键点进行比较,直到您找到一个测量值在可接受的容忍度范围内的例子。
实际上,您已经应用了结构到文件中,允许比较和分析。MongoDB通过在存储时对资产应用“半结构”来加速此过程。所有原始元数据都存储在NoSQL JSON文档中,而额外的半结构加速了检索和分析。
每天生成的所有数据中,95%可以归类为非结构化。电子邮件、社交媒体更新、照片等都是非结构化的,并且都包含大数据分析中有价值的信息。借助合适的NoSQL非结构化数据库,您可以提取这些信息,为您的分析功能添加额外的上下文和价值。
非结构化数据包含重要的信息,如客户情绪,这些信息很难通过统计方法获得。使用来自多个非结构化源的信息(例如Twitter动态、RSS动态和收件箱电子邮件)进行高级文本分析,可以指示客户情绪达到个人层面。这些见解为传统见解提供了上下文、平衡和额外价值,增加了其战略价值。
通过在保存过程中不应用严格的结构,NoSQL非结构化数据库使您的数据几乎保持原样。然后,您可以自由地以任何方式对其进行结构化以供访问,而不以任何方式更改底层的JSON文档。这确保了所有上下文信息和元数据都可用于未来的操作,这些操作可能与当前需求大相径庭。
开始您的非结构化之旅,使用免费的MongoDB Atlas订阅——无需信用卡。