到2029年,大数据分析市场的价值预计将达到超过 6550亿美元 — 这是今天(2023年)市场价值的两倍!
(来源:Statista.com,2023年)
然而,为了使组织能够利用有效的大数据分析,他们必须收集、存储、管理和访问大量的结构化和非结构化数据,这些数据远远超出了传统数据库的容量和架构。此外,为了支持与大数据分析相关的高级分析、预测模型、机器学习以及人工智能(AI)流程,快速的数据处理速度和运营效率至关重要。
在这种通货膨胀的经济环境下,股东对更高利润的需求下,如何实现这一目标呢?
在本大数据指南中,我们将讨论什么是大数据,能够容纳大数据的数据库,其架构,大数据应用,以及其益处和挑战,以及高管在利用大数据创新业务战略和推动利润率时必须考虑的关键点。
目录
从广义上讲,大数据是指极其庞大的数据量(包括结构化和非结构化数据),这个数据量超过了传统数据处理软件在20世纪90年代和21世纪初所能处理的范围(例如,与泽字节相比,是太字节)。即便在今天,有了云计算、先进的数据处理和存储能力以及现代资源管理来支持商业用户的需求,大数据对于许多组织来说仍然是一个沉重的负担。
大数据有三个显著的特征:量、速度和多样性——通常被称为大数据的“三个特征”。
量,即生成的数据量,正在呈指数增长。事实上,据估计,世界上90%的数据是在过去两年内产生的!然而,考虑到仅仅一次跨国航空旅行就可以生成240太字节的数据,以及一个工厂车间地面上物联网(IoT)传感器的每天可以产生数千个数据流,这可能并不令人惊讶。而且,除此之外,想想社交媒体每秒产生的所有结构化和非结构化数据。
大量生成和收集的大数据意味着数据处理必须在极快的速度下进行,以便在大数据分析中在有用的时间范围内获得有意义的见解。此外,在生活的许多方面需要近乎实时的数据处理,包括
大数据不仅包含标准的金融或交易数据,还包括文本、音频、视频、地理空间和3D等多种格式,这些格式都无法通过高度格式化的传统关系型数据库来处理。这些旧系统是为处理较小量的结构化数据以及仅在一台服务器上运行而设计的,这实际上对速度和容量构成了限制。现代大数据数据库,如MongoDB Atlas,被设计为可以轻松容纳多种数据类型和广泛的基础设施。这包括横向扩展存储架构和并发处理环境。
除了“三个特征”之外,还有更多的“特征”在描述大数据时变得越来越重要,包括
在过去,数据库和数据中心存储的大部分数据是结构化数据。然而,在大数据时代,非结构化数据存储需求蓬勃发展。例如,到2023年,80%到90%的大数据是非结构化大数据。
为了更好地理解大数据和大数据分析的发展,了解三种主要的数据类型:结构化数据、半结构化数据和非结构化数据是很重要的。
(来源:Medium,2023)
结构化数据通常是由数字和字母字符转换成预定义的格式,然后在被输入到预定的数据模型之前。这个数据模型在单元格、行和列中存储结构化数据。实际上,如果你想象一个带有单元格、行和列的Excel电子表格,这就会非常类似于结构化数据在最基本层面的存储方式。常用的结构化数据包括客户记录、财务交易、库存记录和零售忠诚度计划数据。
半结构化数据具有一定程度的结构和组织,但不遵循传统结构化数据所需的传统数据模式。半结构化数据的关键要素包括
一些常见的半结构化数据示例包括电子邮件、网页和压缩文件。
非结构化数据没有一致的结构或模式,并且可以以各种格式找到。这些格式可以包括从视频、图像和音频文件到文档、网络日志、传感器数据和二进制数据。非结构化数据的关键特征包括
自然语言:大量非结构化数据包含自然语言文本。这意味着文本数据可能包括拼写错误、缩写、语法错误和俚语,因为它们在摄入前未标准化。因此,在分析这些数据集之前,可能需要额外的数据清洗和数据质量控制措施,这可能是一个复杂的过程。
人工智能(AI)查询方法:由于非结构化数据包含各种格式和数据结构,因此需要更先进的查询技术。其中一种技术是机器学习(ML),它可以帮助数据科学家分析大数据并有效地使用大数据分析工具。示例包括
非结构化大数据的常见例子包括文本文档、消费者调查中的文本字段、社交媒体帖子中的视频文件、地图和合同。
更多学习资源:
大数据架构指的是用于摄取、处理、存储、分析、监控和备份极其庞大和复杂数据集的硬件和软件的设计和组织。大数据架构与传统数据架构不仅在可以处理和存储的数据量上不同,在它们的安排上也有所不同。大数据架构通常使用分布式数据库系统架构,这意味着数据库在多个机器和站点上运行和存储,而传统数据库往往集中式。此外,大数据架构倾向于关注大于100吉字节的数据的存储和处理,通常用于实时或接近实时地捕获、处理和分析流数据。
更多学习资源:什么是分布式数据库
尽管大数据架构可能因组织需求和预算而异,但大多数大数据架构都包含一些常见的层次和组件。
数据来源于多种格式的多种输入。例如,来自财务系统和零售数据库的结构化数据;来自电子邮件系统、网页日志和XML/JSON文件的半结构化数据;以及来自社交媒体、人脸识别系统、传感器、扫描文档和来自物联网(IoT)设备的实时流数据输入等非结构化数据。
这是从各种数据源收集和接收数据的层。由于大数据中使用的许多数据都是非结构化的,大数据架构必须能够容纳不同格式和类型的数据的摄入。因此,尽管通常会有一些类型的数据验证措施,但数据格式和数据模式的要求比传统关系数据库中常见的严格性要宽松。
数据摄入有两种一般类型——批处理和实时。批处理摄入通常是一个定期事件,定期将新数据引入数据库。实时摄入,对于实时消息摄入和流数据是必需的,是持续进行的。虽然数据是实时捕获的,但有时需要暂时(几秒)保留这些数据以进行缓冲,以实现扩展处理和可靠的数据交付。
数据存储层将摄入的数据以高效的方式存储,以优化可扩展性和性能。组织的数据存储解决方案由预期的数据量、数据类型、访问模式和预期的查询要求驱动。
这一层负责过滤、组合并将数据转换为可用于进一步分析的状态。与摄入一样,处理也可能通过批处理或流处理进行。
读取并处理源文件,输出写入新文件。这些文件通常包括分布式文件系统,意味着文件存储在多个地点的多台机器上。在此阶段,输出数据可能被格式化并转发到关系型数据仓库,以便通过传统的商业智能(BI)工具进行查询,或者它可能被提供给NoSQL数据库和专门用于分析各种非结构化数据的交互式技术。
这个过程的一个例外是数据湖。数据湖能够以原始(原始数据)格式存储大量数据。这意味着将数据摄入数据湖不需要任何类型的预格式化。此外,数据湖能够存储结构化和非结构化数据。
大数据分析是一个涉及此层的广泛术语。不仅进行传统的基于搜索和预测分析,还进行临时分析。此外,使用流分析工具(例如,通过使用连续查询分析大量实时数据)提供社交媒体分析和相关消费者数据行为趋势。
此外,数据科学专业人员经常使用机器学习(ML)来创建数据模型,这些模型使业务用户能够自助BI仪表板。数据科学家还使用ML通过数据挖掘和其他高级分析实践进一步探索原始和非结构化数据集。
学习资源的链接: 非结构化数据分析工具
数据可视化是通过图形手段表示数据。数据可视化工具和报告平台使用户能够将复杂的数据洞察转化为易于理解的图形表示,供业务用户和利益相关者使用。例如,Tableau、Power BI和定制仪表板等工具实现了这种数据可视化、探索和报告。
在这一层中,为了保护数据资源,实施了安全协议,如访问控制、用户认证和加密。这一层还包含必要的软件,以持续监控系统以防范网络攻击和相关恶意软件或病毒。此外,确保遵守第三方法规和访问(例如,政府、行业标准实体)的数据治理操作也位于此处。
最后,在这里监控大数据架构的健康状况和性能。这包括日志记录、备份、系统警报以及应用管理工具,以确保系统的高可用性、访问和数据质量。
与任何类型的数据系统一样,大数据既有优点也有挑战。以下总结了大数据的主要优点及其挑战。
并行计算:为了快速处理大量数据集,大数据架构使用并行计算,其中多处理器服务器同时执行大量计算。大型问题被分解成较小的单元,可以同时解决。
弹性可伸缩性:大数据架构可以水平扩展,使环境能够根据每个工作负载的大小进行调整。大数据解决方案通常在云中运行,您只需为实际使用的存储和计算资源付费。
选择自由:市场上提供了许多适用于大数据架构的解决方案和平台,例如Azure托管服务、MongoDB Atlas和Apache技术。您可以将解决方案组合起来,以获得最适合您各种工作负载、现有系统和IT技能集的最佳匹配。
互操作性:您可以在不同类型的工作负载之间创建集成平台,利用大数据架构组件进行物联网处理和BI以及分析工作流。
安全性:静态类型的大数据通常存储在集中的数据湖中。需要强大的安全性来确保您的数据免受入侵和盗窃。但是,由于其他应用程序也需要消耗数据,因此设置安全的访问可能很困难。
复杂性:大数据架构通常包含许多相互关联的动态部件。这包括多个数据源和单独的数据摄取组件,以及许多跨组件的配置设置以优化性能。构建、测试和排除大数据流程的挑战需要高水平和技能。
技术发展:选择正确解决方案和组件以符合大数据项目的业务目标非常重要。这可能会让人感到压力,因为许多大数据技术、实践和标准相对较新,仍在发展中。Hive和Pig等核心Hadoop组件已经达到了一定程度的稳定性,但其他技术和服务仍然不成熟,并且可能随着时间的推移而发生变化。
专业技能:基于主流语言构建的大数据API正在逐渐投入使用。尽管如此,大数据架构和解决方案通常采用非典型的高专业技能语言和框架,这对开发人员和数据分析师来说都有一个相当的学习曲线。
显然,由于每天数据生成的速度越来越快,以及大多数行业、政府机构、教育机构、医疗保健和非营利组织对可操作数据洞察力的依赖性日益增加,大数据应用的范围正在不断扩展。以下是一些由大数据推动的关键组织功能的摘要。
生产力和成本优化:为了在低利润竞争市场中保持优势,制造商利用大数据来提高质量和产量,同时最小化废品。政府机构可以利用社交媒体来识别和监测传染病爆发。
产品开发:公司分析并模拟一系列大数据输入,以预测客户需求,并对哪些新产品和产品特性将最有价值做出预测。
智能技术:大数据在收集和分析传感器、摄像头和物联网设备每天使用的数据中发挥着关键作用。无论是用于个人的智能家居系统(例如,Ring、Alexa、Blink)还是用于安全、交通管理或城市规划的城市,这项技术在应用于我们生活中的应用才刚刚开始。
预测性维护:使用复杂的算法,制造商评估物联网传感器输入和其他大量数据集,以跟踪机器性能并揭示暗示即将出现的技术问题的线索。目标是确定预防性维护的理想间隔,优化设备运行,最大限度地提高设备运行时间,同时避免不必要的成本。
合规性:能够快速解析大量信息,加快并简化监管报告,是大数据在合规性方面的主要好处。此外,由于分布式数据库系统能够为政府或行业标准监管机构提供实时访问,合规要求和审计的完成速度也得到了加快。
网络安全:大数据用于实时威胁检测、日志分析和网络监控。用户访问异常、基于角色的凭证相关的资源使用水平以及数据使用模式只是人工智能使用大数据来保护组织数据资产的一些方式。
大数据技术能够识别大量数据集中隐藏的模式和相关性。这些技术通过强大的大数据分析揭示,并在全球范围内的大部分行业中指导规划和决策。事实上,仅仅在过去十年中,大数据的使用已经发展到触及我们工作的几乎每一个方面,我们的家庭生活、购物习惯和休闲。
以下是影响人们日常生活的某些大数据应用示例。
大数据为大多数依赖的GPS智能手机应用程序提供动力,以最短的时间从一地到另一地。这些GPS系统依赖于卫星图像、执法和民事更新、来自摄像头系统的实时交通数据,甚至是来自众包的信息(例如,Waze)。
飞机也产生大量数据(例如,跨大西洋航班1,000兆字节)。航空分析系统处理空中每一架飞机的所有数据,以分析燃油效率、乘客和货物重量以及天气条件,以优化乘客安全和能源消耗。
过去,营销人员使用电视和收音机偏好、调查问卷和焦点小组来更好地定位广告活动。然而,这些努力远非精确。
今天,广告商使用大量数据来确定他们的产品和服务特定的消费者目标,通过确定消费者实际上点击、搜索和“点赞”的内容。还通过点击率、观看次数和其他精确指标来监控营销活动的有效性。
金融行业使用大数据进行以下关键活动
欺诈检测:银行监控信用卡持有者的购买模式和其他活动,以标记可能表示欺诈交易的反常情况。
风险管理:大数据分析使银行能够监控和报告运营过程、关键绩效指标(KPI)以及可能导致组织责任或数据安全风险的员工活动。
客户关系优化:金融机构分析网站使用和交易数据,以更好地将潜在客户转化为客户,并通过激励现有客户使用其金融产品。
政府部门收集了大量数据,但许多部门没有采用现代的数据挖掘和分析技术来从中提取真正价值。然而,一些政府部门确实采用了现代人工智能,有效地分析了大数据。以下是一些例子:
国内税收局(IRS):国内税收局使用大数据分析来识别税务欺诈和洗钱。
联邦调查局(FBI):联邦调查局采用大数据策略来监控潜在炸弹制造材料(例如,商业肥料)的大量购买,国内恐怖组织的社交媒体活动,以及用于人口贩卖的暗网。
中央情报局(CIA):中央情报局在众多以大数据为中心的活动包括积极监控由现场资产收集的音频、视频、图像和文本文件,以遏制国际恐怖主义、敌对国家的网络攻击等。
全球各地的气象卫星和传感器收集大量半结构化和非结构化数据,以跟踪环境条件。气象学家使用大数据来
大数据在庞大的医疗保健行业中产生了重大影响。可穿戴设备和传感器收集实时患者数据,这些数据被提供给医疗服务提供者并纳入电子健康记录。这种可穿戴技术帮助偏远地区的居民在本地没有专家的情况下看到医疗专家,以及在检测到异常测试结果时加快治疗。
此外,通过使用人工智能,可以更准确地审查图像(例如,乳腺X光片、MRI),比仅由人眼审查能更早地检测到健康问题。
通过使用人工智能和机器学习,教师能够快速通过仪表板审查学生成绩,仪表板突出了落后或表现出可能辍学的行为的学生的成绩。这使得教育工作者能够针对具体学生,在正确的时间提供正确的资源,以提高成功结果。
在考虑您的组织在大数据旅程中的下一步时,务必考虑以下大数据因素。
数据量持续增长,其中大部分是以音频、视频、社交媒体、照片和物联网设备输入等非结构化数据格式。这些数据难以搜索和分析,需要像人工智能和机器学习这样的复杂技术。
对于存储和管理,公司越来越多地使用NoSQL数据库,如MongoDB及其数据库即服务(DBaaS)版本MongoDB Atlas,它运行在所有三个最受欢迎的云服务上,并且可以在它们之间迁移,无需任何更改。MongoDB由于其易于处理各种数据格式、支持实时分析、高速数据摄入、低延迟性能、灵活的数据模型、易于横向扩展以及强大的查询语言,是大数据的首选选项。其他有用的技术包括Spark、商业智能(BI)应用和Hadoop分布式计算系统用于批处理分析。
大数据以多种格式出现,来源众多,包括
将所有这些数据整合到单一存储库中,并将其转换为分析工具可用的格式是一个复杂的过程。任何认真挖掘大数据潜力公司的都需要在提取、转换、加载(ETL)技术和数据集成工具上做出相应的重大投资。在确定大数据之旅的下一步之前,请考虑您的组织如何从运营、功能和机构知识的角度来处理ETL和集成。
发现可操作的洞察力以做出更好的决策是大数据分析的关键驱动力。一些好处包括
实现这些目标取决于尽可能多地摄入数据并快速发现洞察力。对于那些刚开始旅程或正在迅速扩张的组织,考虑替代内部构建和管理的内部大数据环境可能是有意义的。云服务提供商是一种让组织跳过内部开发资源的大量投入,快速进入大数据益处的途径。
示例包括
基础设施即服务(IaaS):第三方可以提供存储、服务器、虚拟化和网络服务,快速推进大数据项目。
平台即服务(PaaS):在PaaS中,第三方提供基于云的平台来部署和管理大数据应用。除了IaaS的所有功能外,PaaS还包括操作系统和中间件,使组织只需负责应用程序和数据。
软件即服务(SaaS):SaaS是云技术堆栈中最常用的。它提供了IaaS和PaaS的所有功能,以及应用程序和数据的托管。组织用户只需按需访问大数据用户界面。
了解更多关于云计算堆栈的信息。
安全挑战与大数据的来源一样多样化。因此,有一些与大数据相关的网络安全考虑因素。
网络安全策略:由于其大量有价值、机密的信息,大数据环境对黑客和网络犯罪分子特别有吸引力。考虑到这一点,在架构规划早期阶段就考虑到网络安全至关重要,因为当组织在后期日期试图将“附加”到现有系统时,全面保护是极其困难和昂贵的。
多源数据摄入:虽然传统数据库可能需要摄入多个数据源,但大数据可能需要数百甚至数千个。然而,对每个数据源进行彻底的审查和网络安全协议仍然很重要。对于组织来说,这可能是一项艰巨的任务,因此在您组织的的大数据之旅中,考虑内部资源和技能集至关重要。或者,将此功能外包给第三方是一种许多组织选择的有效选择,以订阅服务模式付费。
治理涉及验证数据:确保记录一致,并确保它们可用、准确和安全。然而,多个来源的集成可能会使这个过程变得复杂,并且协调来自不同系统且应一致的数据是一项必要但可能困难的任务。例如,公司CRM(客户关系管理)系统中的销售额可能与他们在电子商务平台上的记录不同,或者医院可能在不同系统中为患者有不同的地址。
通常,组织会成立一个内部小组,负责制定治理政策和程序。他们还投资于数据管理工具,这些工具需要先进的大数据技术来进行数据清洗、集成、质量保证和完整性管理。因此,考虑您的组织在大数据旅程中的位置以及其数据治理流程与行业最佳实践的契合程度非常重要。
大数据是指极其大量的数据(包括结构化和非结构化数据),这些数据超过了传统数据处理软件在20世纪90年代和21世纪初所能管理的量(例如,与泽塔字节相比,是太字节)。
量(Volume):这指的是收集到的数据量。
速度(Velocity):这指的是数据被系统摄入的速度,以及数据随时间变化/更新的速度。
种类(Variety):这指的是数据采取的各种格式以及摄入的不同数据源。
结构化数据:结构化数据通常由数字字符组成,在输入预定义的数据模型之前,被转换成预定义的格式。
半结构化数据:半结构化数据具有一定的结构化和组织性,但不符合与传统结构化数据需求相符合的严格数据模式。
非结构化数据:非结构化数据没有一致的架构或模式,并以各种格式存在。这些格式可以包括从视频、图像和音频文件到文档、Web日志、传感器数据和二进制数据等。