对于所有关于数据的炒作(你听过多少次“数据是新的石油”?),数量惊人的商业领袖正在错过他们最大的数据资产。人们关注的焦点一直是结构化数据——定义好的数字和值——而我们生成的大量数据实际上是非结构化的。
非结构化数据是构成我们日常生活的视频、音频和图像,随着数字经济的增长,这些数据正在爆炸式增长。高德纳(Gartner)估计,非结构化数据占所有新企业数据的80%到90%,而且增长速度比结构化数据快3倍。
这听起来令人惊讶,但非结构化数据实际上是当今进步的基础。我们所依赖的创新,从开发COVID-19疫苗所需的基因组研究,到历史博物馆的档案,再到你最喜欢的Netflix热播剧中的特效,都来自非结构化数据。
然而,企业并没有意识到这一点。在一个2019德勤调查在美国,只有18%的组织报告能够利用非结构化数据。所以其他82%的组织仍然没有利用他们最有价值的资源。非结构化数据仍然是一个秘密。但对于那些能够搞清楚这一点的公司来说,非结构化数据是一个主要的竞争优势。
以下是为什么非结构化数据已经等待了这么长时间——以及如何将其重新置于前台和中心。
非结构化数据是有价值的——但它被误解了。
如果我们有这么多的数据是非结构化的,为什么还没有得到充分的服务呢?你可能会认为非结构化数据会得到更多的关注,但由于非结构化数据不能整齐地放入盒子里,企业需要更长的时间才能理解如何使用它。
我们直观地认为数据是行和列的,而非结构化数据不是这样的。它由摄像机、录音设备、卫星、传感器、基因组数据、航空图像和其他物联网连接技术生成。这是一个充满洞见的金矿,我们必须以不同于我们习惯的方式来挖掘。
非结构化数据以其原生格式存储,这意味着它缺乏预定义的数据模型或模式,不能在传统关系数据库中进行管理。这种非结构化数据不能简单地存储在一组使用列和行的表中,企业传统上一直在努力以有意义的方式管理、分析和利用其非结构化数据。
大多数技术都不是为了解决这个问题而构建的,这意味着公司必须重新构建架构、重构应用程序或使用第三方数据移动包来从数据中产生价值。难怪非结构化数据名声不佳:没有人愿意处理它,因为遗留文件系统并没有让它变得容易。
但还有另一种方法。
组织可以利用其原生形式的非结构化数据。
仅仅因为非结构化数据不适合Excel表格,并不意味着不可能使用它。你只需要说它的语言。了解您的数据策略是否设计用于以原生形式处理数据和应用程序是至关重要的。
在云时代,对象存储往往是许多企业的首选,但大多数数据是作为文件创建和使用的。文件存储是一种作为文件层次结构存储和管理数据的格式或程序,其中文件在目录结构中可识别(通常显示为层次树结构)。现代文件系统针对基于文件的数据的特殊需求进行了优化,支持大规模的可伸缩性、优化的性能和数据保护。
成功的企业正在使用本地形式的文件数据存储、管理和构建高性能计算(HPC)工作流和应用程序——利用本地安装的文件系统和与云对象存储(如Amazon S3和Microsoft Azure)本机集成的数据服务——并使用分析、机器学习和商业智能将数据转化为价值。
是时候把非结构化数据放在聚光灯下了。
拥有处理非结构化数据的能力应该是您业务中不可或缺的一部分,无论您从事何种业务。组织可以以更有意义的方式利用非结构化数据,为世界带来有影响力的结果。
以下是目前由文件数据驱动的各个部门正在发生的一些日常结果:
- 主要的娱乐工作室通过云技术制作下一部大片
- 医学研究人员利用DNA测序为下一种传染病做准备
- 汽车制造商使用物联网传感器为自动驾驶汽车开发安全功能
非结构化数据不应该被边缘化。通过适当的关注和技术解决方案,您的组织可以使其无名数据成为表演的明星,并使您的创新成为现实。