我被“非结构化数据包围了”,请求支援!

发布时间:2019-09-09 19:05:00 来源: 本站 浏览次数:23

当前,数据技术及产品部对结构化数据处理和应用已经具备了成熟的技术以及产品方案。为了应对日益增长的非结构化数据诉求,非结构化数据体系通过覆盖非结构化数据规范、数据设计、算法能力、服务能力等来解决这一问题,该体系是对OneData体系的非结构化数据的补充和完善。已经赋能了集团内很多业务取得了非常好的效果,而这只是刚刚开始。


非结构化数据概述

“非结构化数据”是什么?相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息等。

相对于结构化数据,非结构化数据具有以下特点数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。

当前行业公认:非结构化数据占数据总量的80%以上。结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,非结构化数据包含各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。
                           

640.webp (1).jpg

图:非结构化数据的占比图 图片来源:《大数据分析行业网》

非结构化数据没有预定义的数据模型,不方便用数据库二维逻辑表来表现。
 
下面对比一下结构化数据和非结构化数据的区别:

结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

结构化数据格式形式如图下:

640.webp (2).jpg

图:结构化数据

非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。非结构化数据包含的信息量丰富。非结构化数据与结构化数据最大的区别在于蕴含信息量非常丰富。

非结构化数据-图片格式如下图所示:

640.webp (3).jpg

图:非结构化数据  图片来源:《数字时代》
 
非结构化数据一般不能直接使用,需要通过算法等手段进行处理。但因非结构化数据本身的特点,处理难度大。比如:对评论文本信息的情感分析。为了实现情感分析,需要使用算法进行复杂的处理,通过大量的数据训练才能完成。以商品评论数据来看,对于结构化的评论如下表:
 

640.webp (4).jpg

 结构化评论数据


可以直观看出用户感情是负向的。

同一个买家的非结构化评论:我在这家买了,缺少螺丝,商品还有划痕直接不管。
根据以上的评论内容,如果要确定买家的情感,就没那么简单了。需要使用NLP算法,并经过算法效果评估等一系列过程。

因此,当前非结构化数据的处理门槛还是很高,处理难度还比较大。

非结构化数据的问题和挑战

非结构化数据虽然具有很大的价值,但是当前对非结构化数据的处理和管理却存在很多问题和挑战,下面结合我们的理解对这些问题和挑战进行一个初步整理。

实体和关系分离

非结构化数据因为其自身不具有规整的形式,因此不能像结构化数据一样按照二维表的形式存储。因此其实体和关系是分离的。

举个简单例子:对于淘宝商品的图片,其商品的信息是通过二维表的形式存储的,但是主图的图片却存在在OSS中,需要通过cdn映射才能访问图片内容。

这种情况出现在大部分的非结构化数据的身上,实体和关系的分离,造成了场景分析的困难。如果我们单独看一张图片(可参考图:图片蕴含的信息),其蕴含的丰富的信息如果全部靠算法去处理,不仅耗费巨大的资源,而且无法追溯其来源、曝光、使用场景等,会造成大量精准信息的缺失。如果我们从结构化数据去看,却无法直接使用图片本身所包含的信息(图片的特点、图片包含的文字、图片包含的促销信息)等。

实体和关系的分离,造成了非结构化数据使用的困难,降低了数据的完整性。

数据分散,未形成合力

无论是从ImageNet的例子还是从集团数据的角度去看,当前非结构化数据普遍存在数据分散的现象。而实际的生活中,数据不应该是分散的,而应该形成联动,更充分的发挥价值,便利我们的生活。

处理复杂,开发门槛高

现在对于非结构化数据的处理,离不开算法,依托于集团人工智能实验室、各个部门的算法团队,集团内智能化场景遍地开花,欣欣向荣。

但是,这并没有解决非结构化数据处理复杂,开发门槛高的问题。算法的高门槛和业务的高要求,制约了非结构化数据能力的释放。

随着5G时代的到来,各种新的应用产生的巨量非结构化数据,仅仅依托人工的合作形态,恐怕不足以很好的实现非结构化数据的使用。工具化、平台化、规模化将会成为将来的重点。


非结构化数据作为一种数据量大、类型丰富、与人工智能可以深度结合的数据类型,将会发挥越来越大的价值。然而如何管理、使用、快速价值化非结构化数据,当前并没有很好的解决方案,我们团队在综合分析市场上的产品和深度思考后结合DT强大的数据能力,提出了“非结构化数据体系”的设想和解决方案。



< 上一条:社保严查来了!刚刚,多家企业因未足额缴纳社保被罚款!员工自愿放弃缴纳社保,可以吗?今天统一回复……