您好、欢迎来到现金彩票网!
当前位置:516棋牌游戏 > 文本数据库 >

揭秘隐藏在非结构化数据背后的真相

发布时间:2019-06-07 20:35 来源:未知 编辑:admin

  【IT168评论】随着互联网技术的发展,大量非结构化数据逐渐走入人们的视野,数据科学家也开始将研究重点转移至非结构化数据。据Gartner预计,全球信息量每年的最低增长率为59%,其中有15%是结构化数据,其余的85%则由各种非结构化数据组成。在IDC的一项调查报告中也指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

  非结构化数据是指那些不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。当这些非结构化数据不断增加的同时,也给数据库厂商、系统架构师、数据库管理员及其他开发人员带来了前所未有的挑战。本文出自Ram Subramanyam Gopalan的博客,他是Informatica公司的一位高级产品经理,文中介绍了那些隐藏在非结构化数据背后的真相。

  如果能够将非结构化数据库像洋葱一样层层剥落,你将会了解到没有任何工具能够发现或分析出非结构化数据的结构,这就是非结构化数据谓之“非结构”的原因。

  一旦获得了元数据的结构或模板,由某些设备(如传感器等)产生的数据就可以进行破解。当然,这些数据流中的某些字段需要更强的分析或发现能力才能进行自动分析。

  交互数据:这是人们对他人或事物表达其观点的长期公开的文本字段,是拥有大量商业价值的社会化媒体数据。如果需要对这些数据进行自动分析,有了强大的实体识别和语义分析功能就能够更好的理解这些数据。换句话说,如果能够将文本数据转换成实体集合,即他们之间的关系以及关系属性,这样数据分析就能够比想象中的更容易。

  图像识别算法几乎已经成为主流(但是除了谷歌和Facebook进行规模性配置以外,图像识别算法还不是特别受到其他企业的欢迎。),这些技术会产生实体,但是这些实体源于关系和观点,所以更具有挑战性。

  大量研究产生的最新技术能够分析音频数据流的内容,甚至能够为说话者情绪性的内容做注释。这些技术使分析音频数据等可分析数据的过程更接近于文本。

  毫无疑问,视频是最具挑战性的数据类型,因为它需要处理庞大的数据量。图像识别技术可以应用于一帧或者多帧并从中提取出实体。当然,未来会更深层的分析视频内容。音频识别也可以应用于理解部分“行为”内容。

  基于以上内容,想要从这些新的数据类型中提取更多有价值的内容,就需要更多新的数据处理和数据分析的功能。

  不间断的维持或控制元数据。在运行时,从几个可能的备选方案中选择适当的或者最匹配的元数据集。

  :为了使其他分析层能够引用或注释这些输入数据,需要获取业务及其实体。随着业务的发展,这种分类将变得更加丰富。

  :提供了对任意文本数据流和派生实体进行分类,以及对数据流进行关系表达的能力。这种分析可以存储在关系型数据库中,也可以存储为图表。

  :正如之前描述的那样,需要破解图像、音频和视频内容的多种技术来分析这些数据类型。分层遵循以下原则,如图所示:

http://dolphinfixtures.com/wenbenshujuku/116.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有