“数据仓库之父”谈如何处理非结构化数据

“数据仓库之父”谈如何处理非结构化数据,第1张

毫无疑问,这是一个信息爆炸的时代。你的服务器上充满了各种各样的数据。问题就提出来了,你如何处理那些非结构化数据?在本文中,让“数据仓库之父” WHInmon谈谈他自己的独到见解。
虽说非结构化数据很难处理,但是它已经存在很久了,肯定比计算机的历史还要久远。不信的话,想想圣经,埃及象形文字,和卡马河佛经这些骨灰级的东西,它们都是非结构化数据,它们的历史可想而知了。这些非结构化数据绝对比那些硅片的出现的要早。搜索引擎虽然出现了一段时间,但也绝没有印刷时代历史悠久。即便现在的搜索引擎已经很完善了,但想随心所欲的处理包含非结构化数据信息的时代还没有到来,至少目前是这样的。这是什么原因造成的呢?
1、无用输入,无用输出 :
只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。实现非结构化数据的整合存在着困难,想想那些很早就提出来的信息技术难题:无用信息输入,无用信息输出(GIGO),就会知道即使功能再强大的搜索引擎,用来处理那些实质上未经提炼和整和的数据会得到什么结果?搜索引擎的结果会告诉我们答案,返回给用户的也将会是一些没有提炼,无用的信息。
因此,在搜索之前,那些非结构化的文本数据需要被提炼整合。如果这个工作完成的话,就不会有无用信息的输入,那么将不会产生无用的输出信息。
2、Internet数据和公司数据的差异 :
通过搜索Internet来提炼数据收效甚微。通过Internet提炼和整合数据是白费力气。试图在Internet整合数据好比愚公移山,大海捞针。
但是公司数据就是另外一回事了,有以下两个原因。第一,当提到公司数据,它的总量和类型是有限的,而Internet上的数据正好相反,无穷无尽。第二,不像Internet数据,公司数据几乎和公司的事务相关。我可以很肯定的说,Internet上的数据上只有小部分的数据和公司的事务相关。
因此,整合公司文本数据,或者为了研究或者分析的目的而去整合,是非常可行的。
3、什么样的公司数据需要整合:
因此什么样的公司数据需要被整合呢?很明显,有这么些类型的公司数据应该被整合,包括:
1.客户数据——那些与客户信息相关的数据
2.安全性数据——如意外事件,审查,修理,特约条款等等这些重要的事件
3.合同数据——与公司合同相关的数据
4.发现数据(Discovery data)——诉讼过程中的数据
5.顺应性数据(Compliance data)——针对公司敏感事件和事务的描述
由此看出,公司数据限制很少,或者从理论上说,是没有限制的。
4、数据整合的优势:
整合公司文本数据的重大优点之一,就是一旦整合,它们就可以输入到数据仓库中,并且能重用。也就是说,公司文本数据只需要整合一次。整合之后,只要你愿意,你可以多次研究和分析这些数据,可谓一劳永逸。
值得一提的是,在这公司文本数据整合后,就可以放入到数据仓库中。一旦进入了数据仓库,这些数据就能与结构数据结合到一起。
5、客户信息分析 :
举个例子,如针对公司的客户信息管理系统,就要分析客户信息。通常会从客户那里收到e-mail。但是,一旦那些e-mail阅读之后,通常就被放在一边了。这些读过的邮件将会存放到一个文件夹里,从此这些邮件就在那里搁置着,与另外上千的e-mail堆放在一起。
问题是,当公司需要这些信息的时候,这些信息却很难找到。当一些e-mail涉及到潜在的未来信息,就显得更加重要了。
客户琼斯夫人案例分析
为了证明以上观点,让我们看看一个案例,这个案例的主角是一位叫琼斯夫人的客户。假设她上个月写了一个e-mail来严厉批评公司的销售人员,因为她的一个订单被延误了。而正好这个月,公司的另外销售人员准备打电话给琼斯夫人,请求下更多的订单。这是时候,对于那个销售人员来说,上个月的来自琼斯夫人的e-mail重不重要呢?
答案当然是非常重要的。如果我们想给琼斯夫人推销更多的新产品,这个时候关于客户最近的任何信息都是非常重要的,无论正面了解的信息,还是从琼斯夫人那里反馈的信息。因此,摆在我们公司面前的问题就是如何找到那些与客户相关的e-mail?如何过滤掉那些不相关的e-mail?
这里说的例子,只是其中的一个,许多的例子都需要用到非结构文本数据,如果为公司文本数据设计一个专门的整合过程,将这些公司文本数据能存储到一个数据仓库里,查找、过滤信息就好办多了。
注:数据无非包括结构化数据和非结构化数据。结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。而非结构化数据包括音频、图像、e-mail、电子表格、txt文本、文档、报告等。
作者简介
比尔•恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。
 

在Excel中,数据清单的高级筛选的条件区域中,对于各字段“与”的条件必须写在同一行中。

大数据环境下数据量快速的积累,要想分析出海量数据所蕴含的价值,筛选出有价值的数据十分重要。而数据筛选在整个数据处理流程中处于至关重要的地位。数据筛选的目的是为了提高之前收集存储的相关数据的可用性,更利于后期数据分析。数据筛选包括数据抽取、数据清理、数据加载三个部分。

扩展资料:

数据在抽取后最终是要放入数据仓库中,因此数据抽取的主要任务就是要把不同数据源中的数据按照数据仓库中的数据格式转入到数据仓库中,其主要任务就是统一数据格式。不同数据源使用的数据库类型会不同,所以数据抽取大致可以分为两种情况。

较为简单的情况是数据源与数据仓库使用相同的数据库,此时可以使用关系型数据库自带的数据库连接功能,这样就可将数据仓库服务器与原系统连接起来,直接进行SQL查询。

这个greenplum和teradata类似,这类产品一般在大数据量的应用中,尤其的显眼
优点:GREENPLUM和TERADATA由于结合了自身的硬件设备,所以在处理数据上速度非常快,而且在逻辑的设计实现上,没有其他产品的那种人为的星型结构的设计。
缺点:主要就是贵,不是一般的贵,真的,如果一个公司不是数据量特别的大的话,真的没有必要搞这玩意,弄个ORACLE就完全够了

数据仓库的硬盘容量通常要是 *** 作数据库硬盘容量的2-3倍。通常大型机具有更可靠的性能和和稳定性,也容易与历史遗留的系统结合在一起;而PC服务器或UNIX服务器更加灵活,容易 *** 作和提供动态生成查询请求进行查询的能力。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/zz/12571079.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-26
下一篇 2023-05-26

发表评论

登录后才能评论

评论列表(0条)

保存