大数据解决方案都有哪些?

大数据解决方案都有哪些?,第1张

在信息时代的我们,总会听到一些新鲜词,比如大数据,物联网,人工智能等等。而现在,物联网、大数据、人工智能已经走进了我们的生活,对于很多人看到的大数据的前景从而走进了这一行业,对于大数据的分析和解决是很多人不太了解的,那么大数据的解决方案都有哪些呢?一般来说,大数据的解决方案就有Apache Drill、Pentaho BI、Hadoop、RapidMiner、Storm、HPCC等等。下面就给大家逐个讲解一下这些解决方案的情况。
第一要说的就是Apache Drill。这个方案的产生就是为了帮助企业用户寻找更有效、加快Hadoop数据查询的方法。这个项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
第二要说的就是Pentaho BI。Pentaho BI 平台和传统的BI 产品不同,它是一个以数据流程为中心的,面向解决方案的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,这样一来就方便了商务智能应用的开发。Pentaho BI的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项复杂的、完整的商务智能解决方案。
然后要说的就是Hadoop。Hadoop 是一个能够对海量数据进行分布式处理的软件框架。不过Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。另外,Hadoop 依赖于社区服务器,所以Hadoop的成本比较低,任何人都可以使用。
接着要说的是RapidMiner。RapidMiner是世界领先的数据挖掘解决方案,有着先进的技术。RapidMiner数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
Storm。Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。 Storm支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、Admaster等等。
最后要说的就是HPCC。什么是HPPC呢?HPCC是High Performance Computing and Communications(高性能计算与通信)的缩写。HPCC主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。
通过上述的内容,想必大家已经知道了大数据的解决方案了吧,目前世界范围内拥有的大数据解决方案种类较多,只有开发并使用好最先进的,最完备的大数据解决方案,一个公司,甚至一个国家才能走在世界前列。

大数据的运用已经很广泛很贴近生活了,人工智能还差不少吧,目前面向的范围还比较少,估计还得要有几年,现在应该属于半步入门,科技时代看怎么定义了,感觉第一次工业革命就可以说属于科技时代了吧!

目前我国大数据应用现存的一些问题主要有以下几点:

首先,大数据不是IT公司的专利。第一批国家统计局引入的战略合作伙伴,大多数还是聚焦在IT公司,其实不是只有IT公司才有大数据,如线下零售巨头企业在实体经济中积累了很大的数据资源,他们数据的深度和广度不亚于甚至超过互联网公司。

第二,拥有大数据的IT公司和非IT公司应该打破数据格局。国内巨头企业掌握着搜索和社交和消费的数据,本来是三方的数据汇总才能拼凑出比较完整的网上信息图谱,但是巨头公司们为了彼此的商业利益,并没有体现出数据合作的意愿,而是互相封杀,这将给社会数据的流动带来伤害。因此,在保证一定商业利益的基础上,巨头的眼光应该放远一点,打破数据割据。

第三,应该呼吁政府相关部门进一步开放市场,因为围绕大数据不管是应用还是创业,最核心的是要有数据的源头,然后才能进行采集、编辑,重新编制。现在大量的关于国民经济或者说民生的数据其实还在封闭状态,在工商部门、银行、保险、公安、医院、社保,包括电信运营商机构的手里。如何让这些数据流动起来,能让大家更方便,其实应该由政府带头实现等级制数据的开放共享。

“大数据”已经成为时下最火热的IT行业词汇,各行各业的大数据解决方案层出不穷。究竟什么是大数据、大数据给信息安全带来哪些挑战和机遇、为什么网络安全需要大数据,以及怎样把大数据思想应用于网络安全技术,本文给出解答。
一切都源于APT
APT(Advanced Persistent Threat)攻击是一类特定的攻击,为了获取某个组织甚至是国家的重要信息,有针对性的进行的一系列攻击行为的整个过程。APT攻击利用了多种攻击手段,包括各种最先进的手段和社会工程学方法,一步一步的获取进入组织内部的权限。APT往往利用组织内部的人员作为攻击跳板。有时候,攻击者会针对被攻击对象编写专门的攻击程序,而非使用一些通用的攻击代码。此外,APT攻击具有持续性,甚至长达数年。这种持续体现在攻击者不断尝试各种攻击手段,以及在渗透到网络内部后长期蛰伏,不断收集各种信息,直到收集到重要情报。更加危险的是,这些新型的攻击和威胁主要就针对国家重要的基础设施和单位进行,包括能源、电力、金融、国防等关系到国计民生,或者是国家核心利益的网络基础设施。
现有技术为什么失灵
先看两个典型APT攻击案例,分析一下盲点在哪里:
1、 RSA SecureID窃取攻击
1) 攻击者给RSA的母公司EMC的4名员工发送了两组恶意邮件。邮件标题为“2011 Recruitment Plan”,寄件人是webmaster@Beyondcom,正文很简单,写着“I forward this file to you for review Please open and view it”;里面有个EXCEL附件名为“2011 Recruitment planxls”;
2) 很不幸,其中一位员工对此邮件感到兴趣,并将其从垃圾邮件中取出来阅读,殊不知此电子表格其实含有当时最新的Adobe Flash的0day漏洞(CVE-2011-0609)。这个Excel打开后啥也没有,除了在一个表单的第一个格子里面有个“X”(叉)。而这个叉实际上就是内嵌的一个Flash;
3) 该主机被植入臭名昭著的Poison Ivy远端控制工具,并开始自BotNet的C&C服务器(位于 goodmincesurcom)下载指令进行任务;
4) 首批受害的使用者并非“位高权重”人物,紧接着相关联的人士包括IT与非IT等服务器管理员相继被黑;
5) RSA发现开发用服务器(Staging server)遭入侵,攻击方随即进行撤离,加密并压缩所有资料(都是rar格式),并以FTP传送至远端主机,又迅速再次搬离该主机,清除任何踪迹;
6) 在拿到了SecurID的信息后,攻击者就开始对使用SecurID的公司(例如上述防务公司等)进行攻击了。
2、 震网攻击
遭遇超级工厂病毒攻击的核电站计算机系统实际上是与外界物理隔离的,理论上不会遭遇外界攻击。坚固的堡垒只有从内部才能被攻破,超级工厂病毒也正充分的利用了这一点。超级工厂病毒的攻击者并没有广泛的去传播病毒,而是针对核电站相关工作人员的家用电脑、个人电脑等能够接触到互联网的计算机发起感染攻击,以此 为第一道攻击跳板,进一步感染相关人员的U盘,病毒以U盘为桥梁进入“堡垒”内部,随即潜伏下来。病毒很有耐心的逐步扩散,利用多种漏洞,包括当时的一个 0day漏洞,一点一点的进行破坏。这是一次十分成功的APT攻击,而其最为恐怖的地方就在于极为巧妙的控制了攻击范围,攻击十分精准。
以上两个典型的APT攻击案例中可以看出,对于APT攻击,现代安全防御手段有三个主要盲点:
1、0day漏洞与远程加密通信
支撑现代网络安全技术的理论基础最重要的就是特征匹配,广泛应用于各类主流网络安全产品,如杀毒、入侵检测/防御、漏洞扫描、深度包检测。Oday漏洞和远程加密通信都意味着没有特征,或者说还没来得及积累特征,这是基于特征匹配的边界防护技术难以应对的。
2、长期持续性的攻击
现代网络安全产品把实时性作为衡量系统能力的一项重要指标,追求的目标就是精准的识别威胁,并实时的阻断。而对于APT这种Salami式的攻击,则是基于实时时间点的检测技术难以应对的。
3、内网攻击
任何防御体系都会做安全域划分,内网通常被划成信任域,信任域内部的通信不被监控,成为了盲点。需要做接入侧的安全方案加固,但不在本文讨论范围。
大数据怎么解决问题
大数据可总结为基于分布式计算的数据挖掘,可以跟传统数据处理模式对比去理解大数据:
1、数据采样——>全集原始数据(Raw Data)
2、小数据+大算法——>大数据+小算法+上下文关联+知识积累
3、基于模型的算法——>机械穷举(不带假设条件)
4、精确性+实时性——>过程中的预测
使用大数据思想,可对现代网络安全技术做如下改进:
1、特定协议报文分析——>全流量原始数据抓取(Raw Data)
2、实时数据+复杂模型算法——>长期全流量数据+多种简单挖掘算法+上下文关联+知识积累
3、实时性+自动化——>过程中的预警+人工调查
通过传统安全防御措施很难检测高级持续性攻击,企业必须先确定日常网络中各用户、业务系统的正常行为模型是什么,才能尽早确定企业的网络和数据是否受到了攻击。而安全厂商可利用大数据技术对事件的模式、攻击的模式、时间、空间、行为上的特征进行处理,总结抽象出来一些模型,变成大数据安全工具。为了精准地描述威胁特征,建模的过程可能耗费几个月甚至几年时间,企业需要耗费大量人力、物力、财力成本,才能达到目的。但可以通过整合大数据处理资源,协调大数据处理和分析机制,共享数据库之间的关键模型数据,加快对高级可持续攻击的建模进程,消除和控制高级可持续攻击的危害。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/yw/13379877.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-07-25
下一篇 2023-07-25

发表评论

登录后才能评论

评论列表(0条)

保存