大数据处理必备的十大工具
大数据的增加给企业管理大量数据带来了挑战,同时也带来了机会.以下是大数据处理所必需的十大工具:
1.ApacheHive
.
Hive是建立在hadoop上的开源数据仓库的基础设施,通过Hive简单地进行数据的ETL,结构化处理数据,查询和处理Hadoop上的大数据文件.Hive提供了类似SQL的简单查询语言-HiveQL,为熟悉SQL语言的用户查询数据提供了便利.
2JaspersoftBI套件
Jaspersoft包是通过数据库列生成报表的开源软件.业界领导人发现Jaspersoft软件是一流的,很多企业为了将SQL表变成pdf,大家都可以在会议上审议.此外,JasperReports还提供了一个连接配置单元来代替HBase.
3.1010data
1010data成立于2000年,是总部设在纽约的分析云服务,旨在为华尔街的客户提供服务,包括NYSEuronext、游戏和电信.在设计上支持可伸缩性的大规模并行处理.还有自己的查询语言,支持SQL函数和广泛的查询类型,包括图和时间序列分析.这种私有云的方法减少了客户在基础设施管理和扩张方面的压力.
4.Actian
Actian以前的名字叫IngresCorp,客户超过1万人,正在扩大.通过Vectorwise和ParAccel扩展.这些发展分别导致了ActianVector和ActianMatrix的创建.有Apache、Cloudera、Hortonworks和其他发行版本.
5.PentahoBusinessAnalytics
在某种意义上,Pentaho与Jaspersoft相比,Pentaho始于报告生成引擎,但现在通过简化新来源获取信息的过程支持大数据处理.Pentaho的工具可以连接到MongoDB和Cassandra等NoSQL数据库.据PeterWayner介绍,PentahoData(更有趣的图形编程接口工具)有很多内置模块,可以将其拖到图像上连接.