SQL-on-Hadoop引领开源架构主流

　　尽管Hadoop分布式文件系统（HDFS）为大数据带来并行廉价服务器集群的处理能力，但如果企业能够使用SQL来对查询进行交互的话，那么它就可以达到更好的效果。

　　早期的Hadoop应用普遍需要十分专业的技术人员（数据科学家）来对查询进行管理。查询运行的时间非常长，整体的交互也做的不好。Apache Tez架构（针对Hive的Stinger查询加速器）以及Spark分析引擎正是为了弥补这一不足而诞生的技术。

　　在刚刚结束的Hadoop峰会2014上，知名零售企业塔吉特（Target）的架构师Anu Jain在谈到他们的Hadoop项目时表示：“对于我们来说，确保用户能够访问交互查询常重要的。有了Tez，我们就能够将这种能力带给业务用户，他们可以将并行Hadoop的应用探索融入现有的工作流，这对于充分利用Hadoop常关键的一步。我们的目标就是确保在正确的平台上提供正确的数据，同时有效地控制成本。”

　　SQL-on-Hadoop技术是Hadoop近几年发展中最典型的创新。Gartner分析师Merv Adrian表示，人们在熟悉Hadoop的批量处理方式之后，接下来就希望能够做交互的查询了。

　　Gartner也对多个SQL-on-Hadoop产品进行了描述，在今年早些时候的一次调查中，Gartner发现用户最常见的使用方式就是让厂商提供HBase，占到32%。另外有27%的用户表示会通过Hive来自己创建SQL查询，23%的用户表示会使用特定的Hadoop发行版SQL工具，比如Cloudera的Impala，Pivotal的HAWQ等。

　　新的时代已经。大多数早期用户并不关心与SQL的结合，但随着Hadoop的应用逐渐主流，情况也发生了变化。Adrian表示，事实上SQL-on-Hadoop的崛起也让传统厂商的长处得以发挥，他们对SQL常熟悉的。

　　Hadoop也许会披上SQL的外衣，但也有人认为是由于编程语言的变迁，SQL被Hadoop化了。TrueCar公司的平台运营副总裁John Williams就是持这样的观点，他认为数据开发的方法正在经历变革，因为数据集的规模已经常大了。传统SQL并不能胜任这样的负载，我们需要其他的编程。事实上，在大数据集方面SQL的执行速度常慢的，与此同时随着Yarn，Tez等技术的出现，SQL-on-Hadoop的速度已经得到了大幅的提升。

　　然而，执行速度并不是唯一的衡量标准。Williams更关心应用上线时间。对于他们来说，SQL开发的周期太长了。他表示，使用SQL开发需要学习数据，构思模式，标准化，创建索引和查询。如果应用中发生变更，这些工作都需要推到重来一遍。因此现在新的非结构化数据应用更多的技术开发是集中在Java、Python语言上的。

　　不同类型的企业也许需要不同的方式来拥抱SQL-on-Hadoop。但在很多情况下，SQL的加入会使得Hadoop更靠近企业应用的主流。Ovum分析师Tony Baer表示，Hadoop未来的突破点就将存在于SQL-on-Hadoop之上。

　　【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何（平面、网络、自等）以及微信号复制、转载、摘编或以其他方式进行使用。】

　　大数据的发展已经让许多精通SQL的数据专业人员不知所措。微软的U-SQL编程语言试图让这些人回归数据查询游戏。

　　SAP努力将HANA定位为一个大数据平台。要制定可行的大数据战略，您需要了解诸如SAP HANA Vora之类的工具。

　　目前，大部分数据仓库还是用数据库进行管理。数据库是整个数据仓库的核心，是数据存放的地方和提供对数据检索的支持。

　　Vertica之前就已经能够对Hadoop数据进行访问，但Vertica8.0分析引擎则能够与Hadoop数据适当协作，如此一来就能减少数据迁移。

SQL-on-Hadoop引领开源架构主流

相关阅读

网友评论 ()条查看

推荐文章更多

热门图文更多

最新文章更多

SQL-on-Hadoop引领开源架构主流

相关阅读

网友评论 ()条 查看

推荐文章更多

热门图文更多

最新文章更多

网友评论 ()条查看