hdp程序怎么样(hdp程序)

小贴士:如果用电脑看不清楚图片,可以用手机打开文章,点击文章中的图片,放大查看原高清图片。

费森的Github:

https://github.com/fayson/cdhproject

提示:代码块可以左右滑动查看。

7月13日,Hortonworks在官网宣布发布HDP3.0,包括Ambari2.7和SmartSense1.5,包括下载仓库和支持文档都是正式GA。

1.更新摘要

HDP3.0是大数据生态系统的一次飞跃,整个技术栈发生了很大的变化,扩展了周围的生态系统(深度学习和第三方Docker应用)。HDP3.0支持物理本地部署和主要的公共云部署,包括AWS、Azure和Google Cloud。HDP3.0的许多新功能都基于Apache Hadoop3.1,包括容器化、GPU支持、擦除代码和NameNode联邦。为了提供可信和安全的数据湖,HDP3.0的默认安装包括Apache Ranger和Apache Atlas。为了简化栈,HDP3.0去掉了包括Apache Falcon、Apache Mahout、Apache Flume、Apache Hue在内的一些组件,将Apache Slider的功能引入到Apache纱中。

2.HDFS

2.1.冷数据的擦除代码

1.采用6个数据片和3个奇偶校验片的Reed Solomon编码,可以减少50%的存储开销,同时保证数据的可用性,类似于3个副本(HDP工具中包含可选的英特尔存储加速器库)。

2.2 .名称节点联盟

1.使用Ambari UI向导启用NameNode联盟,从而线性扩展HDFS命名空间,并支持Hive、Spark和Ranger。

2.3.强化云存储企业的功能

1.谷歌云存储连接器

2.在NFS网关的支持下,视图文件系统可以实现统一的全局视图。

3.每个命名空间有多个stanby NameNode可以提高可用性(Ambari UI不支持)。

4.在单个数据节点中,对于不同容量的磁盘,您可以平衡数据。

3.故事

3.1.纱线集装箱服务

1.纱支持运行Docker容器。

2.基于Docker的Spark作业在2.YARN上受支持

3.支持Slider功能,简化纱的REST API和DNS发现。

3.2.增强的可靠性、可用性和可维护性

1.更加用户友好和开发者友好的纱线用户界面。

2.可扩展应用时间线服务2.0支持基于流的应用性能管理(APM)。

4.储备

1.工作量管理1。LLAP

您可以在LLAP池中分配资源池,并按用户或组分配资源。这可以支持大型集群的多租户功能。

2.酸性v2和默认的开放酸性

我们正在发布ACID v2。随着存储格式和执行引擎性能的提高,我们看到了与非ACID表相同或更好的性能。因此,我们默认启用ACID,并完全支持数据更新。

3.火花的蜂巢仓库连接

Hive WarehouseConnector允许你将Spark应用程序与Hive数据仓库连接。连接器自动处理ACID表。这使数据科学工作负载能够很好地与Hive中的数据配合使用。

4.物化视图

物化视图允许你预先聚合和预先计算查询中使用的表。通常最适合子查询或中间表。如果这些中间结果可用,基于成本的优化程序将自动查询这些中间结果,从而大大加快查询速度。

5.Information schema

通MySQL类似,现在可以直接通过Hive SQL借口查询数据库的元数据(表,列等)。

6.JDBC存储连接器

你现在可以将任何支持JDBC的数据库映射到Hive的catalog。这意味着你现在可以使用Hive对其他数据库和Hive中的表进行join操作。

7.Kafka-Druid ingest

你现在可以将Kafkatopic映射到Druid表中。消息事件会自动抽取到Druid中,然后提供准实时的查询。这与Kafka-Hive ingest不同,Kafka-Hive ingest使用SQL合并定期将数据加载到Hive表中,数据延迟一般为5-10分钟。

5.机器学习与深度学习


主要包括Spark/Zeppelin/Livy

核心能力:

1.支持Apache Spark2.3.1

2.ORC支持Structured Streaming

3.Spark History Server支持安全与ACL

4.支持在Docker容器中运行Spark作业

5.将Spark/Zeppelin/Livy从HDP2.6更新到HDP3.0

6.与S3Guard/S3A的开发人员进行Spark测试

7.与Spark认证Staging Committer

8.集成新的Metastore Catalog特性

9.Spark thrift server的Beeline支持

10.在Ambari中配置LLAP模式

集成:

1.支持每个notebook解释器配置

2.Livy支持ACL

3.Knox代理Spark History Server UI

4.Hive流式库支持Structured Streaming

5.透明写入Hive仓库

6.Ranger支持Spark-LLAP连接器

深度学习:

1.TensorFlow 1.8(仅供技术预览)

6.流式处理引擎


主要包括Kafka和Storm

1.支持Kafka1.0.1

2.重大更新

KAFKA-6172 – TimeIndex中的Cache lastEntry以避免不必要的磁盘访问。

KAFKA-6175 – AbstractIndex会缓存索引文件以避免不必要的磁盘访问在resize()期间。

KAFKA-6258 – SSLTransportLayer会保持从socket读取,直到缓冲区已满或socket中没有更多数据。

3.支持Storm1.2.1,该Storm版本同时支持HDP3.0中其他更新组件包括Hadoop/HDFS3.0, HBase2.0和Hive3。

4.捕获producer和topic分区级别的指标,而不需要在客户端配置拦截器。这提供了一种非侵入性的方法来捕获producer的重要指标,而无需重构/修改现有的Kafka客户端。

7.操作型数据库


Apache HBase的新特性。

1.备份和恢复

HBase源生支持备份/恢复,包括全量和增量的备份/恢复支持。这是admin工具包中的一个重要工具,下一个版本将支持DLM,即UI。

2.Procedure V2

你现在可以使用Procedure V2(社区里也叫Proc-v2),这是一个更新的框架,用于在发生故障时执行多步骤的HBase管理操作。引入此功能是使用proc-v2来实现所有master操作,并在未来移除像hbck这种工具。使用proc-v2创建,修改和删除表。新的AssignmentManager等其他系统也会使用proc-v2实现。

3.Fully off-heap read/write path

当通过Put操作将数据写入HBase时,在将数据flush到HFile之前,cell对象不会进入JVM heap。这有助于减少RegionServer的总heap使用量,并且复制更少的数据,从而提高效率。

4.Use of Netty for RPC layer and Async API

将旧的Java NIO RPC服务替换为Netty RPC服务。Netty可以更容易的提供异步的Java客户端API。

5.In-memory compactions (Accordion)

Memstore中数据的定期重组可以减少整体I/O,即从HDFS写入和访问的数据。当我们在内存中保留更长时间的数据时,净性能会提高。

6.更好的依赖管理

HBase现在内部隐藏了通常不兼容的依赖,以防止出现问题。 你也可以使用隐藏的客户端jars,这将减轻现有应用程序的负担。

7.重写Coprocessor和Observer API

对API进行了微小的更改,以消除模糊,误导和危险的调用。

Apache Phoenix的新特性

1.HBase2.0支持

2.Phoenix Query服务的Python驱动

这是引入到Apache Phoenix项目的社区驱动程序。它提供Python db 2.0 API实现。

3.查询日志

这是一个新的系统表“SYSTEM.LOG”,它捕获有关针对集群运行的查询的信息(客户端驱动的)。

4.列编码

这是HDP的新功能。你可以在HBase表中使用自定义数据编码方案来减少占用的空间。由于读取的数据较少,可以增加性能以及减少存储。稀疏表的性能增益为30%及以上。

5.Phoenix的Hive3.0支持

对于新的Hive版本提供新的phoenix-hive StorageHandler(技术预览)。

6.Spark 2.3支持Phoenix

对于新的Spark版本提供新的phoenix-spark驱动

7.支持GRANT和REVOKE命令

如果数据表或视图更改了访问权限,它会自动更改索引ACL。

8.引入对sampling tables的支持。

9.支持atomic update (ON DUPLICATE KEY)。

10.支持基于MR查询的snapshot扫描。

11.加强Local和Global的二级索引。

8.安全和治理

8.1.Apache Ranger

8.1.1.核心策略引擎和审计功能增强


1.可调度策略:策略生效日期,以支持有时间限制的授权策略和临时策略

2.覆盖策略以支持临时资源访问,覆盖特定用户的masking/row filtering

3.Auditor和KMS Auditor角色,支持对服务,策略,用户/组,审核和报告的只读访问。

4.在access audits UI中显示Hive查询。

5.在Ranger Admin UI中审计用户同步操作

6.用于分组和组织策略以及按标签filter/search的策略标签

7.Ranger Admin UI中显示的组中的用户成员身份

8.1.2.生态系统覆盖和增强


1.为Atlas通过细粒度授权实现Metadata安全性。

2.Atlas Tag Sync service性能提升。

3.Hive UDF执行和使用授权。

4.Hive工作负载管理授权。

5.通过Hive Information_schema支持entitlement mapping。

6.HDFS NameNode联邦支持

7.通过Solr 7支持,改进了索引基础架构。

8.Ranger插件兼容HDP3.0其他的组件包括Hive,HDFS,Storm,HBase,Kafka和YARN。

8.1.3.适用于企业


1.能够在Ranger安装期间为管理员帐户指定密码

2.所有受支持的DB flavor的合并db schema脚本

3.在安装HDP3.0时,默认安装Ranger和Atlas。

8.2.Apache Atlas

8.2.1.核心元数据功能


1.新的Glossary和Business Catalog

使业务用户能够捕获自然业务术语并提供业务词汇管理(术语分类,业务术语 – 资产关联,语义术语关系,层次结构)

2.Classification (tag)Propagation

通过对传播进行细粒度控制的分类(标签)传播到相关或衍生资产,改进监管链

3.Metadata Security

对data catalog中元数据的细粒度授权(对元数据操作的特定标签授权,数据资产/类型/管理操作授权,如元数据导入/导出)

4.有时间限制的分类或业务目录映射

8.2.2.生态系统覆盖和增强


1.新的Spark Hook(技术预览),用于在Atlas中捕获Spark SQL,Dataframe和模型元数据以及数据溯源。

2.新的HBase hook以捕获元数据和数据溯源。

3.通过Solr 7支持,改进了索引基础架构。

4.使用JanusGraph DB提供Tinkerpop 3标准兼容性的图形后端,提升可扩展性以及性能。

5.更新了用于HDP3.0生态系统兼容性的Atlas Hook(Hive,Storm / Kafka,Sqoop)

6.使用新的v2样式通知改进了元数据加载性能

7.通过大规模的DSL重构提高搜索性能。

9.AMBARI 2.7 & SMARTSENSE 1.5.0

9.1.Ambari2.7


1.可用性

新的Ambari UI改动很大,更易于大规模导航,使用和执行。

2.管理性和扩展性

Ambari 2.7支持最多管理5000个节点的集群。

3.简化安全配置

单点登录是安全性和与数据平面服务(DPS)集成的必要条件,因此我们简化了DPS服务的SSO设置。FreeIPA是一种广受欢迎的IDM工具,我们现在正式支持在启用Kerberos时与FreeIPA集成。

4.自动化

Ambari拥有强大的API,我们新的REST API资源管理器可帮助团队发现并理解它所提供的一切。

5.可扩展性

与EMC紧密合作,以改善Ambari和HDP与Isilon OneFS的集成。现在,你可以轻松配置集群使用OneFS。

6.Papercuts

新功能非常棒,主要帮助你的Ambari的日常生活。

9.2.SmartSense1.5.0


1.诊断捕获

SmartSense现在可以捕获NiFi Registry,Schema Registry,Streaming Analytics Manager,Ambari Infra和Data Analytics Studio诊断信息。

2.活动分析

对于使用新的HDFS联邦功能的用户,每个namespace都可以使用活动数据。常用的过滤器也已全局化,以简化过滤和数据探索,现在可以看到LLAP查询。此外,还添加了三个新的活动资源管理器仪表板:作业比较,用户摘要和工作负载趋势。

3.Ambari视图

SmartSense视图包含对捕获内容的完整描述,以增强透明度并简化与安全团队的交流。

原文地址:

https://zh.hortonworks.com/blog/announcing-general-availability-hortonworks-data-platform-3-0-0-ambari-2-7-0-smartsense-1-5-0/

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注