商品

图书

😍忍不住斯哈斯哈！美食届顶流组团登场

北鼎电器限时满立减！

🍵春日茶事，喝茶正当时

泰好吃噜😋超脆脆脆脆贡菜

超市价享受意大利沙龙级：My Organics！

防晒界扛把子—蕉下上新！

🔥Fiboo蛋白棒出新品了！减脂党进！

ubras夏日穿搭新品5折起

简体中文

English 简体中文繁體中文 한국어 日本語

{{sellerTotalView > 1 ? __("sellers", {number: sellerTotalView}) : __("seller", {number: sellerTotalView}) }}, {{numTotalView > 1 ? __("items", {number: numTotalView}) : __("item", {number: numTotalView}) }}

去购物车结算

Nickname

请告诉我们怎么更好地称呼你

更新你的名字

xxxxxxx@yamibuy.com

账户订单收藏

积分 0

优惠券 0

礼品卡余额 $0.00

退出登录

切换配送区域

不同区域的库存和配送时效可能存在差异.

历史邮编

我们将在商品到货后第一时间通知你。

商品到货后将发送通知至： {{remindEmail}}

取消

京东图书

Spark核心源码分析与开发实战

去购物车结算

{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}

图书计算机与互联网编程语言与程序设计

京东图书

Spark核心源码分析与开发实战

Name: Spark核心源码分析与开发实战
Brand: 京东图书
SKU: 3118023511
Price: 50.36 USD
Availability: OutOfStock

{{__(":people-members", {'people': item.limit_people_count})}} {{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ item.invalid_price }} {{ itemDiscount }}

后结束

{{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }}

{{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }} {{ itemCurrency }}{{ item.invalid_price }} {{itemDiscount}}

后结束促销

后开始秒杀后结束秒杀

{{ __( "Pay with Gift Card to get sale price: :itemCurrency:price", { 'itemCurrency' : itemCurrency, 'price' : (item.giftcard_price ? priceFormat(item.giftcard_price) : '0.00') } ) }} ({{ itemCurrency }}{{ priceFormat(item.giftcard_price / item.bundle_specification) }}/{{ item.unit }}) 详情

商品有效期

已下架

当前地址无法配送

已售完

商品描述

展开全部描述

编辑推荐

大数据培训名师、Spark大数据畅销书《大数据Spark企业级实战》作者王家林新作。

内容全面覆盖Spark技术及其生态系统，通过源码分析详解Spark四大子框架。

秉承“实战”类图书特点，解析大量代码的编写操作，具有较强的可操作性，便于读者学习和理解。

内容简介

本书是一本全面介绍Spark以及Spark生态系统相关技术的书籍。主要内容包括Spark系统概述、Spark安装和集群的部署、RDD的编程实践、Spark的运行模式、Spark的运行机制以及Spark的四大子框架（Spark SQL、Spark Streaming、Spark GraphX、MLlib）的详细讲解。本书通过理论和实践相结合的方式对Spark的核心框架和生态圈做了详细的解读，不仅对Spark的原理进行详细阐述，还结合Spark的源码和案例操作展示了Spark框架的所具有的优雅和丰富的表现力。

本书适合大数据从业者、Spark技术爱好者阅读。相信通过学习本书，读者能够熟悉和掌握Spark这一当前流行的大数据计算框架，并将其投入到实践中去。

第1章Spark系统概述

1.1Spark是什么

1.2Spark生态系统BDAS

1.2.1Spark Core

1.2.2Spark SQL

1.2.3Spark Streaming

1.2.4Spark GraphX

1.2.5MLlib

1.2.6Tachyon

1.2.7BlinkDB

思考题

第2章Spark安装和集群部署

2.1搭建Hadoop分布式集群

2.1.1安装VMware虚拟机

2.1.2安装Ubuntu的镜像文件

2.1.3安装JDK

2.1.4搭建另外两台Ubuntu系统并配置SSH免密码登录

2.1.5安装Hadoop和搭建Hadoop分布式集群

2.2Spark安装和集群部署

2.2.1安装Scala

2.2.2安装Spark和集群部署

2.3测试Spark集群

2.3.1通过Spark提供的示例LocalPi测试Spark集群

2.3.2通过Spark Shell测试Spark集群

思考题

第3章Spark RDD与Spark API编程实践

3.1RDD介绍

3.1.1RDD是Spark的核心抽象

3.1.2RDD的特征

3.2RDD的操作分类

3.2.1输入操作

3.2.2转换操作

3.2.3行动操作

3.2.4控制操作

3.3Spark Shell下的Spark API编程实践

3.3.1Local模式下实践map、filter和collect方法

3.3.2集群模式下实践textFile、sortByKey和 saveAstextFile方法

3.3.3集群模式下实践union、join、reduce和lookup方法

3.3.4搜狗日志数据分析实践

3.4基于IntelliJ IDEA使用Spark API开发应用程序

3.4.1搭建和设置IntelliJ IDEA开发环境

3.4.2在IntelliJ IDEA下开发并部署Spark应用程序

3.4.3使用SBT编译Spark应用程序

3.4.4使用Maven构建Spark应用程序

3.4.5Spark工具

思考题

第4章Spark的运行模式

4.1Spark的运行模式概览

4.1.1Spark的基本工作流程

4.1.2Spark应用程序部署

4.2Local模式

4.2.1Local模式实例部署及运行演示

4.2.2Local模式内部实现原理

4.3Standalone模式

4.3.1Standalone模式实例部署及运行演示

4.3.2Standalone模式内部实现原理

4.4Yarn-Cluster模式

4.4.1Yarn-Cluster模式实例部署及运行演示

4.4.2Yarn-Cluster模式内部实现原理

4.5Yarn-Client模式

4.5.1Yarn-Client模式实例部署及运行演示

4.5.2Yarn-Client模式内部实现原理

4.6Mesos模式

4.6.1Mesos模式实例部署及运行演示

4.6.2Mesos模式内部实现原理

思考题

第5章Spark的运行机制

5.1Spark集群的架构

5.2Spark的作业和任务调度

5.2.1Spark Application提交

5.2.2作业（Job）提交

5.2.3DAGScheduler划分Stage并提交

5.2.4TaskScheduler提交Task

5.2.5Executor运行Task并返回结果

5.2.6Driver的处理

5.3容错机制

5.3.1Lineage机制

5.3.2Checkpoint机制

5.4Storage存储模块

5.4.1Storage模块整体架构

5.4.2缓存实现原理

5.4.3缓存策略

5.5Spark的消息传递机制Akka

5.5.1Akka架构解析

5.5.2Akka驱动下的start-all.sh源码解析

5.6Shuffle机制

5.6.1Shuffle的原理

5.6.2Shuffle的写操作

5.6.3Shuffle的读操作

5.7共享变量

5.7.1广播变量

5.7.2累加器

5.8Spark性能调优

5.8.1数据序列化

5.8.2内存优化

5.8.3其他优化方法

思考题

第6章Spark SQL

6.1Spark SQL原理和实现

6.1.1Spark SQL简介

6.1.2Spark SQL运行架构

6.1.3Hive在Spark上的使用

6.1.4源码解析SQL语句和HiveQL语句的执行过程

6.2Spark SQL的操作实例

6.2.1文本文件操作以及DSL操作

6.2.2Parquet文件以及JSON文件操作

6.2.3Hive数据操作演示（订单交易数据操作）

6.2.4Spark SQL处理交通数据实战

思考题

第7章Spark Streaming

7.1Spark Streaming运行原理

7.1.1Spark Streaming简介

7.1.2编程模型DStream

7.1.3容错和持久化

7.1.4性能调优

7.1.5监控应用

7.2源码解析Spark Streaming的运行过程

7.2.1StreamingContext初始化并启动

7.2.2数据接收

7.2.3数据处理

7.3Spark Streaming操作实例演示

7.3.1文本数据操作实例演示

7.3.2网络数据操作实例——销售模拟器演示

7.3.3有状态（Stateful）操作实例演示

7.3.4Window操作实例演示

7.3.5SparkStreaming处理多源数据实战

思考题

第8章Spark GraphX

8.1图的定义和应用

8.1.1图的定义

8.1.2图的应用

8.2Spark GraphX简介

8.2.1弹性分布式属性图

8.2.2Spark GraphX图的切分和存储策略

8.2.3Spark GraphX图的操作

8.3Spark GraphX架构

8.3.1Pregel图计算框架

8.3.2Spark GraphX的实现

8.3.3Spark GraphX图算法的实现方法

8.4Spark GraphX图操作实例

8.4.1基于Spark GraphX的属性图的操作实例

8.4.2Spark GraphX图算法操作实例

思考题

第9章MLlib

9.1机器学习简介

9.1.1机器学习的定义

9.1.2机器学习的分类

9.1.3机器学习的常用算法

9.2MLlib的简介

9.2.1什么是MLlib

9.2.2MLlib的架构

9.2.3MLlib的数据类型

9.2.4MLlib的算法

9.3MLlib常用算法操作实践

9.3.1K-Means算法解析和实践

9.3.2协同过滤算法分析和案例实践

思考题

前言/序言

写作背景

2014年IDC预测，未来全球大数据市场将以每年超过30%的速度增长，而我国更快，预计将超过50%。

2014年，麦肯锡统计美国医疗行业通过大数据获得潜在价值超3000亿美元，欧洲各国利用大数据节省开支超1000亿欧元。未来在全球的交通运输、电力、医疗健康等七大领域，大数据将会撬动超过3万亿美元的市场需求。

大数据时代，各种大数据处理技术百花齐放，有基于磁盘进行数据计算的通用批处理框架MapReduce（Hadoop生态系统的大数据计算框架），有低延迟的实时流处理框架Storm，也有提供快速、交互式查询的工具Impala等多种针对不同应用场景而特殊化的处理系统。Spark作为后起之秀，采用Scala编写，底层使用Akka框架进行各个模块之间的通信，代码十分简洁。而且它立足于内存计算，以其RDD(弹性分布式数据集)模型的强大表现能力，不断完善自己的功能，逐渐形成了一套自己的生态系统，提供了Full-stack（一栈式）的解决方案。该生态系统中主要包括负责即时查询的Spark SQL、负责实时流处理的Spark Streaming、负责图计算的Spark GraphX以及机器学习子框架MLlib。由于Spark在性能和扩展性上有快速、易用、通用等特点，使它正在加速成为一体化、多元化的大数据通用计算平台和库。

Spark技术在国内外的应用越来越广泛，它正在逐渐走向成熟，并在这个领域扮演更加重要的角色。国外一些大型互联网公司已经部署了Spark。例如，一直支持Hadoop的四大商业机构（Cloudera、MapR、Hortonworks、EMC）已纷纷宣布支持Spark；Mahout（Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现）也表示，将不再接受任何形式的以MapReduce实现的算法，同时还宣布了接受基于Spark新的算法；而Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark；Google也已经开始将负载从MapReduce转移到Pregel和Dremel上；Facebook 也宣布将负载转移到Presto上。而目前，国内的淘宝、优酷土豆、网易、百度、腾讯等企业在自己的商业生产系统中也已经使用Spark技术。

鉴于Spark的“One stack to rule them all”的架构理念和基于内存进行计算的性能优势，笔者有理由相信Spark作为大数据技术领域的星星之火，终将成为燎原之势。由于目前市场上介绍Spark技术的书籍比较少，我们特意编写了这本理论和实战相结合的Spark书籍，同时在介绍Spark核心技术的同时穿插了对其源代码的分析，使读者能从更深层次来把握Spark的核心技术，因为我们始终坚信Linux作者的一句话：“源码是一切问题出现的根源和一切问题解决的答案所在”。

本书内容

本书总体可以分为三大部分：第1～2章介绍Spark的生态系统、Spark集群的安装部署，第3～5章介绍Spark Core的运行原理和编程实践，第6～9章围绕Spark的四大子框架Spark SQL、Spark Streaming、Spark GraphX、MLlib的工作原理和技术特点展开了一系列的编程实践。在本书推出之前，Spark R已经作为Spark的一个新的子框架发布出来，这无疑更加快了Spark技术的成长速度。本书各章的主要内容介绍如下。

第1章：阐述了Spark的发展历程、Spark的优势和Spark的生态系统全景。

第2章：介绍了Hadoop集群和Spark集群的安装部署过程，在搭建完成Spark集群之后又通过Spark提供的示例LocalPi测试了Spark集群。

第3章：首先详细介绍RDD的概念、特征、操作分类，然后以实战的方式演示了Spark API编程实践，接着介绍了基于IntelliJ IDEA开发工具使用Spark API开发应用程序，最后分别介绍了使用SBT编译Spark应用程序和使用Maven构建Spark应用程序。

第4章：介绍了Spark的工作流程、Spark应用程序部署、Spark的各种运行模式、Spark运行模式的内部实现原理以及各种模式实例部署和运行演示。

第5章：介绍了Spark集群的架构、Spark的作业和任务调度、容错机制、存储模块和存储模块的架构、缓存实现原理、缓存策略、Spark的消息传递机制Akka的源码解析、Shuffle机制(Shuffle的读和写操作)、广播变量、累加器、Spark性能调优。

第6章：介绍了Spark SQL原理和实现、Spark SQL运行架构、Hive在Spark上的使用、源码解析SQL语句和HiveQL语句的执行过程。最后用案例深入浅出地介绍了Spark SQL的操作。

第7章：介绍了Spark Streaming运行原理、编程模型DStream、容错和持久化、性能调优、源码解析Spark Streaming的运行过程。最后用多个案例进行了Spark Streaming操作实例演示。

第8章：介绍了弹性分布式属性图、图的切分和存储策略、图的操作、图计算框架、图算法的实现方法。最后用案例演示了图的使用方法。

第9章：介绍了机器学习的概念、机器学习的分类、机器学习的常用算法、MLlib的架构、MLlib的数据类型。最后用案例介绍了机器学习的使用，包括K-Means算法解析和实战、协同过滤算法分析和案例实战。

致谢

在本书编写的过程中，作者参考了很多网络上的书籍和博客，在此谢谢各位作者，正是你们的无私奉献，才推动了Spark技术的快速发展。

感谢中国科学院深圳先进技术研究院的范小朋博士提供了自己在Spark研究过程中编写的关于Spark SQL的交通数据处理案例和Spark Streaming的流式数据处理案例。由于笔者能力有限，书中难免存在错误或表述不准确的内容，恳请大家批评指正，希望大家一起努力使Spark技术在大数据计算领域里推广开来。

规格参数

品牌

京东图书

品牌属地

中国

ISBN

9787111528609

著者

王家林，王雁军，王家虎

出版社

机械工业出版社

印刷时间

2016-04-01

用纸

胶版纸

包装

平装

出版时间

2016-04-01

页数

432

版次

免责声明

产品价格、包装、规格等信息如有调整，恕不另行通知。我们尽量做到及时更新产品信息，但请以收到实物为准。使用产品前，请始终阅读产品随附的标签、警告及说明。

查看详情

扫码分享

加入收藏

{{ $isZh ? coupon.coupon_name_sub : coupon.coupon_ename_sub | formatCurrency }}

详情

数量

{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}

由京东图书销售

送至

满$69免运费

正品保证

查看详情

地区

已加入购物车

继续逛逛

为你推荐

优惠券

领取已领取已领完

即将过期： {{ formatTime(coupon.use_end_time) }}

分享给好友

取消

亚米礼卡专享价

使用礼卡支付即可获得礼卡专享价

规则说明

礼卡专享价是部分商品拥有的特殊优惠价格；

购买礼卡专享价商品时，若在结算时使用电子礼卡抵扣支付，且礼卡余额足够支付订单中所有礼卡专享价商品的专享价总和，则可以启用礼卡专享价；

不使用礼卡支付，或礼卡余额不满足上一条所述要求时，将无法启用礼卡专享价，按照普通售价计算，但您仍然可以购买这些商品；

在购买礼卡专享价商品时，若余额不足，可以在购物车或结算页中点击“充值”按钮对礼卡进行购买和充值；

商品若拥有礼卡专享价，会显示“专享”的特殊价格标记；

如有疑问，请随时联系客服；

礼卡专享价相关规则最终解释权归亚米所有。

由亚米销售

服务保障

满$49免运费

无忧退换

从美国发货

配送信息

美国

标准配送 $5.99（不包含阿拉斯加，夏威夷），最终价满$49免运费

本地配送$5.99(加州，纽约州，新泽西，麻省和宾夕法尼亚，以上州部分地区);最终价满$49免运费

两日达（包含阿拉斯加夏威夷）运费$19.99起

退换政策

亚米网希望为我们的客户提供最优秀的售后服务，让所有人都能放心在亚米购物。亚米自营商品在满足退换货条件的情况下，可在收到包裹的30天之内退换商品（食品因商品质量问题7天内可退换；为了确保每位客户都能获得安全和高质量的商品，对于美妆类产品，一经开封或使用即不提供退款或退货服务，质量问题除外；其他特殊商品需联系客服咨询）。
感谢您的理解和支持。

查看详情

由亚米销售

亚米电子礼品卡使用规则

若购买时选择自动充值，订单完成后礼卡将自动充值到您的账户中；

若购买时选择发送邮件，订单完成后系统将自动发送卡号和密码到您填写的邮箱；

发送邮件时，任何用户均可使用邮件中的卡号密码进行礼卡充值，请妥善保管邮件信息。

如接收邮件遇到问题，请联系客服处理；

发送邮件时，若礼卡没有被兑换，可以补发邮件。若已经被其他用户兑换，则无法补偿；

亚米网电子礼卡可用于购买自营或第三方商品；

亚米网电子礼卡没有有效期限制，长期有效；

亚米网电子礼卡的金额，可分多次使用；

亚米网电子礼卡业务规则，最终解释权归亚米网所有。

退换政策

已消费的电子礼卡不支持退款。

由京东图书销售

亚米发货

服务保障

满$49免运费

最优售后

美国本土发货

配送信息

美国

标准配送 $5.99（不包含阿拉斯加，夏威夷），最终价满$49免运费

本地配送$5.99(加州，纽约州，新泽西，麻省和宾夕法尼亚，以上州部分地区);最终价满$49免运费

两日达（包含阿拉斯加夏威夷）运费$19.99起

退换政策

提供30天内退还保障。产品需全新未使用原包装内，并附有购买凭据。产品质量问题、或错发漏发等,由商家造成的失误，将进行补发,或退款处理。其它原因需退货费用由客户自行承担。

由京东图书销售

亚米中国集运仓

服务保障

跨店满$69免运费

30天退换保障

亚米-中国集运仓

由亚米从中国精选并集合各大优秀店铺的商品至亚米中国整合中心，合并包裹后将一次合包跨国邮寄至您的地址。跨店铺包邮门槛低至$69。您将在多商家集合提供的广泛选品中选购商品，轻松享受跨店铺包邮后的低邮费。

退换政策

提供30天内退换保障。产品需在全新未使用的原包装内，并附有购买凭据。产品质量问题、错发、或漏发等由商家造成的失误，将进行退款处理。其它原因造成的退换货邮费客户将需要自行承担。由于所有商品均长途跋涉，偶有简易外包压磨等但不涉及内部质量问题者，不予退换。

配送信息

亚米中国集运 Consolidated Shipping 运费$9.99（订单满$69 包邮）

下单后2个工作日中国商家发货，所有包裹抵达亚米中国整合中心（除特别情况及中国境内个别法定节假日外）会合并包裹后通过UPS发往美国。UPS从中国发货后到美国境内的平均时间为10个工作日左右，根据直发单号可随时跟踪查询。受疫情影响，目前物流可能延迟5天左右。包裹需要客人签收。如未签收，客人须承担包裹丢失风险。

由京东图书销售

服务保障

满$69免运费

正品保证

配送信息

Yami Consolidated Shipping 运费$9.99（订单满$69包邮）

下单后1-2个工作日内发货。物流时效预计7-15个工作日。如遇清关，交货时间将延长3-7天。最终收货日期以邮政公司信息为准。

积分规则

不参加任何折扣活动以及亚米会员积分制度。

退换政策

转盘抽奖

下载亚米应用

意见反馈

返回顶部

评论{{'('+ commentList.posts_count + ')'}}

分享你的感受，帮助更多用户做出选择。

写评论

{{i}}星

{{i}}星

{{ parseInt(commentRatingList[i]) }}%

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ formatTime(comment.in_dtm) }} 已购买 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ formatTime(comment.in_dtm) }} 已购买 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}

暂无符合条件的评论

更多评论

评论详情

{{ showTranslate(commentDetails) }}收起

{{ strLimit(commentDetails,800) }}查看全部

Show Original

{{ formatTime(commentDetails.in_dtm) }} 已购买 {{groupData}}

请输入内容

回复{{'(' + replyList.length + ')'}}

{{ reply.reply_user_name }}回复{{ reply.parent_user_name }}

{{ showTranslate(reply) }}收起

{{ strLimit(reply,800) }}查看全部

Show Original

请输入内容

取消

End

发表评论

商品评分

请输入评论

一个好的昵称，会让你的评论更受欢迎！
修改了这里的昵称，个人资料中的昵称也将被修改。

感谢你的评论

你的好评可以帮助我们的社区发现更好的亚洲商品。