亞太傳統月

防曬

養生指南

薯片

拉麵

電飯煲

登入/註冊

繁體中文

English 简体中文繁體中文 한국어 日本語

{{sellerTotalView > 1 ? __("sellers", {number: sellerTotalView}) : __("seller", {number: sellerTotalView}) }}, {{numTotalView > 1 ? __("items", {number: numTotalView}) : __("item", {number: numTotalView}) }}

去購物車結算

Nickname

請告訴我們怎麼更好地稱呼你

更新你的名字

xxxxxxx@yamibuy.com

賬戶訂單收藏

積分 0

優惠券 0

禮品卡餘額 $0.00

退出登入

切換配送區域

不同區域的庫存和配送時效可能存在差異。

歷史郵編

我們將在商品到貨後第一時間通知你。

商品到貨後將發送通知至： {{remindEmail}}

取消

京東圖書

Spark核心源码分析与开发实战

去購物車結算

{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}

圖書電腦與網際網路程式語言與程式設計

京東圖書

Spark核心源码分析与开发实战

Name: Spark核心源码分析与开发实战
Brand: 京東圖書
SKU: 3118023511
Price: 50.36 USD
Availability: OutOfStock

{{__(":people-members", {'people': item.limit_people_count})}} {{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ item.invalid_price }} {{ itemDiscount }}

後結束

{{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }}

{{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }} {{ itemCurrency }}{{ item.invalid_price }} {{itemDiscount}}

後結束促銷

後開始秒殺後結束秒殺

{{ __( "Pay with Gift Card to get sale price: :itemCurrency:price", { 'itemCurrency' : itemCurrency, 'price' : (item.giftcard_price ? priceFormat(item.giftcard_price) : '0.00') } ) }} ({{ itemCurrency }}{{ priceFormat(item.giftcard_price / item.bundle_specification) }}/{{ item.unit }}) 詳情

商品有效期

已下架

我們不知道該商品何時或是否會重新有庫存。

當前地址無法配送

已售完

商品描述

展開全部描述

Editer Recommend

大数据培训名师、Spark大数据畅销书《大数据Spark企业级实战》作者王家林新作。

内容全面覆盖Spark技术及其生态系统，通过源码分析详解Spark四大子框架。

秉承“实战”类图书特点，解析大量代码的编写操作，具有较强的可操作性，便于读者学习和理解。

Content Description

本书是一本全面介绍Spark以及Spark生态系统相关技术的书籍。主要内容包括Spark系统概述、Spark安装和集群的部署、RDD的编程实践、Spark的运行模式、Spark的运行机制以及Spark的四大子框架（Spark SQL、Spark Streaming、Spark GraphX、MLlib）的详细讲解。本书通过理论和实践相结合的方式对Spark的核心框架和生态圈做了详细的解读，不仅对Spark的原理进行详细阐述，还结合Spark的源码和案例操作展示了Spark框架的所具有的优雅和丰富的表现力。

本书适合大数据从业者、Spark技术爱好者阅读。相信通过学习本书，读者能够熟悉和掌握Spark这一当前流行的大数据计算框架，并将其投入到实践中去。

Catalogue

第1章Spark系统概述

1.1Spark是什么

1.2Spark生态系统BDAS

1.2.1Spark Core

1.2.2Spark SQL

1.2.3Spark Streaming

1.2.4Spark GraphX

1.2.5MLlib

1.2.6Tachyon

1.2.7BlinkDB

思考题

第2章Spark安装和集群部署

2.1搭建Hadoop分布式集群

2.1.1安装VMware虚拟机

2.1.2安装Ubuntu的镜像文件

2.1.3安装JDK

2.1.4搭建另外两台Ubuntu系统并配置SSH免密码登录

2.1.5安装Hadoop和搭建Hadoop分布式集群

2.2Spark安装和集群部署

2.2.1安装Scala

2.2.2安装Spark和集群部署

2.3测试Spark集群

2.3.1通过Spark提供的示例LocalPi测试Spark集群

2.3.2通过Spark Shell测试Spark集群

思考题

第3章Spark RDD与Spark API编程实践

3.1RDD介绍

3.1.1RDD是Spark的核心抽象

3.1.2RDD的特征

3.2RDD的操作分类

3.2.1输入操作

3.2.2转换操作

3.2.3行动操作

3.2.4控制操作

3.3Spark Shell下的Spark API编程实践

3.3.1Local模式下实践map、filter和collect方法

3.3.2集群模式下实践textFile、sortByKey和 saveAstextFile方法

3.3.3集群模式下实践union、join、reduce和lookup方法

3.3.4搜狗日志数据分析实践

3.4基于IntelliJ IDEA使用Spark API开发应用程序

3.4.1搭建和设置IntelliJ IDEA开发环境

3.4.2在IntelliJ IDEA下开发并部署Spark应用程序

3.4.3使用SBT编译Spark应用程序

3.4.4使用Maven构建Spark应用程序

3.4.5Spark工具

思考题

第4章Spark的运行模式

4.1Spark的运行模式概览

4.1.1Spark的基本工作流程

4.1.2Spark应用程序部署

4.2Local模式

4.2.1Local模式实例部署及运行演示

4.2.2Local模式内部实现原理

4.3Standalone模式

4.3.1Standalone模式实例部署及运行演示

4.3.2Standalone模式内部实现原理

4.4Yarn-Cluster模式

4.4.1Yarn-Cluster模式实例部署及运行演示

4.4.2Yarn-Cluster模式内部实现原理

4.5Yarn-Client模式

4.5.1Yarn-Client模式实例部署及运行演示

4.5.2Yarn-Client模式内部实现原理

4.6Mesos模式

4.6.1Mesos模式实例部署及运行演示

4.6.2Mesos模式内部实现原理

思考题

第5章Spark的运行机制

5.1Spark集群的架构

5.2Spark的作业和任务调度

5.2.1Spark Application提交

5.2.2作业（Job）提交

5.2.3DAGScheduler划分Stage并提交

5.2.4TaskScheduler提交Task

5.2.5Executor运行Task并返回结果

5.2.6Driver的处理

5.3容错机制

5.3.1Lineage机制

5.3.2Checkpoint机制

5.4Storage存储模块

5.4.1Storage模块整体架构

5.4.2缓存实现原理

5.4.3缓存策略

5.5Spark的消息传递机制Akka

5.5.1Akka架构解析

5.5.2Akka驱动下的start-all.sh源码解析

5.6Shuffle机制

5.6.1Shuffle的原理

5.6.2Shuffle的写操作

5.6.3Shuffle的读操作

5.7共享变量

5.7.1广播变量

5.7.2累加器

5.8Spark性能调优

5.8.1数据序列化

5.8.2内存优化

5.8.3其他优化方法

思考题

第6章Spark SQL

6.1Spark SQL原理和实现

6.1.1Spark SQL简介

6.1.2Spark SQL运行架构

6.1.3Hive在Spark上的使用

6.1.4源码解析SQL语句和HiveQL语句的执行过程

6.2Spark SQL的操作实例

6.2.1文本文件操作以及DSL操作

6.2.2Parquet文件以及JSON文件操作

6.2.3Hive数据操作演示（订单交易数据操作）

6.2.4Spark SQL处理交通数据实战

思考题

第7章Spark Streaming

7.1Spark Streaming运行原理

7.1.1Spark Streaming简介

7.1.2编程模型DStream

7.1.3容错和持久化

7.1.4性能调优

7.1.5监控应用

7.2源码解析Spark Streaming的运行过程

7.2.1StreamingContext初始化并启动

7.2.2数据接收

7.2.3数据处理

7.3Spark Streaming操作实例演示

7.3.1文本数据操作实例演示

7.3.2网络数据操作实例——销售模拟器演示

7.3.3有状态（Stateful）操作实例演示

7.3.4Window操作实例演示

7.3.5SparkStreaming处理多源数据实战

思考题

第8章Spark GraphX

8.1图的定义和应用

8.1.1图的定义

8.1.2图的应用

8.2Spark GraphX简介

8.2.1弹性分布式属性图

8.2.2Spark GraphX图的切分和存储策略

8.2.3Spark GraphX图的操作

8.3Spark GraphX架构

8.3.1Pregel图计算框架

8.3.2Spark GraphX的实现

8.3.3Spark GraphX图算法的实现方法

8.4Spark GraphX图操作实例

8.4.1基于Spark GraphX的属性图的操作实例

8.4.2Spark GraphX图算法操作实例

思考题

第9章MLlib

9.1机器学习简介

9.1.1机器学习的定义

9.1.2机器学习的分类

9.1.3机器学习的常用算法

9.2MLlib的简介

9.2.1什么是MLlib

9.2.2MLlib的架构

9.2.3MLlib的数据类型

9.2.4MLlib的算法

9.3MLlib常用算法操作实践

9.3.1K-Means算法解析和实践

9.3.2协同过滤算法分析和案例实践

思考题

Introduction

写作背景

2014年IDC预测，未来全球大数据市场将以每年超过30%的速度增长，而我国更快，预计将超过50%。

2014年，麦肯锡统计美国医疗行业通过大数据获得潜在价值超3000亿美元，欧洲各国利用大数据节省开支超1000亿欧元。未来在全球的交通运输、电力、医疗健康等七大领域，大数据将会撬动超过3万亿美元的市场需求。

大数据时代，各种大数据处理技术百花齐放，有基于磁盘进行数据计算的通用批处理框架MapReduce（Hadoop生态系统的大数据计算框架），有低延迟的实时流处理框架Storm，也有提供快速、交互式查询的工具Impala等多种针对不同应用场景而特殊化的处理系统。Spark作为后起之秀，采用Scala编写，底层使用Akka框架进行各个模块之间的通信，代码十分简洁。而且它立足于内存计算，以其RDD(弹性分布式数据集)模型的强大表现能力，不断完善自己的功能，逐渐形成了一套自己的生态系统，提供了Full-stack（一栈式）的解决方案。该生态系统中主要包括负责即时查询的Spark SQL、负责实时流处理的Spark Streaming、负责图计算的Spark GraphX以及机器学习子框架MLlib。由于Spark在性能和扩展性上有快速、易用、通用等特点，使它正在加速成为一体化、多元化的大数据通用计算平台和库。

Spark技术在国内外的应用越来越广泛，它正在逐渐走向成熟，并在这个领域扮演更加重要的角色。国外一些大型互联网公司已经部署了Spark。例如，一直支持Hadoop的四大商业机构（Cloudera、MapR、Hortonworks、EMC）已纷纷宣布支持Spark；Mahout（Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现）也表示，将不再接受任何形式的以MapReduce实现的算法，同时还宣布了接受基于Spark新的算法；而Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark；Google也已经开始将负载从MapReduce转移到Pregel和Dremel上；Facebook 也宣布将负载转移到Presto上。而目前，国内的淘宝、优酷土豆、网易、百度、腾讯等企业在自己的商业生产系统中也已经使用Spark技术。

鉴于Spark的“One stack to rule them all”的架构理念和基于内存进行计算的性能优势，笔者有理由相信Spark作为大数据技术领域的星星之火，终将成为燎原之势。由于目前市场上介绍Spark技术的书籍比较少，我们特意编写了这本理论和实战相结合的Spark书籍，同时在介绍Spark核心技术的同时穿插了对其源代码的分析，使读者能从更深层次来把握Spark的核心技术，因为我们始终坚信Linux作者的一句话：“源码是一切问题出现的根源和一切问题解决的答案所在”。

本书内容

本书总体可以分为三大部分：第1～2章介绍Spark的生态系统、Spark集群的安装部署，第3～5章介绍Spark Core的运行原理和编程实践，第6～9章围绕Spark的四大子框架Spark SQL、Spark Streaming、Spark GraphX、MLlib的工作原理和技术特点展开了一系列的编程实践。在本书推出之前，Spark R已经作为Spark的一个新的子框架发布出来，这无疑更加快了Spark技术的成长速度。本书各章的主要内容介绍如下。

第1章：阐述了Spark的发展历程、Spark的优势和Spark的生态系统全景。

第2章：介绍了Hadoop集群和Spark集群的安装部署过程，在搭建完成Spark集群之后又通过Spark提供的示例LocalPi测试了Spark集群。

第3章：首先详细介绍RDD的概念、特征、操作分类，然后以实战的方式演示了Spark API编程实践，接着介绍了基于IntelliJ IDEA开发工具使用Spark API开发应用程序，最后分别介绍了使用SBT编译Spark应用程序和使用Maven构建Spark应用程序。

第4章：介绍了Spark的工作流程、Spark应用程序部署、Spark的各种运行模式、Spark运行模式的内部实现原理以及各种模式实例部署和运行演示。

第5章：介绍了Spark集群的架构、Spark的作业和任务调度、容错机制、存储模块和存储模块的架构、缓存实现原理、缓存策略、Spark的消息传递机制Akka的源码解析、Shuffle机制(Shuffle的读和写操作)、广播变量、累加器、Spark性能调优。

第6章：介绍了Spark SQL原理和实现、Spark SQL运行架构、Hive在Spark上的使用、源码解析SQL语句和HiveQL语句的执行过程。最后用案例深入浅出地介绍了Spark SQL的操作。

第7章：介绍了Spark Streaming运行原理、编程模型DStream、容错和持久化、性能调优、源码解析Spark Streaming的运行过程。最后用多个案例进行了Spark Streaming操作实例演示。

第8章：介绍了弹性分布式属性图、图的切分和存储策略、图的操作、图计算框架、图算法的实现方法。最后用案例演示了图的使用方法。

第9章：介绍了机器学习的概念、机器学习的分类、机器学习的常用算法、MLlib的架构、MLlib的数据类型。最后用案例介绍了机器学习的使用，包括K-Means算法解析和实战、协同过滤算法分析和案例实战。

致谢

在本书编写的过程中，作者参考了很多网络上的书籍和博客，在此谢谢各位作者，正是你们的无私奉献，才推动了Spark技术的快速发展。

感谢中国科学院深圳先进技术研究院的范小朋博士提供了自己在Spark研究过程中编写的关于Spark SQL的交通数据处理案例和Spark Streaming的流式数据处理案例。由于笔者能力有限，书中难免存在错误或表述不准确的内容，恳请大家批评指正，希望大家一起努力使Spark技术在大数据计算领域里推广开来。

規格參數

品牌

京東圖書

品牌屬地

China

免責聲明

產品價格、包裝、規格等資訊如有調整，恕不另行通知。我們盡量做到及時更新產品資訊，但請以收到實物為準。使用產品前，請始終閱讀產品隨附的標籤、警告及說明。

查看詳情

加入收藏

{{ $isZh ? coupon.coupon_name_sub : coupon.coupon_ename_sub | formatCurrency }}

詳情

數量

{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}

由 JD@CHINA 銷售

送至

滿69免運費

正品保證

查看詳情

地區

已加入購物車

繼續逛逛

為你推薦

優惠券

領取已領取已領完

即將過期： {{ formatTime(coupon.use_end_time) }}

分享給好友

取消

亞米禮卡專享價

使用禮卡支付即可獲得禮卡專享價

規則說明

禮卡專享價是部分商品擁有的特殊優惠價格；

購買禮卡專享價商品時，若在結算時使用電子禮卡抵扣支付，且禮卡餘額足夠支付訂單中所有禮卡專享價商品的專享價總和，則可以啟用禮卡專享價；

不使用禮卡支付，或禮卡餘額不滿足上一條所述要求時，將無法啟用禮卡專享價，按照普通售價計算，但您仍然可以購買這些商品；

在購買禮卡專享價商品時，若餘額不足，可以在購物車或結算頁中點擊“充值”按鈕對禮卡進行購買和充值；

商品若擁有禮卡專享價，會顯示“專享”的特殊價格標記；

如有疑問，請隨時聯繫客服；

禮卡專享價相關規則最終解釋權歸亞米所有。

由亞米銷售

服務保障

滿$49免運費

無憂退換

從美國出貨

配送資訊

美國

標準配送 $5.99（不含阿拉斯加，夏威夷），最終價滿$49免運費

本地配送$5.99(加州，紐約州，新澤西，麻省和賓夕法尼亞，以上州部分地區);最終價滿$49免運費

兩日達（含阿拉斯加夏威夷）運費19.99美元起

退換政策

亞米網希望為我們的客戶提供最優秀的售後服務，讓所有人都能放心在亞米購物。亞米自營商品在滿足退換貨條件的情況下，可在收到包裹的30天之內退換商品（食品因商品質量問題7天內可退換；為了確保每位客戶都能獲得安全和高質量的商品，對於美妝類產品，一經開封或使用即不提供退款或退貨服務，質量問題除外；其他特殊商品需聯繫客服諮詢）。
感謝您的理解和支持。

查看詳情

由亞米銷售

亞米電子禮品卡使用規則

若購買時選擇自動儲值，訂單完成後禮品卡將自動儲值至您的帳戶；

若購買時選擇發送郵件，訂單完成後系統將自動發送卡號和密碼到您填寫的郵箱；

寄送郵件時，任何使用者均可使用郵件中的卡號密碼進行禮卡儲值，請妥善保管郵件資訊。

如接收郵件遇到問題，請聯絡客服處理；

發送郵件時，若禮卡沒有被兌換，可以補發郵件。若已經被其他用戶兌換，無法補償；

亞米網電子禮卡可用於購買自營或第三方商品；

亞米網電子禮卡沒有有效期限限制，長期有效；

亞米網電子禮卡的金額，可分多次使用；

亞米網電子禮卡業務規則，最終解釋權歸亞米網所有。

退換政策

已消費的電子禮卡不支持退款。

由 JD@CHINA 銷售

亞米發貨

服務保障

滿$49免運費

最優售後

美國本土出貨

配送資訊

美國

標準配送 $5.99（不含阿拉斯加，夏威夷），最終價滿$49免運費

本地配送$5.99(加州，紐約州，新澤西，麻省和賓夕法尼亞，以上州部分地區);最終價滿$49免運費

兩日達（含阿拉斯加夏威夷）運費19.99美元起

退換政策

提供30天內退還保障。產品需全新未使用原包裝內，並附有購買憑證。產品品質問題、或錯發漏發等,由商家造成的失誤，將進行補發,或退款處理。其它原因需退貨費用由客戶自行承擔。

由 JD@CHINA 銷售

Yami-China FC

服務保障

跨店滿$69免運費

30天退換保障

亞米-中國集運倉

由亞米從中國精選並集合各大優秀店舖的商品至亞米中國整合中心，合併包裹後將一次合包跨國郵寄至您的地址。跨店包郵門檻低至$69。您將在多商家集合提供的廣泛選購商品中選購商品，輕鬆享有跨店鋪包郵後的低郵資。

退換政策

提供30天內退換保障。產品需在全新未使用的原包裝內，並附有購買憑證。產品品質問題、錯發、或漏發等商家造成的失誤，將進行退款處理。其它原因造成的退換貨郵費客戶將需要自行承擔。由於所有商品均長途跋涉，偶有簡易外包壓磨等但不涉及內部品質問題者，不予退換。

配送資訊

亞米中國集運 Consolidated Shipping 運費$9.99（訂單滿$69 包郵）

下單後2個工作天中國商家出貨，所有包裹抵達亞米中國整合中心（除特別情況及中國境內個別法定假日外）會合併包裹後透過UPS發往美國。 UPS從中國出貨後到美國境內的平均時間為10個工作天左右，可隨時根據直發單號追蹤查詢。受疫情影響，目前物流可能延遲5天左右。包裹需要客人簽收。如未簽收，客人須承擔包裹遺失風險。

由 JD@CHINA 銷售

服務保障

滿69免運費

正品保證

配送資訊

Yami Consolidated Shipping 運費$9.99（訂單滿$69包郵）

Seller will ship the orders within 1-2 business days. The logistics time limit is expected to be 7-15 working days. In case of customs clearance, the delivery time will be extended by 3-7 days. The final receipt date is subject to the information of the postal company.

積分規則

不參加任何折扣活動以及亞米會員積分制度。

退換政策

下載亞米應用

意見反饋

返回頂部

評論{{'('+ commentList.posts_count + ')'}}

分享您的感受，幫助更多用戶做出選擇。

撰寫評論

{{i}}星

{{i}} 星

{{ parseInt(commentRatingList[i]) }}%

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ formatTime(comment.in_dtm) }} 已購買 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ formatTime(comment.in_dtm) }} 已購買 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}

暫無符合條件的評論~

更多評論

評論詳情

{{ showTranslate(commentDetails) }}收起

{{ strLimit(commentDetails,800) }}查看全部

Show Original

{{ formatTime(commentDetails.in_dtm) }} 已購買 {{groupData}}

請輸入內容

回覆{{'(' + replyList.length + ')'}}

{{ reply.reply_user_name }}回覆{{ reply.parent_user_name }}

{{ showTranslate(reply) }}收起

{{ strLimit(reply,800) }}查看全部

Show Original

請輸入內容

取消

這是到目前為止的所有評論！

發表評論

商品評分

請輸入評論

一個好的暱稱，會讓你的評論更受歡迎！
修改了這裡的暱稱，個人資料中的暱稱也將被修改。

感謝你的評論

你的好評可以幫助我們的社區發現更好的亞洲商品。