{{sellerTotalView > 1 ? __("sellers", {number: sellerTotalView}) : __("seller", {number: sellerTotalView}) }}, {{numTotalView > 1 ? __("items", {number: numTotalView}) : __("item", {number: numTotalView}) }}
免運費
Yami

Nickname

請告訴我們怎麼更好地稱呼你

更新你的名字
賬戶 訂單 收藏
{{ inviteNavTitle }}
退出登入

切換配送區域

不同區域的庫存和配送時效可能存在差異。

歷史郵編

{{email ? __('Got it!') : __('Restock Alert')}}

我們將在商品到貨後第一時間通知你。

取消
Yami

京東圖書

Spark MLlib机器学习:算法、源码及实战详解

{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}

Spark MLlib机器学习:算法、源码及实战详解

{{__(":people-members", {'people': item.limit_people_count})}} {{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ item.invalid_price }} {{ itemDiscount }}
後結束
{{ itemCurrency }}{{ item.valid_price }}
{{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }}
{{ itemDiscount }}
{{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }} {{ itemCurrency }}{{ item.invalid_price }} {{itemDiscount}}
{{ itemCurrency }}{{ item.valid_price }}
後結束促銷
後開始秒殺 後結束秒殺
{{ getSeckillDesc(item.seckill_data) }}
{{ __( "Pay with Gift Card to get sale price: :itemCurrency:price", { 'itemCurrency' : itemCurrency, 'price' : (item.giftcard_price ? priceFormat(item.giftcard_price) : '0.00') } ) }} ({{ itemCurrency }}{{ priceFormat(item.giftcard_price / item.bundle_specification) }}/{{ item.unit }}) 詳情
商品有效期

已下架

我們不知道該商品何時或是否會重新有庫存。

當前地址無法配送
已售完

商品描述

展開全部描述
Editer Recommend

本书系统、全面、深入地解析了SparkMLlib机器学习的相关知识,着力于探索分布式机器学习的底层实现。
以源码为基础,兼顾算法、理论与实战,帮助读者在实际工作中进行MLlib的应用开发和定制开发。
适合大数据、Spark、数据挖掘领域的从业人员阅读。
Content Description

《Spark MLlib机器学习:算法、源码及实战详解》以Spark 1.4.1版本源码为切入点,全面并且深入地解析Spark MLlib模块,着力于探索分布式机器学习的底层实现。
《Spark MLlib机器学习:算法、源码及实战详解》中本着循序渐进的原则,首先解析MLlib的底层实现基础:数据操作及矩阵向量计算操作,该部分是MLlib实现的基础;接着对各个机器学习算法的理论知识进行讲解,并且解析机器学习算法如何在MLlib中实现分布式计算;然后对MLlib源码进行详细的讲解;最后进行MLlib实例的讲解。相信通过《Spark MLlib机器学习:算法、源码及实战详解》的学习,读者可全面掌握Spark MLlib机器学习,能够进行MLlib实战、MLlib定制开发等。
《Spark MLlib机器学习:算法、源码及实战详解》适合大数据、Spark、数据挖掘领域的从业人员阅读,同时也为Spark开发者和大数据爱好者展现了分布式机器学习的原理和实现细节。
Author Description

黄美灵,久邦数码高级数据挖掘工程师,Spark爱好者,致力于分布式机器学习的研究与应用,现从事移动互联网的计算广告和数据变现工作,专注Spark机器学习在计算广告中的研究和实践。
Catalogue

第一部分Spark MLlib基础
第1章Spark机器学习简介 2
1.1机器学习介绍 2
1.2Spark介绍 3
1.3Spark MLlib介绍 4
第2章Spark数据操作 6
2.1Spark RDD操作 6
2.1.1Spark RDD创建操作 6
2.1.2Spark RDD转换操作 7
2.1.3Spark RDD行动操作 14
2.2MLlib Statistics统计操作 15
2.2.1列统计汇总 15
2.2.2相关系数 16
2.2.3假设检验 18
2.3MLlib数据格式 18
2.3.1数据处理 18
2.3.2生成样本 22
第3章Spark MLlib矩阵向量 26
3.1Breeze介绍 26
3.1.1Breeze创建函数 27
3.1.2Breeze元素访问及操作函数 29
3.1.3Breeze数值计算函数 34
3.1.4Breeze求和函数 35
3.1.5Breeze布尔函数 36
3.1.6Breeze线性代数函数 37
3.1.7Breeze取整函数 39
3.1.8Breeze常量函数 40
3.1.9Breeze复数函数 40
3.1.10Breeze三角函数 40
3.1.11Breeze对数和指数函数 40
3.2BLAS介绍 41
3.2.1BLAS向量-向量运算 42
3.2.2BLAS矩阵-向量运算 42
3.2.3BLAS矩阵-矩阵运算 43
3.3MLlib向量 43
3.3.1MLlib向量介绍 43
3.3.2MLlib Vector接口 44
3.3.3MLlib DenseVector类 46
3.3.4MLlib SparseVector类 49
3.3.5MLlib Vectors伴生对象 50
3.4MLlib矩阵 57
3.4.1MLlib矩阵介绍 57
3.4.2MLlib Matrix接口 57
3.4.3MLlib DenseMatrix类 59
3.4.4MLlib SparseMatrix类 64
3.4.5MLlib Matrix伴生对象 71
3.5MLlib BLAS 77
3.6MLlib分布式矩阵 93
3.6.1MLlib分布式矩阵介绍 93
3.6.2行矩阵(RowMatrix) 94
3.6.3行索引矩阵(IndexedRowMatrix) 96
3.6.4坐标矩阵(CoordinateMatrix) 97
3.6.5分块矩阵(BlockMatrix) 98

第二部分Spark MLlib回归算法
第4章Spark MLlib线性回归算法 102
4.1线性回归算法 102
4.1.1数学模型 102
4.1.2最小二乘法 105
4.1.3梯度下降算法 105
4.2源码分析 106
4.2.1建立线性回归 108
4.2.2模型训练run方法 111
4.2.3权重优化计算 114
4.2.4线性回归模型 121
4.3实例 123
4.3.1训练数据 123
4.3.2实例代码 123
第5章Spark MLlib逻辑回归算法 126
5.1逻辑回归算法 126
5.1.1数学模型 126
5.1.2 梯度下降算法 128
5.1.3正则化 129
5.2源码分析 132
5.2.1建立逻辑回归 134
5.2.2模型训练run方法 137
5.2.3权重优化计算 137
5.2.4逻辑回归模型 144
5.3实例 148
5.3.1训练数据 148
5.3.2实例代码 148
第6章Spark MLlib保序回归算法 151
6.1保序回归算法 151
6.1.1数学模型 151
6.1.2L2保序回归算法 153
6.2源码分析 153
6.2.1建立保序回归 154
6.2.2模型训练run方法 156
6.2.3并行PAV计算 156
6.2.4PAV计算 157
6.2.5保序回归模型 159
6.3实例 164
6.3.1训练数据 164
6.3.2实例代码 164

第三部分Spark MLlib分类算法
第7章Spark MLlib贝叶斯分类算法 170
7.1贝叶斯分类算法 170
7.1.1贝叶斯定理 170
7.1.2朴素贝叶斯分类 171
7.2源码分析 173
7.2.1建立贝叶斯分类 173
7.2.2模型训练run方法 176
7.2.3贝叶斯分类模型 179
7.3实例 181
7.3.1训练数据 181
7.3.2实例代码 182
第8章Spark MLlib SVM支持向量机算法 184
8.1SVM支持向量机算法 184
8.1.1数学模型 184
8.1.2拉格朗日 186
8.2源码分析 189
8.2.1建立线性SVM分类 191
8.2.2模型训练run方法 194
8.2.3权重优化计算 194
8.2.4线性SVM分类模型 196
8.3实例 199
8.3.1训练数据 199
8.3.2实例代码 199
第9章Spark MLlib决策树算法 202
9.1决策树算法 202
9.1.1决策树 202
9.1.2特征选择 203
9.1.3决策树生成 205
9.1.4决策树生成实例 206
9.1.5决策树的剪枝 208
9.2源码分析 209
9.2.1建立决策树 211
9.2.2建立随机森林 216
9.2.3建立元数据 220
9.2.4查找特征的分裂及划分 223
9.2.5查找最好的分裂顺序 228
9.2.6决策树模型 231
9.3实例 234
9.3.1训练数据 234
9.3.2实例代码 234

第四部分Spark MLlib聚类算法
第10章Spark MLlib KMeans聚类算法 238
10.1KMeans聚类算法 238
10.1.1KMeans算法 238
10.1.2演示KMeans算法 239
10.1.3初始化聚类中心点 239
10.2源码分析 240
10.2.1建立KMeans聚类 242
10.2.2模型训练run方法 247
10.2.3聚类中心点计算 248
10.2.4中心点初始化 251
10.2.5快速距离计算 254
10.2.6KMeans聚类模型 255
10.3实例 258
10.3.1训练数据 258
10.3.2实例代码 259
第11章Spark MLlib LDA主题模型算法 261
11.1LDA主题模型算法 261
11.1.1LDA概述 261
11.1.2LDA概率统计基础 262
11.1.3LDA数学模型 264
11.2GraphX基础 267
11.3源码分析 270
11.3.1建立LDA主题模型 272
11.3.2优化计算 279
11.3.3LDA模型 283
11.4实例 288
11.4.1训练数据 288
11.4.2实例代码 288

第五部分Spark MLlib关联规则挖掘算法
第12章Spark MLlib FPGrowth关联规则算法 292
12.1FPGrowth关联规则算法 292
12.1.1基本概念 292
12.1.2FPGrowth算法 293
12.1.3演示FP树构建 294
12.1.4演示FP树挖掘 296
12.2源码分析 298
12.2.1FPGrowth类 298
12.2.2关联规则挖掘 300
12.2.3FPTree类 303
12.2.4FPGrowthModel类 306
12.3实例 306
12.3.1训练数据 306
12.3.2实例代码 306

第六部分Spark MLlib推荐算法
第13章Spark MLlib ALS交替最小二乘算法 310
13.1ALS交替最小二乘算法 310
13.2源码分析 312
13.2.1建立ALS 314
13.2.2矩阵分解计算 322
13.2.3ALS模型 329
13.3实例 334
13.3.1训练数据 334
13.3.2实例代码 334
第14章Spark MLlib协同过滤推荐算法 337
14.1协同过滤推荐算法 337
14.1.1协同过滤推荐概述 337
14.1.2用户评分 338
14.1.3相似度计算 338
14.1.4推荐计算 340
14.2协同推荐算法实现 341
14.2.1相似度计算 344
14.2.2协同推荐计算 348
14.3实例 350
14.3.1训练数据 350
14.3.2实例代码 350

第七部分Spark MLlib神经网络算法
第15章Spark MLlib神经网络算法综述 354
15.1人工神经网络算法 354
15.1.1神经元 354
15.1.2神经网络模型 355
15.1.3 信号前向传播 356
15.1.4误差反向传播 357
15.1.5其他参数 360
15.2神经网络算法实现 361
15.2.1神经网络类 363
15.2.2训练准备 370
15.2.3前向传播 375
15.2.4误差反向传播 377
15.2.5权重更新 381
15.2.6ANN模型 382
15.3实例 384
15.3.1测试数据 384
15.3.2测试函数代码 387
15.3.3实例代码 388

Introduction

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科,其中大部分理论来源于18、19世纪,例如贝叶斯定理,是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出的重要概率论理论;而21世纪则侧重于如何将机器学习理论运用在工业化中,帮助改进性能及提升其效率。
机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。在算法设计方面,机器学习理论关注可以实现的、行之有效的学习算法;机器学习研究的不是求解精确的结果,而是研究开发容易处理的近似求解算法。尤其是在21世纪,知识和数据量爆发的时代,机器学习面临大数据的求解难题。
随着数据量的增加,从传统的单机计算发展到大规模的集群计算,以至发展到今天的一种大规模、快速计算的集群平台—Apache Spark。Spark是一个开源集群运算框架,最初由加州大学伯克利分校AMP实验室开发。相对于Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中,Spark使用了内存内运算技术,能在资料尚未写入硬盘时即在内存内分析运算。Spark在内存上的运算速度比Hadoop MapReduce的运算速度快100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。
本书侧重讲解Spark MLlib模块。Spark MLlib是一种高效、快速、可扩展的分布式计算框架,实现了常用的机器学习,如聚类、分类、回归等算法。本文循序渐进,从Spark的基础知识、矩阵向量的基础知识开始,然后再讲解各种算法的理论知识,以及Spark源码实现和实例实战,帮助读者从基础到实践全面掌握Spark MLlib分布式机器学习。
学习本书需要的基础知识包括:Spark基础入门、Scala入门、线性代数基础知识。
本书面向的读者:Spark开发者、大数据工程师、数据挖掘工程师、机器学习工程师、研究生和高年级本科生等。
在本书的编写过程中,何娟、何丹、王蒙、叶月媚参与了全书的编写、整理及校对工作,刘程辉、李俊、廖宏参与了Spark集群运维和第2章数据操作的实例部分工作,刘晓宏、方佳武、于善龙参与了全书的实例部分工作。
本书在写作的过程中,得到了很多朋友及同事的帮助和支持,在此表示衷心感谢!
感谢久邦数码大数据团队的同事们。在两年的工作中,笔者得到了很多同事的指导、支持和帮助,尤其感谢杨树清、周小平、梁宁、刘程辉、刘晓宏、方佳武、于善龙、王蒙、叶月媚、廖宏、谭钊承、吴梦玲、邹桂芳、曹越等。
感谢电子工业出版社的付睿编辑,她不仅积极策划和推动本书的出版,而且在写作过程中还给出了极为详细的改进意见。感谢电子工业出版社的李云静编辑为本书做了非常辛苦和专业的编辑工作。
感谢我的父母和妻子,有了你们的帮助和支持,我才有时间和精力去完成写作。
谨以此书献给热爱大数据技术的朋友们!

規格參數

品牌 京東圖書
品牌屬地 China

免責聲明

產品價格、包裝、規格等資訊如有調整,恕不另行通知。我們盡量做到及時更新產品資訊,但請以收到實物為準。使用產品前,請始終閱讀產品隨附的標籤、警告及說明。

查看詳情
加入收藏
{{ $isZh ? coupon.coupon_name_sub : coupon.coupon_ename_sub | formatCurrency }}
{{__("Buy Directly")}} {{ itemCurrency }}{{ item.directly_price }}
數量
{{ quantity }}
{{ instockMsg }}
{{ limitText }}
{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}
由 JD@CHINA 銷售
送至
{{ __("Ship to United States only") }}
滿69免運費
正品保證

已加入購物車

繼續逛逛

為你推薦

{{ item.brand_name }}

{{ item.item_name }}

{{ item.currency }}{{ item.market_price }}

{{ item.currency }}{{ item.unit_price }}

{{ item.currency }}{{ item.unit_price }}

優惠券

{{ coupon.coupon_name_new | formatCurrency }}
領取 已領取 已領完
{{ getCouponDescStr(coupon) }}
{{ coupon.use_time_desc }}
即將過期: {{ formatTime(coupon.use_end_time) }}

分享給好友

取消

亞米禮卡專享價

使用禮卡支付即可獲得禮卡專享價

規則說明

禮卡專享價是部分商品擁有的特殊優惠價格;

購買禮卡專享價商品時,若在結算時使用電子禮卡抵扣支付,且禮卡餘額足夠支付訂單中所有禮卡專享價商品的專享價總和,則可以啟用禮卡專享價;

不使用禮卡支付,或禮卡餘額不滿足上一條所述要求時,將無法啟用禮卡專享價,按照普通售價計算,但您仍然可以購買這些商品;

在購買禮卡專享價商品時,若餘額不足,可以在購物車或結算頁中點擊“充值”按鈕對禮卡進行購買和充值;

商品若擁有禮卡專享價,會顯示“專享”的特殊價格標記;

如有疑問,請隨時聯繫客服;

禮卡專享價相關規則最終解釋權歸亞米所有。

由 亞米 銷售

服務保障

Yami 滿$49免運費
Yami 無憂退換
Yami 從美國出貨

配送資訊

  • 美國

    標準配送 $5.99(不含阿拉斯加,夏威夷),最終價滿$49免運費

    本地配送$5.99(加州,紐約州,新澤西,麻省和賓夕法尼亞,以上州部分地區);最終價滿$49免運費

    兩日達(含阿拉斯加夏威夷)運費19.99美元起

退換政策

亞米網希望為我們的客戶提供最優秀的售後服務,讓所有人都能放心在亞米購物。亞米自營商品在滿足退換貨條件的情況下,可在收到包裹的30天之內退換商品(食品因商品質量問題7天內可退換;為了確保每位客戶都能獲得安全和高質量的商品,對於美妝類產品,一經開封或使用即不提供退款或退貨服務,質量問題除外;其他特殊商品需聯繫客服諮詢)。
感謝您的理解和支持。

查看詳情

由 亞米 銷售

亞米電子禮品卡使用規則

若購買時選擇自動儲值,訂單完成後禮品卡將自動儲值至您的帳戶;

若購買時選擇發送郵件,訂單完成後系統將自動發送卡號和密碼到您填寫的郵箱;

寄送郵件時,任何使用者均可使用郵件中的卡號密碼進行禮卡儲值,請妥善保管郵件資訊。

如接收郵件遇到問題,請聯絡客服處理;

發送郵件時,若禮卡沒有被兌換,可以補發郵件。若已經被其他用戶兌換,無法補償;

亞米網電子禮卡可用於購買自營或第三方商品;

亞米網電子禮卡沒有有效期限限制,長期有效;

亞米網電子禮卡的金額,可分多次使用;

亞米網電子禮卡業務規則,最終解釋權歸亞米網所有。

退換政策

已消費的電子禮卡不支持退款。

JD@CHINA 銷售

服務保障

Yami 滿$49免運費
Yami 最優售後
Yami 美國本土出貨

配送資訊

  • 美國

    標準配送 $5.99(不含阿拉斯加,夏威夷),最終價滿$49免運費

    本地配送$5.99(加州,紐約州,新澤西,麻省和賓夕法尼亞,以上州部分地區);最終價滿$49免運費

    兩日達(含阿拉斯加夏威夷)運費19.99美元起

退換政策

提供30天內退還保障。產品需全新未使用原包裝內,並附有購買憑證。產品品質問題、或錯發漏發等,由商家造成的失誤,將進行補發,或退款處理。其它原因需退貨費用由客戶自行承擔。

由 JD@CHINA 銷售

服務保障

Yami 跨店滿$69免運費
Yami 30天退換保障

亞米-中國集運倉

由亞米從中國精選並集合各大優秀店舖的商品至亞米中國整合中心,合併包裹後將一次合包跨國郵寄至您的地址。跨店包郵門檻低至$69。您將在多商家集合提供的廣泛選購商品中選購商品,輕鬆享有跨店鋪包郵後的低郵資。

退換政策

提供30天內退換保障。產品需在全新未使用的原包裝內,並附有購買憑證。產品品質問題、錯發、或漏發等商家造成的失誤,將進行退款處理。其它原因造成的退換貨郵費客戶將需要自行承擔。由於所有商品均長途跋涉,偶有簡易外包壓磨等但不涉及內部品質問題者,不予退換。

配送資訊

亞米中國集運 Consolidated Shipping 運費$9.99(訂單滿$69 包郵)

下單後2個工作天中國商家出貨,所有包裹抵達亞米中國整合中心(除特別情況及中國境內個別法定假日外)會合併包裹後透過UPS發往美國。 UPS從中國出貨後到美國境內的平均時間為10個工作天左右,可隨時根據直發單號追蹤查詢。受疫情影響,目前物流可能延遲5天左右。包裹需要客人簽收。如未簽收,客人須承擔包裹遺失風險。

由 JD@CHINA 銷售

服務保障

滿69免運費
正品保證

配送資訊

Yami Consolidated Shipping 運費$9.99(訂單滿$69包郵)


Seller will ship the orders within 1-2 business days. The logistics time limit is expected to be 7-15 working days. In case of customs clearance, the delivery time will be extended by 3-7 days. The final receipt date is subject to the information of the postal company.

積分規則

不參加任何折扣活動以及亞米會員積分制度。

退換政策

提供30天內退還保障。產品需全新未使用原包裝內,並附有購買憑證。產品品質問題、或錯發漏發等,由商家造成的失誤,將進行補發,或退款處理。其它原因需退貨費用由客戶自行承擔。

Yami

下載亞米應用

返回頂部

為您推薦

品牌故事

京東圖書

为您推荐

Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折

評論{{'('+ commentList.posts_count + ')'}}

分享您的感受,幫助更多用戶做出選擇。

撰寫評論
{{ totalRating }} 撰寫評論
  • {{i}}星

    {{i}} 星

    {{ parseInt(commentRatingList[i]) }}%

Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ comment.content }}

Yami
查看更多

{{ formatTime(comment.in_dtm) }} 已購買 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}
Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ comment.content }}

Yami
查看更多

{{ formatTime(comment.in_dtm) }} 已購買 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}

暫無符合條件的評論~

評論詳情

Yami Yami

{{ showTranslate(commentDetails) }}收起

{{ strLimit(commentDetails,800) }}查看全部

Show Original

{{ commentDetails.content }}

Yami
查看更多

{{ formatTime(commentDetails.in_dtm) }} 已購買 {{groupData}}

{{ commentDetails.likes_count }} {{ commentDetails.likes_count }} {{ commentDetails.reply_count }} {{commentDetails.in_user==uid ? __('Delete') : __('Report')}}

請輸入內容

回覆{{'(' + replyList.length + ')'}}

Yami Yami

{{ showTranslate(reply) }}收起

{{ strLimit(reply,800) }}查看全部

Show Original

{{ reply.reply_content }}

{{ formatTime(reply.reply_in_dtm) }}

{{ reply.reply_likes_count }} {{ reply.reply_likes_count }} {{ reply.reply_reply_count }} {{reply.reply_in_user==uid ? __('Delete') : __('Report')}}

請輸入內容

取消

這是到目前為止的所有評論!

發表評論
商品評分

請輸入評論

  • 一個好的暱稱,會讓你的評論更受歡迎!
  • 修改了這裡的暱稱,個人資料中的暱稱也將被修改。
感謝你的評論
你的好評可以幫助我們的社區發現更好的亞洲商品。

舉報

取消

確認刪除該評論嗎?

取消

歷史瀏覽

品牌故事

京東圖書