{{sellerTotalView > 1 ? __("sellers", {number: sellerTotalView}) : __("seller", {number: sellerTotalView}) }}, {{numTotalView > 1 ? __("items", {number: numTotalView}) : __("item", {number: numTotalView}) }}
免運費
Yami

Nickname

請告訴我們怎麼更好地稱呼你

更新你的名字
賬戶 訂單 收藏
{{ inviteNavTitle }}
退出登入

切換配送區域

不同區域的庫存和配送時效可能存在差異。

歷史郵編

{{email ? __('Got it!') : __('Restock Alert')}}

我們將在商品到貨後第一時間通知你。

取消
Yami

京東圖書

数据整理实践指南

{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}

数据整理实践指南

{{__(":people-members", {'people': item.limit_people_count})}} {{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ item.invalid_price }} {{ itemDiscount }}
後結束
{{ itemCurrency }}{{ item.valid_price }}
{{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }}
{{ itemDiscount }}
{{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }} {{ itemCurrency }}{{ item.invalid_price }} {{itemDiscount}}
{{ itemCurrency }}{{ item.valid_price }}
後結束促銷
後開始秒殺 後結束秒殺
{{ getSeckillDesc(item.seckill_data) }}
{{ __( "Pay with Gift Card to get sale price: :itemCurrency:price", { 'itemCurrency' : itemCurrency, 'price' : (item.giftcard_price ? priceFormat(item.giftcard_price) : '0.00') } ) }} ({{ itemCurrency }}{{ priceFormat(item.giftcard_price / item.bundle_specification) }}/{{ item.unit }}) 詳情
商品有效期

已下架

我們不知道該商品何時或是否會重新有庫存。

當前地址無法配送
已售完

商品描述

展開全部描述
Editer Recommend

作者携手数据领域的强大智囊团为读者贡献的一本处理噪音数据的指南。

本书囊括众多真实世界的应用案例以及高水平的方法和策略。

本书汇集国外数据社区的技术骨干和活跃分子的集体智慧,多位数据领域的专家共同揭示了如何处理棘手的数据问题的奥秘。

噪音数据就是那些"给你惹麻烦的数据",从蹩脚的存储到糟糕的说明,再到令人误解的策略,有多重情况可能导致噪音数据。

那么什么才是决定性因素呢?有人认为是技术方面的问题,比如缺失值或格式不对的记录,但是噪音数据包含更多的问题。

本书介绍了多种有效的方式来应对噪音数据。在本书中,多位数据领域的专家共同揭示了如何处理棘手的数据问题的奥秘。

通过阅读本书,你将学会:

测试你的数据,判断它是否适合分析;

将电子表格数据转变成可用的格式;

处理潜藏在文本数据里的编码问题;

进行一种成功的网络搜集尝试;

利用自然语言处理(NLP, Natural Language Processing)工具揭露线上评论的真实情感;

处理可以影响分析工作的云计算问题;

避免那些制造数据分析障碍的策略;

采用一种系统的数据质量分析方法。

Content Description

随着数据科学的热门,数据的优化、整理以及如何处理不良数据成为人们关注的重点。本书通过处理不良数据,进行数据清理的案例,向读者展示了处理数据的方法。

本书共有19章,从6部分向读者展示了使用和清理不良数据背后的理论和实践。第1部分是Grubby的动手实践指南,它向读者介绍了驾驭、提取数据的方法,如何处理文本数据中的数据以及Web开发中碰到的数据问题。第2部分是让人充满意外的数据,它向读者介绍了数据也会“撒谎”。第3部分是方法,它向读者介绍了处理不良数据的一些方法。第4部分是数据存储和基础设施,它向读者介绍了如何存储数据。第5部分是数据的商业化,它向读者介绍了如何避免数据处理的一些误差。第6部分是数据策略,它向读者介绍了如何追踪数据、评估数据质量以及构建数据质量相关平台等。

本书适合数据科学家、数据处理和整理相关开发人员阅读。也适合想要进入数据处理领域的读者阅读。

Author Description

Q.Ethan McCallum,是一位顾问、作家,也是一名科技爱好者。他帮助很多公司在数据和技术方面做出明智的决策,他为The O’Relly Network 和Java.net撰写文章,并且为《C/C++Users Journal》《Doctor Dobb’s Journal》和《Linux Magazine》撰稿。
Catalogue

第1章 从头说起:什么是噪音数据 1
第2章 是我的问题还是数据的问题 4
2.1 理解数据结构 5
2.2 校验 8
2.2.1 字段校验 8
2.2.2 值校验 9
2.2.3 简单统计的物理解释 10
2.3 可视化 11
2.3.1 关键词竞价排名示例 13
2.3.2 搜索来源示例 18
2.3.3 推荐分析 19
2.3.4 时间序列数据 22
2.4 小结 27
第3章 数据是给人看的不是给机器看的 28
3.1 数据 28
3.1.1 问题:数据是给人看的 29
3.1.2 对数据的安排 29
3.1.3 数据分散在多个文件中 32
3.2 解决方案:编写代码 34
3.2.1 从糟糕的数据格式中读取数据 34
3.2.2 从多个文件中读取数据 36
3.3 附言 42
3.4 其他格式 43
3.5 小结 45
第4章 纯文本中潜在的噪音数据 46
4.1 使用哪种纯文本编码? 46
4.2 猜测文本编码格式 50
4.3 对文本规范化处理 53
4.4 问题:在纯文本中掺入了特定应用字符 55
4.5 通过Python处理文本 59
4.6 实践练习题 60
第5章 重组Web数据 62
5.1 你能获得数据吗 63
5.1.1 一般工作流程示例 64
5.1.2 Robots 协议 65
5.1.3 识别数据组织模式 66
5.1.4 存储离线版本 68
5.1.5 网页抓取信息 69
5.2 真正的困难 73
5.2.1 下载原始内容 73
5.2.2 表单、对话框和新建窗口 73
5.2.3 Flash 74
5.3 不利情况的解决办法 75
5.4 小结 75
第6章 检测撒谎者以及相互矛盾网上评论的困惑 76
6.1 Weotta公司 76
6.2 获得评论 77
6.3 情感分类 77
6.4 极化语言 78
6.5 创建语料库 80
6.6 训练分类器 81
6.7 分类器验证 82
6.8 用数据设计 84
6.9 经验教训 84
6.10 小结 85
6.11 信息资源 86
第7章 请噪音数据站出来 87
7.1 实例1:在制造业中减少缺陷 87
7.2 实例2:谁打来的电话 90
7.3 实例3:当“典型的”不等于“平均的” 92
7.4 经验总结 95
7.5 到工厂参观能成为试验的一部分吗 96
第8章 血、汗和尿 97
8.1 书呆子戏剧性工作交换 97
8.2 化学家如何整理数字 98
8.3 数据库都是我们的 99
8.4 仔细检查 102
8.5 生命短暂的漂亮代码库 103
8.6 改变化学家(和其他电子表单滥用者) 104
8.7 传递线(tl)和数据记录器(dr) 105
第9章 当数据与现实不匹配 107
9.1 到底是谁的报价机 108
9.2 股票分割、股利和调整 110
9.3 糟糕的现实 112
9.4 小结 114
第10章 偏差和误差的来源 115
10.1 估算上的偏差:一般性的问题 117
10.2 报告上的误差:一般性的问题 118
10.3 其他偏差来源 121
10.3.1 顶层编码/底部编码 121
10.3.2 Seam偏差 122
10.3.3 代理报告 123
10.3.4 样本选择 123
10.4 结论 124
参考文献 124
第11章 不要把完美和正确对立起来:噪音数据真是噪音吗 128
11.1 回忆学校生活 128
11.2 向着专业领域前进 129
11.2.1 政府工作 130
11.2.2 政府数据非常真实 131
11.3 应用实例—服务电话 132
11.4 继续前进 133
11.5 经验与未来展望 134
第12章 数据库攻击:什么时候使用文件 135
12.1 历史 135
12.2 建立我的工具箱 136
12.3 数据存储—我的路障 136
12.4 将文件作为数据存储器 137
12.4.1 简单的文件 138
12.4.2 文件处理一切 138
12.4.3 文件可包含任何数据形式 138
12.4.4 局部数据破坏 139
12.4.5 文件拥有很棒的工具 139
12.4.6 没有安装税 139
12.5 文件的概念 140
12.5.1 编码 140
12.5.2 文本文件 140
12.5.3 二进制数据 140
12.5.4 内存映射文件 140
12.5.5 文件格式 140
12.5.6 分隔符 142
12.6 文件支持的网络框架 143
12.6.1 动机 143
12.6.2 实现 145
12.7 反馈 145
第13章 卧库表,隐网络 146
13.1 成本分配模型 147
13.2 组合展开微妙的作用 150
13.3 隐藏网络的浮现 151
13.4 存储图表 151
13.5 利用Gremlin遍历图表 152
13.6 在网络属性里寻找价值 154
13.7 从多重数据模型角度考虑并使用正确的工具 155
13.8 致谢 155
第14章 云计算神话 156
14.1 关于云的介绍 156
14.2 何谓“云” 156
14.3 云和大数据 157
14.4 Fred的故事 157
14.4.1 起初一切都好 157
14.4.2 基础结构全部放在云端 158
14.4.3 随着规模增长,最初的扩展很轻松 158
14.4.4 麻烦出现了 158
14.4.5 需要提高性能 158
14.4.6 关键要提高RAID 10性能 158
14.4.7 重要的局部运行中断引发长期停机 159
14.4.8 有代价的RAID 10 159
14.4.9 数据规模增大 160
14.4.10 地理冗余成为首选 160
14.4.11 水平扩展并不像想像得那么简单 160
14.4.12 成本显著增长 160
14.5 Fred的荒唐事 161
14.5.1 神话1:云是所有基础设施组件的解决方案 161
该神话与Fred故事的联系 161
14.5.2 神话2:云可以节约成本 161
该神话与Fred的故事的联系 162
14.5.3 神话3:通过RAID可以将cloud 10的性能提高至可接受的水平 163
该神话与Fred故事的联系 163
14.5.4 神话4:云计算使水平扩展轻松 163
该神话与Fred故事的联系 164
14.6 结论和推荐 164
第15章 数据科学的阴暗面 165
15.1 避开这些陷阱 165
15.1.1 对数据一无所知 166
15.1.2 应该只为数据科学家提供一种工具来解决所有问题 167
15.1.3 应该为了分析而分析 169
15.1.4 应该学会分享 169
15.1.5 应该期望数据科学家无所不能 170
15.2 数据学家在机构中的位置 170
15.3 最后的想法 171
第16章 如何雇佣机器学习专家 172
16.1 确定问题 172
16.2 模型测试 173
16.3 创建训练集 174
16.4 选择特征 175
16.5 数据编码 176
16.6 训练集、测试集和解决方案集 176
16.7 问题描述 177
16.8 回答问题 178
16.9 整合解决方案 178
16.10 小结 179
第17章 数据的可追踪性 180
17.1 原因 180
17.2 个人经验 181
17.2.1 快照 181
17.2.2 保存数据源 181
17.2.3 衡量数据源 182
17.2.4 逆向恢复数据 182
17.2.5 分阶段处理数据并保持各阶段的独立性 182
17.2.6 识别根源 183
17.2.7 寻找要完善的区域 183
17.3 不变性:从函数程序设计借来的理念 183
17.4 案例 184
17.4.1 网络爬虫 184
17.4.2 改变 185
17.4.3 聚类 185
17.4.4 普及度 185
17.5 小结 186
第18章 社交媒体:是可抹去的印记吗 187
18.1 社交媒体:到底是谁的数据 188
18.2 管控 188
18.3 商业重组 190
18.4 对沟通和表达的期望 190
18.5 新的最终用户期望的技术含义 192
18.6 这个行业是做什么的 194
18.6.1 验证API 195
18.6.2 更新通知API 195
18.7 最终用户做什么 195
18.8 我们怎样一起工作 196
第19章 揭秘数据质量分析:了解什么时候数据足够优质 197
19.1 框架介绍:数据质量分析的4个C 198
19.1.1 完整性 199
19.1.2 一致性 201
19.1.3 准确性 203
19.1.4 可解释性 205
19.2 结论 208

規格參數

品牌 京東圖書
品牌屬地 China

免責聲明

產品價格、包裝、規格等資訊如有調整,恕不另行通知。我們盡量做到及時更新產品資訊,但請以收到實物為準。使用產品前,請始終閱讀產品隨附的標籤、警告及說明。

查看詳情
加入收藏
{{ $isZh ? coupon.coupon_name_sub : coupon.coupon_ename_sub | formatCurrency }}
{{__("Buy Directly")}} {{ itemCurrency }}{{ item.directly_price }}
數量
{{ quantity }}
{{ instockMsg }}
{{ limitText }}
{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}
由 JD@CHINA 銷售
送至
{{ __("Ship to United States only") }}
滿69免運費
正品保證

已加入購物車

繼續逛逛

為你推薦

{{ item.brand_name }}

{{ item.item_name }}

{{ item.currency }}{{ item.market_price }}

{{ item.currency }}{{ item.unit_price }}

{{ item.currency }}{{ item.unit_price }}

優惠券

{{ coupon.coupon_name_new | formatCurrency }}
領取 已領取 已領完
{{ getCouponDescStr(coupon) }}
{{ coupon.use_time_desc }}
即將過期: {{ formatTime(coupon.use_end_time) }}

分享給好友

取消

亞米禮卡專享價

使用禮卡支付即可獲得禮卡專享價

規則說明

禮卡專享價是部分商品擁有的特殊優惠價格;

購買禮卡專享價商品時,若在結算時使用電子禮卡抵扣支付,且禮卡餘額足夠支付訂單中所有禮卡專享價商品的專享價總和,則可以啟用禮卡專享價;

不使用禮卡支付,或禮卡餘額不滿足上一條所述要求時,將無法啟用禮卡專享價,按照普通售價計算,但您仍然可以購買這些商品;

在購買禮卡專享價商品時,若餘額不足,可以在購物車或結算頁中點擊“充值”按鈕對禮卡進行購買和充值;

商品若擁有禮卡專享價,會顯示“專享”的特殊價格標記;

如有疑問,請隨時聯繫客服;

禮卡專享價相關規則最終解釋權歸亞米所有。

由 亞米 銷售

服務保障

Yami 滿$49免運費
Yami 無憂退換
Yami 從美國出貨

配送資訊

  • 美國

    標準配送 $5.99(不含阿拉斯加,夏威夷),最終價滿$49免運費

    本地配送$5.99(加州,紐約州,新澤西,麻省和賓夕法尼亞,以上州部分地區);最終價滿$49免運費

    兩日達(含阿拉斯加夏威夷)運費19.99美元起

退換政策

亞米網希望為我們的客戶提供最優秀的售後服務,讓所有人都能放心在亞米購物。亞米自營商品在滿足退換貨條件的情況下,可在收到包裹的30天之內退換商品(食品因商品質量問題7天內可退換;為了確保每位客戶都能獲得安全和高質量的商品,對於美妝類產品,一經開封或使用即不提供退款或退貨服務,質量問題除外;其他特殊商品需聯繫客服諮詢)。
感謝您的理解和支持。

查看詳情

由 亞米 銷售

亞米電子禮品卡使用規則

若購買時選擇自動儲值,訂單完成後禮品卡將自動儲值至您的帳戶;

若購買時選擇發送郵件,訂單完成後系統將自動發送卡號和密碼到您填寫的郵箱;

寄送郵件時,任何使用者均可使用郵件中的卡號密碼進行禮卡儲值,請妥善保管郵件資訊。

如接收郵件遇到問題,請聯絡客服處理;

發送郵件時,若禮卡沒有被兌換,可以補發郵件。若已經被其他用戶兌換,無法補償;

亞米網電子禮卡可用於購買自營或第三方商品;

亞米網電子禮卡沒有有效期限限制,長期有效;

亞米網電子禮卡的金額,可分多次使用;

亞米網電子禮卡業務規則,最終解釋權歸亞米網所有。

退換政策

已消費的電子禮卡不支持退款。

JD@CHINA 銷售

服務保障

Yami 滿$49免運費
Yami 最優售後
Yami 美國本土出貨

配送資訊

  • 美國

    標準配送 $5.99(不含阿拉斯加,夏威夷),最終價滿$49免運費

    本地配送$5.99(加州,紐約州,新澤西,麻省和賓夕法尼亞,以上州部分地區);最終價滿$49免運費

    兩日達(含阿拉斯加夏威夷)運費19.99美元起

退換政策

提供30天內退還保障。產品需全新未使用原包裝內,並附有購買憑證。產品品質問題、或錯發漏發等,由商家造成的失誤,將進行補發,或退款處理。其它原因需退貨費用由客戶自行承擔。

由 JD@CHINA 銷售

服務保障

Yami 跨店滿$69免運費
Yami 30天退換保障

亞米-中國集運倉

由亞米從中國精選並集合各大優秀店舖的商品至亞米中國整合中心,合併包裹後將一次合包跨國郵寄至您的地址。跨店包郵門檻低至$69。您將在多商家集合提供的廣泛選購商品中選購商品,輕鬆享有跨店鋪包郵後的低郵資。

退換政策

提供30天內退換保障。產品需在全新未使用的原包裝內,並附有購買憑證。產品品質問題、錯發、或漏發等商家造成的失誤,將進行退款處理。其它原因造成的退換貨郵費客戶將需要自行承擔。由於所有商品均長途跋涉,偶有簡易外包壓磨等但不涉及內部品質問題者,不予退換。

配送資訊

亞米中國集運 Consolidated Shipping 運費$9.99(訂單滿$69 包郵)

下單後2個工作天中國商家出貨,所有包裹抵達亞米中國整合中心(除特別情況及中國境內個別法定假日外)會合併包裹後透過UPS發往美國。 UPS從中國出貨後到美國境內的平均時間為10個工作天左右,可隨時根據直發單號追蹤查詢。受疫情影響,目前物流可能延遲5天左右。包裹需要客人簽收。如未簽收,客人須承擔包裹遺失風險。

由 JD@CHINA 銷售

服務保障

滿69免運費
正品保證

配送資訊

Yami Consolidated Shipping 運費$9.99(訂單滿$69包郵)


Seller will ship the orders within 1-2 business days. The logistics time limit is expected to be 7-15 working days. In case of customs clearance, the delivery time will be extended by 3-7 days. The final receipt date is subject to the information of the postal company.

積分規則

不參加任何折扣活動以及亞米會員積分制度。

退換政策

提供30天內退還保障。產品需全新未使用原包裝內,並附有購買憑證。產品品質問題、或錯發漏發等,由商家造成的失誤,將進行補發,或退款處理。其它原因需退貨費用由客戶自行承擔。

Yami

下載亞米應用

返回頂部

為您推薦

品牌故事

京東圖書

为您推荐

Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折

評論{{'('+ commentList.posts_count + ')'}}

分享您的感受,幫助更多用戶做出選擇。

撰寫評論
{{ totalRating }} 撰寫評論
  • {{i}}星

    {{i}} 星

    {{ parseInt(commentRatingList[i]) }}%

Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ comment.content }}

Yami
查看更多

{{ formatTime(comment.in_dtm) }} 已購買 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}
Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}收起

{{ strLimit(comment,800) }}查看全部

Show Original

{{ comment.content }}

Yami
查看更多

{{ formatTime(comment.in_dtm) }} 已購買 {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}

暫無符合條件的評論~

評論詳情

Yami Yami

{{ showTranslate(commentDetails) }}收起

{{ strLimit(commentDetails,800) }}查看全部

Show Original

{{ commentDetails.content }}

Yami
查看更多

{{ formatTime(commentDetails.in_dtm) }} 已購買 {{groupData}}

{{ commentDetails.likes_count }} {{ commentDetails.likes_count }} {{ commentDetails.reply_count }} {{commentDetails.in_user==uid ? __('Delete') : __('Report')}}

請輸入內容

回覆{{'(' + replyList.length + ')'}}

Yami Yami

{{ showTranslate(reply) }}收起

{{ strLimit(reply,800) }}查看全部

Show Original

{{ reply.reply_content }}

{{ formatTime(reply.reply_in_dtm) }}

{{ reply.reply_likes_count }} {{ reply.reply_likes_count }} {{ reply.reply_reply_count }} {{reply.reply_in_user==uid ? __('Delete') : __('Report')}}

請輸入內容

取消

這是到目前為止的所有評論!

發表評論
商品評分

請輸入評論

  • 一個好的暱稱,會讓你的評論更受歡迎!
  • 修改了這裡的暱稱,個人資料中的暱稱也將被修改。
感謝你的評論
你的好評可以幫助我們的社區發現更好的亞洲商品。

舉報

取消

確認刪除該評論嗎?

取消

歷史瀏覽

品牌故事

京東圖書