{{sellerTotalView > 1 ? __("sellers", {number: sellerTotalView}) : __("seller", {number: sellerTotalView}) }}, {{numTotalView > 1 ? __("items", {number: numTotalView}) : __("item", {number: numTotalView}) }}
送料無料

配送エリアを切り替えます

在庫情報と配送スピードは地域によって異なる場合があります。

郵便番号の履歴

{{email ? __('Got it!') : __('Restock Alert')}}

商品が再入荷され次第、すぐにメールでお知らせします。

Yami

Jingdong book

干净的数据 数据清洗入门与实践

{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}

干净的数据 数据清洗入门与实践

{{__(":people-members", {'people': item.limit_people_count})}} {{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ item.invalid_price }} {{ itemDiscount }}
終了まで
{{ itemCurrency }}{{ item.valid_price }}
{{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }}
{{ itemDiscount }}
{{ itemCurrency }}{{ item.valid_price }} {{ itemCurrency }}{{ priceFormat(item.valid_price / item.bundle_specification) }}/{{ item.unit }} {{ itemCurrency }}{{ item.invalid_price }} {{itemDiscount}}
{{ itemCurrency }}{{ item.valid_price }}
セール終了まで
タイムセール開始まであと タイムセール終了まであと
{{ getSeckillDesc(item.seckill_data) }}
{{ __( "Pay with Gift Card to get sale price: :itemCurrency:price", { 'itemCurrency' : itemCurrency, 'price' : (item.giftcard_price ? priceFormat(item.giftcard_price) : '0.00') } ) }} ({{ itemCurrency }}{{ priceFormat(item.giftcard_price / item.bundle_specification) }}/{{ item.unit }}) 詳細
消費期限

現在は販売していません

この商品がいつ再入荷するか、分かりません。

当該地域へ配送できません
売り切れ

製品説明

商品の詳細を全て表示
Editer Recommend

数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。
本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。
如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!
- 理解数据清洗在整个数据科学过程中的作用
- 掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等
- 发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能
- 学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式
- 采用三种策略来解析和清洗HTML文件中的数据
- 揭开PDF文档的秘密,提取需要的数据
- 借助一系列解决方案来清洗存放在关系型数据库里的坏数据
- 创建自己的干净数据集,为其打包、添加授权许可并与他人共享
- 使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目
Content Description

本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
Author Description

Megan Squire 依隆大学计算科学专业教授,主要教授数据库系统、Web开发、数据挖掘和数据科学课程。有二十年的数据收集与清洗经验。她还是FLOSSmole研究项目的领导者,致力于收集与分析数据,以便研究免费软件、自由软件和开源软件的开发。
Catalogue

目录

第1 章 为什么需要清洗数据 1
1.1新视角1
1.2数据科学过程2
1.3传达数据清洗工作的内容3
1.4数据清洗环境4
1.5入门示例5
1.6小结9
第2章 基础知识——格式、 类型与编码11
2.1文件格式11
2.1.1文本文件与二进制文件11
2.1.2常见的文本文件格式14
2.1.3分隔格式14
2.2归档与压缩20
2.2.1归档文件20
2.2.2压缩文件21
2.3数据类型、空值与编码24
2.3.1数据类型25
2.3.2数据类型间的相互转换29
2.3.3转换策略30
2.3.4隐藏在数据森林中的空值37
2.3.5字符编码41
2.4小结46
第3章 数据清洗的老黄牛——电子表格和文本编辑器47
3.1电子表格中的数据清洗47
3.1.1Excel 的文本分列功能47
3.1.2字符串拆分51
3.1.3字符串拼接51
3.2文本编辑器里的数据清洗54
3.2.1文本调整55
3.2.2列选模式56
3.2.3加强版的查找与替换功能56
3.2.4文本排序与去重处理58
3.2.5Process Lines Containing60
3.3示例项目60
3.3.1第一步:问题陈述60
3.3.2第二步:数据收集60
3.3.3第三步:数据清洗61
3.3.4第四步:数据分析63
3.4小结63
第4章 讲通用语言——数据转换64
4.1基于工具的快速转换64
4.1.1从电子表格到CSV65
4.1.2从电子表格到JSON65
4.1.3使用phpMyAdmin 从SQL语句中生成CSV 或JSON67
4.2使用PHP 实现数据转换69
4.2.1使用PHP 实现SQL 到JSON的数据转换69
4.2.2使用PHP 实现SQL 到CSV的数据转换70
4.2.3使用PHP 实现JSON 到CSV的数据转换71
4.2.4使用PHP 实现CSV 到JSON的数据转换71
4.3使用Python 实现数据转换72
4.3.1使用Python 实现CSV 到JSON的数据转换72
4.3.2使用csvkit 实现CSV 到JSON的数据转换73
4.3.3使用Python 实现JSON 到CSV的数据转换74
4.4示例项目74
4.4.1第一步:下载GDF 格式的Facebook 数据75
4.4.2第二步:在文本编辑器中查看GDF 文件75
4.4.3第三步:从GDF 格式到JSON格式的转换76
4.4.4第四步:构建D3 图79
4.4.5第五步:把数据转换成Pajek格式81
4.4.6第六步:简单的社交网络分析83
4.5小结84
第5章 收集并清洗来自网络的数据85
5.1理解HTML 页面结构85
5.1.1行分隔模型86
5.1.2树形结构模型86
5.2方法一:Python 和正则表达式87
5.2.1第一步:查找并保存实验用的Web 文件88
5.2.2第二步:观察文件内容并判定有价值的数据88
5.2.3第三步:编写Python 程序把数据保存到CSV 文件中89
5.2.4第四步:查看文件并确认清洗结果89
5.2.5使用正则表达式解析HTML的局限性90
5.3方法二:Python 和BeautifulSoup90
5.3.1第一步:找到并保存实验用的文件90
5.3.2第二步:安装BeautifulSoup91
5.3.3第三步:编写抽取数据用的Python 程序91
5.3.4第四步:查看文件并确认清洗结果92
5.4方法三:Chrome Scraper92
5.4.1第一步:安装Chrome 扩展Scraper92
5.4.2第二步:从网站上收集数据92
5.4.3第三步:清洗数据94
5.5示例项目:从电子邮件和论坛中抽取数据95
5.5.1项目背景95
5.5.2第一部分:清洗来自Google Groups 电子邮件的数据96
5.5.3第二部分:清洗来自网络论坛的数据99
5.6小结105
第6章 清洗PDF 文件中的数据106
6.1为什么PDF 文件很难清洗106
6.2简单方案——复制107
6.2.1我们的实验文件107
6.2.2第一步:把我们需要的数据复制出来108
6.2.3第二步:把复制出来的数据粘贴到文本编辑器中109
6.2.4第三步:轻量级文件110
6.3第二种技术——pdfMiner111
6.3.1第一步:安装pdfMiner111
6.3.2第二步:从PDF 文件中提取文本111
6.4第三种技术——Tabula113
6.4.1第一步:下载Tabula113
6.4.2第二步:运行Tabula113
6.4.3第三步:用Tabula 提取数据114
6.4.4第四步:数据复制114
6.4.5第五步:进一步清洗114
6.5所有尝试都失败之后——第四种技术115
6.6小结117
第7章 RDBMS 清洗技术118
7.1准备118
7.2第一步:下载并检查Sentiment140119
7.3第二步:清洗要导入的数据119
7.4第三步:把数据导入MySQL120
7.4.1发现并清洗异常数据121
7.4.2创建自己的数据表122
7.5第四步:清洗&字符123
7.6第五步:清洗其他未知字符124
7.7第六步:清洗日期125
7.8第七步:分离用户提及、标签和URL127
7.8.1创建一些新的数据表128
7.8.2提取用户提及128
7.8.3提取标签130
7.8.4提取URL131
7.9第八步:清洗查询表132
7.10第九步:记录操作步骤134
7.11小结135
第8章 数据分享的最佳实践136
8.1准备干净的数据包136
8.2为数据编写文档139
8.2.1README 文件139
8.2.2文件头141
8.2.3数据模型和图表142
8.2.4维基或CMS144
8.3为数据设置使用条款与许可协议144
8.4数据发布146
8.4.1数据集清单列表146
8.4.2Stack Exchange 上的OpenData147
8.4.3编程马拉松147
8.5小结148
第9章 Stack Overflow 项目149
9.1第一步:关于Stack Overflow 的问题149
9.2第二步:收集并存储Stack Overflow数据151
9.2.1下载Stack Overflow 数据151
9.2.2文件解压152
9.2.3创建MySQL 数据表并加载数据152
9.2.4构建测试表154
9.3第三步:数据清洗156
9.3.1创建新的数据表157
9.3.2提取URL 并填写新数据表158
9.3.3提取代码并填写新表159
9.4第四步:数据分析161
9.4.1哪些代码分享网站最为流行161
9.4.2问题和答案中的代码分享网站都有哪些162
9.4.3提交内容会同时包含代码分享URL 和程序源代码吗165
9.5第五步:数据可视化166
9.6第六步:问题解析169
9.7从测试表转向完整数据表169
9.8小结170
第10章 Twitter 项目171
10.1第一步:关于推文归档数据的问题171
10.2第二步:收集数据172
10.2.1下载并提取弗格森事件的数据文件173
10.2.2创建一个测试用的文件174
10.2.3处理推文ID174
10.3第三步:数据清洗179
10.3.1创建数据表179
10.3.2用Python 为新表填充数据180
10.4第四步:简单的数据分析182
10.5第五步:数据可视化183
10.6第六步:问题解析186
10.7把处理过程应用到全数据量(非测试用)数据表186
10.8小结187

仕様

ブランド Jingdong book
ブランドテリトリー China

免責声明

商品の価格、パッケージ、仕様などの情報は、事前に通知することなく変更される場合があります。私たちは商品情報を迅速に更新するよう努力していますが、実際に受け取った商品を基準にしてください。商品を利用する前に、常に商品に付属するラベル、警告、および説明を読んでください。

利用規約の全文を見ます
お気に入りに追加
{{ $isZh ? coupon.coupon_name_sub : coupon.coupon_ename_sub | formatCurrency }}
{{__("Buy Directly")}} {{ itemCurrency }}{{ item.directly_price }}
数量
{{ quantity }}
{{ instockMsg }}
{{ limitText }}
{{buttonTypePin == 3 ? __("Scan to view more PinGo") : __("Scan to start")}}
JD@CHINAによって販売します
配送先
{{ __("Ship to United States only") }}
69以上のご注文は送料無料
正規保証

カートに入れました

ショッピングを続ける

おすすめアイテム

{{ item.brand_name }}

{{ item.item_name }}

{{ item.currency }}{{ item.market_price }}

{{ item.currency }}{{ item.unit_price }}

{{ item.currency }}{{ item.unit_price }}

クーポン

{{ coupon.coupon_name_new | formatCurrency }}
受け取る 受取済み 受け取る終わりました
{{ getCouponDescStr(coupon) }}
{{ coupon.use_time_desc }}
間もなく期限切れ: {{ formatTime(coupon.use_end_time) }}

このアイテムを友達と共有します

Yamiギフトカード特別価格

ギフトカードで支払えば、ギフトカード特別価格が得られます

規則説明

ギフトカード特別価格は、一部商品の特別割引オファーです;

ギフトカード特別価格の商品を購入する場合、決済時に電子ギフトカードで相殺し、ギフトカードの残高が註文したギフトカード特別価格商品の合計価格を支払うのに十分であれば、ギフトカード特別価格を適用することができます;

ギフトカードを利用しない場合、あるいはギフトカードの残高が前項に述べた要件を満たさない場合、ギフトカード特別価格を適用することができません。通常の販売価格で計算されることになり、これらの商品を購入することができます。

ギフトカード特別価格の商品を購入した場合、残高が足りない場合は、カートページまたは決済ページの「チャージ」ボタンをクリックしてギフトカードへの購入とチャージを行うことができます。

もし商品はギフトカード特別価格を持つならば、「特別」の特殊価格表記を表示します;

その他の質問や懸念がある場合は、いつでもカスタマーサービスにお問い合わせください;

Yamibuyは最終解釈権を有します。

Yamiによって販売します

サービス保証

Yami $49以上で送料無料
Yami 返品・交換保証
Yami アメリカから発送

配送情報

  • アメリカ

    スタンダード配送料 $5.99 (アラスカ、ハワイを除く)、最終価格が $49 以上で送料無料

    地方発送 $5.99 (カリフォルニア、ニューヨーク、ニュージャージー、マサチューセッツ、ペンシルベニア、上記州の一部地域); 最終価格が $49 以上で送料無料

    2 日以内の配送 (アラスカとハワイを含む) は送料 $19.99 からです

返品・交換ポリシー

Yamiはお客様が安心して購入できるように努めています。Yamibuy.comから出荷されたほとんどの商品は、受領後30日以内に返品可能です(食品、ドリンク、スナック、乾物、健康補助食品、新鮮な食料品および生鮮食品は、損傷または品質の問題がある場合、受領後7日以内に返品可能です。すべてのお客様に安全で高品質の商品を提供するために、美容製品については、品質の問題ではない限り、開封または利用後の返金や返品は対応できません。一部の商品には異なるポリシーまたは要件がありますので、特別な商品については以下をご覧いただくか、Yamiカスタマーサービスにお問い合わせください)。
ご理解とご支持に感謝します。

利用規約の全文を見ます

Yamiによって販売します

Yamibuy 電子ギフトカードの利用規約

購入時に自動チャージを選択した場合、注文完了後にギフトカードが自動的にアカウントにチャージされます;

購入時にメール送信を選択した場合、注文完了後にシステムが自動的にカード番号とパスワードを入力したメールアドレスに送信します;

メールを送信する際、どのユーザーもメールに送られてきたカード番号とパスワードを使用してギフトカードをチャージできますので、メール情報をしっかり保管してください。

メール受信に問題がある場合は、カスタマーサービスに連絡して処理してもらってください;

メールを送信する際、ギフトカードが交換されていない場合は、メールを再発行することができます。他のユーザーにすでに交換されている場合は、補償することはできません;

Yamibuyの電子ギフトカードは、自営または第三者商品の購入に使用できます;

Yamibuyの電子ギフトカードには有効期限がなく、長期にわたって有効です;

Yamiの電子ギフトカードの金額は、複数回に分けて使用することができます;

Yamiの電子ギフトカードの業務規則の最終的な解釈権は、Yamiウェブサイトに帰属します。

返品・交換ポリシー

既に利用された電子ギフトカードは返金不可です。

販売元: JD@CHINA

サービス保証

Yami $49以上で送料無料
Yami 最高のアフターサービス
Yami 米国本土から発送

配送情報

  • アメリカ

    スタンダード配送料 $5.99 (アラスカ、ハワイを除く)、最終価格が $49 以上で送料無料

    地方発送 $5.99 (カリフォルニア、ニューヨーク、ニュージャージー、マサチューセッツ、ペンシルベニア、上記州の一部地域); 最終価格が $49 以上で送料無料

    2 日以内の配送 (アラスカとハワイを含む) は送料 $19.99 からです

返品・交換ポリシー

商品到着後30日以内であれば返品が可能です。返品される商品は、購入時の請求書の原本を含む、元の梱包のまま新品である必要があります。お客様の費用負担で製品を返品してください。

JD@CHINAによって販売します

サービス保証

Yami $以上の店舗間注文: 送料無料
Yami 30日間返品・交換保証

Yami-中国集荷倉庫

Yamiが中国から厳選し、各優秀店舗の商品をYami中国統合センターに集めて、パッケージをまとめて一度に国際郵送でお客様の住所までお届けします。店舗間で$69以上になれば、送料無料になります。複数の販売者が提供する幅広い商品から選び、店舗間送料無料か低い送料を手軽に楽しめます。

返品・交換ポリシー

30日以内の返品・交換保証を提供します。商品は未使用の元のパッケージに入れられ、購入証明書が添付される必要があります。商品の品質上の問題、間違った配送、または配送漏れなど、販売者によって引き起こされたミスについては、返金処理されます。その他の理由による返品・交換の送料はお客様ご負担となります。すべての商品は長距離を輸送するため、内部品質に影響しない簡易包装のプレスや摩耗等が発生する場合、返品・交換は致しかねます。

配送情報

Yami 中国集荷 Consolidated Shippingの送料は$ 9.99 ($69以上のご注文は送料無料)

中国の販売業者は、ご注文後 2 営業日以内に商品を配達します、すべての荷物は Yami 中国集荷センターに到着し (特別な状況および中国の特定法定休日を除く)、そこで荷物は混載され、 UPSで米国に配送されます。中国から米国への UPS の平均配達時間は約 10 営業日で、直送の追跡番号に基づいていつでも追跡できます。感染拡大の影響で、現在の物流は約5日遅れる可能性があります。パッケージには顧客の署名が必要です。署名されない場合、パッケージが紛失するリスクはお客様が負うことになります。

JD@CHINAによって販売します

サービス保証

69以上のご注文は送料無料
正規保証

配送情報

Yami Consolidated Shipping送料$9.99($69以上のご注文は送料無料になる)


Seller will ship the orders within 1-2 business days. The logistics time limit is expected to be 7-15 working days. In case of customs clearance, the delivery time will be extended by 3-7 days. The final receipt date is subject to the information of the postal company.

Yamiポイント情報

すべての商品は、 Yamibuy.com のプロモーションまたはポイント イベントの対象外となります。

返品・交換ポリシー

商品到着後30日以内であれば返品が可能です。返品される商品は、購入時の請求書の原本を含む、元の梱包のまま新品である必要があります。お客様の費用負担で製品を返品してください。

Yami

Yamiアプリをダウンロードします

トップに戻ります

おすすめアイテム

ブランドについて

Jingdong book

为您推荐

Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折
Yami
欣葉
2种选择
欣叶 御大福 芋头麻薯 180g

周销量 600+

$1.66 $1.99 83折

レビュー{{'('+ commentList.posts_count + ')'}}

商品レビューを書いて、他のユーザーを助ける最初の人になりましょう。

レビューを書く
{{ totalRating }} レビューを書く
  • {{i}}星

    {{i}} 星

    {{ parseInt(commentRatingList[i]) }}%

Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}非表示にします

{{ strLimit(comment,800) }}すべて見る

Show Original

{{ comment.content }}

Yami
すべてを表示します

{{ formatTime(comment.in_dtm) }} 購入済み {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}
Yami Yami
{{ comment.user_name }}

{{ showTranslate(comment) }}非表示にします

{{ strLimit(comment,800) }}すべて見る

Show Original

{{ comment.content }}

Yami
すべてを表示します

{{ formatTime(comment.in_dtm) }} 購入済み {{groupData}}

{{ comment.likes_count }} {{ comment.likes_count }} {{ comment.reply_count }} {{comment.in_user==uid ? __('Delete') : __('Report')}}

関連するコメントはありません~

レビュー詳細

Yami Yami

{{ showTranslate(commentDetails) }}非表示にします

{{ strLimit(commentDetails,800) }}すべて見る

Show Original

{{ commentDetails.content }}

Yami
すべてを表示します

{{ formatTime(commentDetails.in_dtm) }} 購入済み {{groupData}}

{{ commentDetails.likes_count }} {{ commentDetails.likes_count }} {{ commentDetails.reply_count }} {{commentDetails.in_user==uid ? __('Delete') : __('Report')}}

最低でも単語一つを入力してください

コメント{{'(' + replyList.length + ')'}}

Yami Yami

{{ showTranslate(reply) }}非表示にします

{{ strLimit(reply,800) }}すべて見る

Show Original

{{ reply.reply_content }}

{{ formatTime(reply.reply_in_dtm) }}

{{ reply.reply_likes_count }} {{ reply.reply_likes_count }} {{ reply.reply_reply_count }} {{reply.reply_in_user==uid ? __('Delete') : __('Report')}}

最低でも単語一つを入力してください

キャンセル

これまでのコメントは以上です!

レビューを書きます
商品評価

コメントをお願いします

  • 素敵なユーザーネームは、あなたのコメントをより人気のあるものにします!
  • ここでニックネームを変更すると、アカウントのニックネームも同じに変更されます。
商品レビューをありがとうございます。
あなたの素晴らしいレビューは私たちのコミュニティがより良いアジア商品を見つけるのに役立ちます。

通報します

キャンセル

本当にレビューを削除してもよろしいですか?

キャンセル

過去に閲覧した商品

ブランドについて

Jingdong book