图书介绍
数据整理实战指南PDF|Epub|txt|kindle电子书版本下载
![数据整理实战指南](https://www.shukui.net/cover/51/30073944.jpg)
- (美)Q.ETHAN MCCALLUM著;魏秀丽,李妹芳译 著
- 出版社: 北京:人民邮电出版社
- ISBN:7115411026
- 出版时间:2016
- 标注页数:210页
- 文件大小:67MB
- 文件页数:229页
- 主题词:数据处理-指南
PDF下载
下载说明
数据整理实战指南PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 从头说起:什么是噪音数据1
第2章 是我的问题还是数据的问题4
2.1 理解数据结构5
2.2 校验8
2.2.1 字段校验8
2.2.2 值校验9
2.2.3 简单统计的物理解释10
2.3 可视化11
2.3.1 关键词竞价排名示例13
2.3.2 搜索来源示例18
2.3.3 推荐分析19
2.3.4 时间序列数据22
2.4 小结27
第3章 数据是给人看的不是给机器看的28
3.1 数据28
3.1.1 问题:数据是给人看的29
3.1.2 对数据的安排29
3.1.3 数据分散在多个文件中32
3.2 解决方案:编写代码34
3.2.1 从糟糕的数据格式中读取数据34
3.2.2 从多个文件中读取数据36
3.3 附言42
3.4 其他格式43
3.5 小结45
第4章 纯文本中潜在的噪音数据46
4.1 使用哪种纯文本编码46
4.2 猜测文本编码格式50
4.3 对文本规范化处理53
4.4 问题:在纯文本中掺入了特定应用字符55
4.5 通过Python处理文本59
4.6 实践练习题60
第5章 重组Web数据62
5.1 你能获得数据吗63
5.1.1 一般工作流程示例64
5.1.2 Robots协议65
5.1.3 识别数据组织模式66
5.1.4 存储离线版本68
5.1.5 网页抓取信息69
5.2 真正的困难73
5.2.1 下载原始内容73
5.2.2 表单、对话框和新建窗口73
5.2.3 Flash74
5.3 不利情况的解决办法75
5.4 小结75
第6章 检测撒谎者以及相互矛盾网上评论的困惑76
6.1 Weotta公司76
6.2 获得评论77
6.3 情感分类77
6.4 极化语言78
6.5 创建语料库80
6.6 训练分类器81
6.7 分类器验证82
6.8 用数据设计84
6.9 经验教训84
6.10 小结85
6.11 信息资源86
第7章 请噪音数据站出来87
7.1 实例1:在制造业中减少缺陷87
7.2 实例2:谁打来的电话90
7.3 实例3:当“典型”不等于“平均”92
7.4 经验总结95
7.5 到工厂参观能成为试验的一部分吗96
第8章 血、汗和尿97
8.1 书呆子戏剧性工作交换97
8.2 化学家如何整理数字98
8.3 数据库都是我们的99
8.4 仔细检查102
8.5 生命短暂的漂亮代码库103
8.6 改变化学家(和其他电子表单滥用者)104
8.7 传递线(t1)和数据记录器(dr)105
第9章 当数据与现实不匹配107
9.1 到底是谁的报价机108
9.2 股票分割、股利和调整110
9.3 糟糕的现实112
9.4 小结114
第10章 偏差和误差的来源115
10.1 估算上的偏差:一般性的问题117
10.2 报告上的误差:一般性的问题118
10.3 其他偏差来源121
10.3.1 顶层编码/底部编码121
10.3.2 Seam偏差122
10.3.3 代理报告123
10.3.4 样本选择123
10.4 小结124
参考文献124
第11章 不要把完美和正确对立起来:噪音数据真是噪音吗128
11.1 回忆学校生活128
11.2 向着专业领域前进129
11.2.1 政府工作130
11.2.2 政府数据非常真实131
11.3 应用实例——服务电话132
11.4 继续前进133
11.5 经验与未来展望134
第12章 数据库攻击:什么时候使用文件135
12.1 历史135
12.2 建立我的工具箱136
12.3 数据存储——我的路障136
12.4 将文件作为数据存储器137
12.4.1 文件简单138
12.4.2 文件处理一切138
12.4.3 文件可包含任何数据形式138
12.4.4 局部数据破坏139
12.4.5 文件拥有很棒的工具139
12.4.6 没有安装税139
12.5 文件的概念140
12.5.1 编码140
12.5.2 文本文件140
12.5.3 二进制数据140
12.5.4 内存映射文件140
12.5.5 文件格式140
12.5.6 分隔符142
12.6 文件支持的网络框架143
12.6.1 动机143
12.6.2 实现145
12.7 反馈145
第13章 卧库表,隐网络146
13.1 关系成本分配模型147
13.2 组合展开微妙的作用150
13.3 隐藏网络的浮现151
13.4 存储图表151
13.5 利用Gremlin遍历图表152
13.6 在网络属性里寻找价值154
13.7 从多重数据模型角度考虑并使用正确的工具155
13.8 致谢155
第14章 云计算神话156
14.1 关于“云”的介绍156
14.2 何谓“云”156
14.3 云和大数据157
14.4 Fred的故事157
14.4.1 起初一切都好157
14.4.2 基础结构全部放在云端158
14.4.3 随着规模增长,最初的扩展很轻松158
14.4.4 麻烦出现了158
14.4.5 需要提高性能158
14.4.6 关键要提高RAID 10性能158
14.4.7 重要的局部运行中断引发长期停机159
14.4.8 有代价的RAID 10159
14.4.9 数据规模增大160
14.4.10 地理冗余成为首选160
14.4.11 水平扩展并不像想像得那么简单160
14.4.12 成本显著增长160
14.5 Fred的荒唐事161
14.5.1 神话1:云是所有基础设施组件的解决方案161
14.5.2 神话2:云可以节约成本161
14.5.3 神话3:通过RAID可以将cloud 10的性能提高至可接受的水平163
14.5.4 神话4:云计算使水平扩展轻松163
14.6 结论和推荐164
第15章 数据科学的阴暗面165
15.1 避开这些陷阱165
15.1.1 对数据一无所知166
15.1.2 应该只为数据科学家提供一种工具来解决所有问题167
15.1.3 应该为了分析而分析169
15.1.4 应该学会分享169
15.1.5 应该期望数据科学家无所不能170
15.2 数据学家在机构中的位置170
15.3 最后的想法171
第16章 如何雇佣机器学习专家172
16.1 确定问题172
16.2 模型测试173
16.3 创建训练集174
16.4 选择特征175
16.5 数据编码176
16.6 训练集、测试集和解决方案集176
16.7 问题描述177
16.8 回答问题178
16.9 整合解决方案178
16.10 小结179
第17章 数据的可追踪性180
17.1 原因180
17.2 个人经验181
17.2.1 快照181
17.2.2 保存数据源181
17.2.3 衡量数据源182
17.2.4 逆向恢复数据182
17.2.5 分阶段处理数据并保持各阶段的独立性182
17.2.6 识别根源183
17.2.7 寻找要完善的区域183
17.3 不变性:从函数程序设计借来的理念183
17.4 案例184
17.4.1 网络爬虫184
17.4.2 改变185
17.4.3 聚类185
17.4.4 普及度185
17.5 小结186
第18章 社交媒体:是可抹去的印记吗187
18.1 社交媒体:到底是谁的数据188
18.2 管控188
18.3 商业重组190
18.4 对沟通和表达的期望190
18.5 新的最终用户期望的技术含义192
18.6 这个行业是做什么的194
18.6.1 验证API195
18.6.2 更新通知API195
18.7 最终用户怎么做195
18.8 我们怎样一起工作196
第19章 揭秘数据质量分析:了解什么时候数据足够优质197
19.1 框架介绍:数据质量分析的4个C198
19.1.1 完整性199
19.1.2 一致性201
19.1.3 准确性203
19.1.4 可解释性205
19.2 结论208