《全栈数据之门》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:任柳江著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2017
  • ISBN:9787121309052
  • 页数:368 页
图书介绍:本书以数据分析领域最热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange 3来理解算法的一些细节。对于机器学习,既有常用算法KNN与Kmeans的应用,决策树与随机森林的实战,还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上,使用Spark的ML/MLlib库集成了前面的各部分内容,让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。

0x1 Linux,自由之光 1

0x10 Linux,你是我的眼 1

0x11 Linux基础,从零开始 3

01 Linux之门 3

02 文件操作 4

03 权限管理 6

04 软件安装 8

05 实战经验 10

0x12 sed与grep,文本处理 10

01 文本工具 10

02 grep的使用 11

03 grep家族 13

04 sed的使用 14

05 综合案例 16

0x13 数据工程,必备Shell 18

01 Shell分析 18

02 文件探索 19

03 内容探索 20

04 交差并补 20

05 其他常用的命令 21

06 批量操作 22

07 结语 25

0x14 Shell快捷键,Emacs之门 25

01 提高效率 25

02 光标移动 26

03 文本编辑 27

04 命令搜索 28

05 Emacs入门 29

06 Emacs思维 31

0x15 缘起Linux,一入Mac误终身 32

01 开源生万物 32

02 有钱就换Mac 32

03 程序员需求 33

04 非程序员需求 34

05 一入Mac误终身 35

0x16 大成就者,集群安装 36

01 离线安装 36

02 Host与SSH配置 37

03 sudo与JDK环境 39

04 准备Hadoop包 40

05 开启HTTP与配置源 41

06 安装ambari-server 41

07 后续服务安装 42

08 结语 44

0x2 Python,道法自然 45

0x20 Python,灵犀一指 45

0x21 Python基础,兴趣为王 47

01 第一语言 47

02 数据结构 47

03 文件读写 49

04 使用模块 50

05 函数式编程 52

06 一道面试题 53

07 兴趣驱动 55

0x22 喜新厌旧,2迁移3 56

01 新旧交替 56

02 基础变化 57

03 编码问题 58

04 其他变化 58

05 2to3脚本 60

06 PySpark配置 61

07 喜新厌旧 62

0x23 Anaconda,IPython 62

01 Anaconda 62

02 安装与配置 63

03 pip与源 64

04 IPython与Jupyter 65

05 结语 67

0x24 美不胜收,Python工具 67

01 缘起 67

02 调试与开发 68

03 排版与格式化 70

04 辅助工具 72

05 实用推荐 74

0x25 numpy基础,线性代数 75

01 numpy的使用 75

02 索引与切片 76

03 变形与统计 78

04 矩阵运算 80

05 实用方法 83

06 结语 85

0x26 numpy实战,PCA降维 85

01 PCA介绍 85

02 数据均值化 86

03 协方差矩阵 87

04 特征值与向量 88

05 数据映射降维 89

06 sklearn实现 90

0x3 大数据,其大无外 93

0x30 太大数据,极生两仪 93

0x31 神象住世,Hadoop 95

01 Hadoop 95

02 HDFS 96

03 角色与管理 97

04 文件操作 98

05 结语 100

0x32 分治之美,MapReduce 100

01 map与reduce函数 100

02 分而治之 102

03 Hello,World 103

04 Streaming接口 105

0x33 Hive基础,蜂巢与仓库 106

01 引言 106

02 Hive接口 107

03 分区建表 108

04 分区机制 110

05 数据导入/导出 111

06 Hive-QL 112

07 结语 114

0x34 Hive深入,实战经验 115

01 排序与分布式 115

02 多表插入与mapjoin 116

03 加载map-reduce脚本 117

04 使用第三方UDF 119

05 实战经验 120

06 生成唯一ID 121

0x35 HBase库,实时业务 122

01 理论基础 122

02 Shell操作 123

03 关联Hive表 126

04 数据导入 128

05 实用经验 130

0x36 SQL与NoSQL,Sqoop为媒 130

01 SQL与NoSQL 130

02 从MySQL导入HDFS 131

03 增量导入 134

04 映射到Hive 135

05 导入Hive表 136

06 从HDFS导出到MySQL 137

07 从Hive导出到MySQL 138

0x4 数据分析,见微知著 141

0x40 大数据分析,鲁班为祖师 141

0x41 SQL技能,必备MySQL 143

01 SQL工具 143

02 基础操作 144

03 查询套路 145

04 join查询 146

05 union与exists 149

06 实战经验 151

0x42 快刀awk,斩乱数据 152

01 快刀 152

02 一二三要点 152

03 一个示例 154

04 应用与统计 154

05 斩乱麻 156

0x43 Pandas,数据之框 157

01 数据为框 157

02 加载数据 158

03 行列索引 159

04 行列操作 161

05 合并聚合 163

06 迭代数据 164

07 结语 165

0x44 Zeppelin,一统江湖 166

01 心潮澎湃 166

02 基本使用 168

03 SQL与可视化 169

04 安装Zeppelin 172

05 配置Zeppelin 173

06 数据安全 174

07 使用心得 176

0x45 数据分组,聚合窗口 177

01 MySQL聚合 177

02 Spark聚合 178

03 非聚合字段 179

04 Hive实现 180

05 group_concat 181

06 Hive窗口函数 183

07 DataFrame窗口 184

08 结语 185

0x46 全栈分析,六层内功 186

01 引言 186

02 MySQL版本 186

03 awk版本 187

04 Python版本 188

05 Hive版本 189

06 map-reduce版本 190

07 Spark版本 190

08 结语 191

0x5 机器学习,人类失控 193

0x50 机器学习,琅琊论断 193

0x51 酸酸甜甜,Orange 195

01 可视化学习 195

02 数据探索 196

03 模型与评估 199

04 组件介绍 200

05 与Python进行整合 202

06 结语 204

0x52 sklearn,机器学习 205

01 sklearn介绍 205

02 数据预处理 206

03 建模与预测 207

04 模型评估 209

05 模型持久化 210

06 三个层次 210

0x53 特征转换,量纲伸缩 211

01 特征工程 211

02 独热编码 212

03 sklearn示例 213

04 标准化与归一化 215

05 sklearn与Spark实现 216

06 结语 219

0x54 描述统计,基础指标 220

01 描述性统计 220

02 Pandas实现 222

03 方差与协方差 223

04 Spark-RDD实现 224

05 DataFrame实现 226

06 Spark-SQL实现 227

07 结语 227

0x55 模型评估,交叉验证 228

01 测试与训练 228

02 评价指标 229

03 交叉验证 231

04 验证数据 232

05 OOB数据 233

0x56 文本特征,词袋模型 234

01 自然语言 234

02 中文分词 235

03 词袋模型 236

04 词频统计 237

05 TF-IDF 238

06 结语 239

0x6 算法预测,占天卜地 241

0x60 命由己做,福自己求 241

0x61 近朱者赤,相亲kNN 243

01 朴素的思想 243

02 算法介绍 243

03 分类与回归 244

04 k与半径 245

05 优化计算 246

06 实例应用 247

0x62 物以类聚,Kmeans 248

01 算法描述 248

02 建立模型 249

03 理解模型 251

04 距离与相似性 252

05 降维与可视化 253

06 无监督学习 255

0x63 很傻很天真,朴素贝叶斯 257

01 朴素思想 257

02 概率公式 257

03 三种实现 258

04 sklearn示例 260

05 朴素却不傻 262

0x64 菩提之树,决策姻缘 263

01 缘起 263

02 Orange演示 264

03 scikit-learn模拟 266

04 熵与基尼指数 267

05 决策过程分析 268

06 Spark模拟 270

07 结语 271

0x65 随机之美,随机森林 271

01 树与森林 271

02 处处随机 273

03 sklearn示例 274

04 MLlib示例 275

05 特点与应用 276

0x66 自编码器,深度之门 277

01 深度学习 277

02 特征学习 278

03 自动编码器 280

04 Keras代码 282

05 抗噪编码器 283

0x7 Spark,唯快不破 285

0x70 人生苦短,快用Spark 285

0x71 PySpark之门,强者联盟 287

01 全栈框架 287

02 环境搭建 288

03 分布式部署 289

04 示例分析 290

05 两类算子 292

06 map与reduce 293

07 AMPLab的野心 294

0x72 RDD算子,计算之魂 295

01 算子之道 295

02 获取数据 296

03 过滤与排序 297

04 聚合数据 298

05 ioin连接 299

06 union与zip 300

07 读写文件 301

08 结语 303

0x73 分布式SQL,蝶恋飞舞 304

01 SQL工具 304

02 命令行CLI 304

03 读Hive数据 305

04 将结果写入Hive 306

05 读写MySQL数据 307

06 读写三种文件 308

0x74 DataFrame,三角之恋 310

01 DataFrame 310

02 生成数据框 311

03 合并与ioin 313

04 select操作 314

05 SQL操作 315

06 自定义UDF 316

07 三角之恋 318

0x75 神器之父,Scala入世 319

01 Spark与Scala 319

02 Scala REPL 320

03 编译Scala 321

04 sbt编译 322

05 示例分析 323

06 编译提交 325

0x76 机器之心,ML套路 326

01 城市套路深 326

02 算法与特征工程 327

03 管道工作流 328

04 OneHotEncoder示例 329

05 ML回归实战 331

06 特征处理与算法 332

07 拟合与评估 334

0x8 数据科学,全栈智慧 337

0x80 才高八斗,共分天下 337

0x81 自学数据,神蟒领舞 339

01 机器学习 339

02 语言领域 339

03 Python数据生态 340

04 相关资料 341

05 书籍推荐 342

06 性感的职业 343

0x82 数据科学,七大技能 343

01 七大技能 343

02 SQL与NoSQL技能 344

03 Linux工具集 344

04 Python或者R语言生态 345

05 Hadoop与Spark生态 345

06 概率、统计与线性代数 346

07 机器学习与深度学习 346

08 业务及杂项 347

09 结语 347

0x83 大无所大,生态框架 348

01 计算生态 348

02 离线计算 348

03 交互分析 349

04 实时处理 350

05 算法挖掘 351

06 发行版本 352

07 其他工具 353

0x84 集体智慧,失控哲学 354

01 数据是宝 354

02 一分为二 355

03 回归统一 356

04 聚少成多 356

05 你中有我 357

06 从小看大 358

07 大事化小 358

08 少即是多 359

0x85 一技之长,一生之用 359

01 一技之长 359

02 数据分析相关 360

03 Python相关 360

04 Hadoop相关 361

05 Spark相关 361

06 模型相关 362

07 算法相关 362

08 一生之用 363

0x86 知识作谱,数据为栈 363

01 知识作谱 363

02 理论基础 363

03 Python/R编程 364

04 分析与可视化 365

05 大数据 365

06 ETL与特征工程 366

07 机器学习与深度学习 366

08 工具与库 367

09 全栈为用 367