0x1 Linux,自由之光 1
0x10 Linux,你是我的眼 1
0x11 Linux基础,从零开始 3
01 Linux之门 3
02 文件操作 4
03 权限管理 6
04 软件安装 8
05 实战经验 10
0x12 sed与grep,文本处理 10
01 文本工具 10
02 grep的使用 11
03 grep家族 13
04 sed的使用 14
05 综合案例 16
0x13 数据工程,必备Shell 18
01 Shell分析 18
02 文件探索 19
03 内容探索 20
04 交差并补 20
05 其他常用的命令 21
06 批量操作 22
07 结语 25
0x14 Shell快捷键,Emacs之门 25
01 提高效率 25
02 光标移动 26
03 文本编辑 27
04 命令搜索 28
05 Emacs入门 29
06 Emacs思维 31
0x15 缘起Linux,一入Mac误终身 32
01 开源生万物 32
02 有钱就换Mac 32
03 程序员需求 33
04 非程序员需求 34
05 一入Mac误终身 35
0x16 大成就者,集群安装 36
01 离线安装 36
02 Host与SSH配置 37
03 sudo与JDK环境 39
04 准备Hadoop包 40
05 开启HTTP与配置源 41
06 安装ambari-server 41
07 后续服务安装 42
08 结语 44
0x2 Python,道法自然 45
0x20 Python,灵犀一指 45
0x21 Python基础,兴趣为王 47
01 第一语言 47
02 数据结构 47
03 文件读写 49
04 使用模块 50
05 函数式编程 52
06 一道面试题 53
07 兴趣驱动 55
0x22 喜新厌旧,2迁移3 56
01 新旧交替 56
02 基础变化 57
03 编码问题 58
04 其他变化 58
05 2to3脚本 60
06 PySpark配置 61
07 喜新厌旧 62
0x23 Anaconda,IPython 62
01 Anaconda 62
02 安装与配置 63
03 pip与源 64
04 IPython与Jupyter 65
05 结语 67
0x24 美不胜收,Python工具 67
01 缘起 67
02 调试与开发 68
03 排版与格式化 70
04 辅助工具 72
05 实用推荐 74
0x25 numpy基础,线性代数 75
01 numpy的使用 75
02 索引与切片 76
03 变形与统计 78
04 矩阵运算 80
05 实用方法 83
06 结语 85
0x26 numpy实战,PCA降维 85
01 PCA介绍 85
02 数据均值化 86
03 协方差矩阵 87
04 特征值与向量 88
05 数据映射降维 89
06 sklearn实现 90
0x3 大数据,其大无外 93
0x30 太大数据,极生两仪 93
0x31 神象住世,Hadoop 95
01 Hadoop 95
02 HDFS 96
03 角色与管理 97
04 文件操作 98
05 结语 100
0x32 分治之美,MapReduce 100
01 map与reduce函数 100
02 分而治之 102
03 Hello,World 103
04 Streaming接口 105
0x33 Hive基础,蜂巢与仓库 106
01 引言 106
02 Hive接口 107
03 分区建表 108
04 分区机制 110
05 数据导入/导出 111
06 Hive-QL 112
07 结语 114
0x34 Hive深入,实战经验 115
01 排序与分布式 115
02 多表插入与mapjoin 116
03 加载map-reduce脚本 117
04 使用第三方UDF 119
05 实战经验 120
06 生成唯一ID 121
0x35 HBase库,实时业务 122
01 理论基础 122
02 Shell操作 123
03 关联Hive表 126
04 数据导入 128
05 实用经验 130
0x36 SQL与NoSQL,Sqoop为媒 130
01 SQL与NoSQL 130
02 从MySQL导入HDFS 131
03 增量导入 134
04 映射到Hive 135
05 导入Hive表 136
06 从HDFS导出到MySQL 137
07 从Hive导出到MySQL 138
0x4 数据分析,见微知著 141
0x40 大数据分析,鲁班为祖师 141
0x41 SQL技能,必备MySQL 143
01 SQL工具 143
02 基础操作 144
03 查询套路 145
04 join查询 146
05 union与exists 149
06 实战经验 151
0x42 快刀awk,斩乱数据 152
01 快刀 152
02 一二三要点 152
03 一个示例 154
04 应用与统计 154
05 斩乱麻 156
0x43 Pandas,数据之框 157
01 数据为框 157
02 加载数据 158
03 行列索引 159
04 行列操作 161
05 合并聚合 163
06 迭代数据 164
07 结语 165
0x44 Zeppelin,一统江湖 166
01 心潮澎湃 166
02 基本使用 168
03 SQL与可视化 169
04 安装Zeppelin 172
05 配置Zeppelin 173
06 数据安全 174
07 使用心得 176
0x45 数据分组,聚合窗口 177
01 MySQL聚合 177
02 Spark聚合 178
03 非聚合字段 179
04 Hive实现 180
05 group_concat 181
06 Hive窗口函数 183
07 DataFrame窗口 184
08 结语 185
0x46 全栈分析,六层内功 186
01 引言 186
02 MySQL版本 186
03 awk版本 187
04 Python版本 188
05 Hive版本 189
06 map-reduce版本 190
07 Spark版本 190
08 结语 191
0x5 机器学习,人类失控 193
0x50 机器学习,琅琊论断 193
0x51 酸酸甜甜,Orange 195
01 可视化学习 195
02 数据探索 196
03 模型与评估 199
04 组件介绍 200
05 与Python进行整合 202
06 结语 204
0x52 sklearn,机器学习 205
01 sklearn介绍 205
02 数据预处理 206
03 建模与预测 207
04 模型评估 209
05 模型持久化 210
06 三个层次 210
0x53 特征转换,量纲伸缩 211
01 特征工程 211
02 独热编码 212
03 sklearn示例 213
04 标准化与归一化 215
05 sklearn与Spark实现 216
06 结语 219
0x54 描述统计,基础指标 220
01 描述性统计 220
02 Pandas实现 222
03 方差与协方差 223
04 Spark-RDD实现 224
05 DataFrame实现 226
06 Spark-SQL实现 227
07 结语 227
0x55 模型评估,交叉验证 228
01 测试与训练 228
02 评价指标 229
03 交叉验证 231
04 验证数据 232
05 OOB数据 233
0x56 文本特征,词袋模型 234
01 自然语言 234
02 中文分词 235
03 词袋模型 236
04 词频统计 237
05 TF-IDF 238
06 结语 239
0x6 算法预测,占天卜地 241
0x60 命由己做,福自己求 241
0x61 近朱者赤,相亲kNN 243
01 朴素的思想 243
02 算法介绍 243
03 分类与回归 244
04 k与半径 245
05 优化计算 246
06 实例应用 247
0x62 物以类聚,Kmeans 248
01 算法描述 248
02 建立模型 249
03 理解模型 251
04 距离与相似性 252
05 降维与可视化 253
06 无监督学习 255
0x63 很傻很天真,朴素贝叶斯 257
01 朴素思想 257
02 概率公式 257
03 三种实现 258
04 sklearn示例 260
05 朴素却不傻 262
0x64 菩提之树,决策姻缘 263
01 缘起 263
02 Orange演示 264
03 scikit-learn模拟 266
04 熵与基尼指数 267
05 决策过程分析 268
06 Spark模拟 270
07 结语 271
0x65 随机之美,随机森林 271
01 树与森林 271
02 处处随机 273
03 sklearn示例 274
04 MLlib示例 275
05 特点与应用 276
0x66 自编码器,深度之门 277
01 深度学习 277
02 特征学习 278
03 自动编码器 280
04 Keras代码 282
05 抗噪编码器 283
0x7 Spark,唯快不破 285
0x70 人生苦短,快用Spark 285
0x71 PySpark之门,强者联盟 287
01 全栈框架 287
02 环境搭建 288
03 分布式部署 289
04 示例分析 290
05 两类算子 292
06 map与reduce 293
07 AMPLab的野心 294
0x72 RDD算子,计算之魂 295
01 算子之道 295
02 获取数据 296
03 过滤与排序 297
04 聚合数据 298
05 ioin连接 299
06 union与zip 300
07 读写文件 301
08 结语 303
0x73 分布式SQL,蝶恋飞舞 304
01 SQL工具 304
02 命令行CLI 304
03 读Hive数据 305
04 将结果写入Hive 306
05 读写MySQL数据 307
06 读写三种文件 308
0x74 DataFrame,三角之恋 310
01 DataFrame 310
02 生成数据框 311
03 合并与ioin 313
04 select操作 314
05 SQL操作 315
06 自定义UDF 316
07 三角之恋 318
0x75 神器之父,Scala入世 319
01 Spark与Scala 319
02 Scala REPL 320
03 编译Scala 321
04 sbt编译 322
05 示例分析 323
06 编译提交 325
0x76 机器之心,ML套路 326
01 城市套路深 326
02 算法与特征工程 327
03 管道工作流 328
04 OneHotEncoder示例 329
05 ML回归实战 331
06 特征处理与算法 332
07 拟合与评估 334
0x8 数据科学,全栈智慧 337
0x80 才高八斗,共分天下 337
0x81 自学数据,神蟒领舞 339
01 机器学习 339
02 语言领域 339
03 Python数据生态 340
04 相关资料 341
05 书籍推荐 342
06 性感的职业 343
0x82 数据科学,七大技能 343
01 七大技能 343
02 SQL与NoSQL技能 344
03 Linux工具集 344
04 Python或者R语言生态 345
05 Hadoop与Spark生态 345
06 概率、统计与线性代数 346
07 机器学习与深度学习 346
08 业务及杂项 347
09 结语 347
0x83 大无所大,生态框架 348
01 计算生态 348
02 离线计算 348
03 交互分析 349
04 实时处理 350
05 算法挖掘 351
06 发行版本 352
07 其他工具 353
0x84 集体智慧,失控哲学 354
01 数据是宝 354
02 一分为二 355
03 回归统一 356
04 聚少成多 356
05 你中有我 357
06 从小看大 358
07 大事化小 358
08 少即是多 359
0x85 一技之长,一生之用 359
01 一技之长 359
02 数据分析相关 360
03 Python相关 360
04 Hadoop相关 361
05 Spark相关 361
06 模型相关 362
07 算法相关 362
08 一生之用 363
0x86 知识作谱,数据为栈 363
01 知识作谱 363
02 理论基础 363
03 Python/R编程 364
04 分析与可视化 365
05 大数据 365
06 ETL与特征工程 366
07 机器学习与深度学习 366
08 工具与库 367
09 全栈为用 367