当前位置:首页 > 工业技术
大数据原理  复杂信息的准备  共享和分析
大数据原理  复杂信息的准备  共享和分析

大数据原理 复杂信息的准备 共享和分析PDF电子书下载

工业技术

  • 电子书积分:10 积分如何计算积分?
  • 作 者:(美)朱尔斯J.伯曼著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111572169
  • 页数:204 页
图书介绍:当大数据资源变得越发复杂时,仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关专业的学生阅读。
《大数据原理 复杂信息的准备 共享和分析》目录

第0章 引言 1

0.1大数据的定义 2

0.2大数据VS小数据 2

0.3大数据在哪里 4

0.4大数据最常见的目的是产生小数据 5

0.5机会 6

0.6大数据成为信息宇宙的中心 6

第1章 为非结构化数据提供结构 8

1.1背景 8

1.2机器翻译 9

1.3自动编码 11

1.4索引 14

1.5术语提取 16

第2章 标识、去标识和重标识 19

2.1背景 19

2.2标识符系统的特征 20

2.3注册唯一对象标识符 21

2.4糟糕的标识方法 24

2.5在标识符中嵌入信息:不推荐 25

2.6单向哈希函数 26

2.7案例:医院登记 27

2.8去标识化 28

2.9数据清洗 29

2.10重标识 30

2.11经验教训 31

第3章 本体论和语义学 32

3.1背景 32

3.2分类:最简单的本体 32

3.3本体:有多个父类的类 34

3.4分类模型选择 35

3.5资源描述框架模式简介 38

3.6本体开发的常见陷阱 40

第4章 内省 42

4.1背景 42

4.2自我认知 42

4.3可扩展标记语言 44

4.4 meaning简介 45

4.5命名空间与有意义的声明集合体 46

4.6资源描述框架三元组 47

4.7映射 49

4.8案例:可信时间戳 50

4.9总结 50

第5章 数据集成和软件互操作性 52

5.1背景 52

5.2调查标准委员会 53

5.3标准轨迹 53

5.4规范与标准 56

5.5版本控制 58

5.6合规问题 60

5.7大数据资源接口 60

第6章 不变性和永久性 62

6.1背景 62

6.2不变性和标识符 63

6.3数据对象 64

6.4遗留数据 65

6.5数据产生数据 67

6.6跨机构协调标识符 67

6.7零知识协调 68

6.8管理者的负担 69

第7章 测量 70

7.1背景 70

7.2计数 70

7.3基因计数 72

7.4处理否定 73

7.5理解控制 74

7.6测量的实践意义 75

7.7强迫症:伟大数据管理员的标志 76

第8章 简单有效的大数据技术 77

8.1背景 77

8.2观察数据 78

8.3数据范围 85

8.4分母 87

8.5频率分布 89

8.6均值和标准差 92

8.7估计分析 94

8.8案例:用谷歌Ngram发现数据趋势 95

8.9案例:预测观众的电影偏好 97

第9章 分析 99

9.1背景 99

9.2分析任务 99

9.3聚类、分类、推荐和建模 100

9.3.1聚类算法 100

9.3.2分类算法 101

9.3.3推荐算法 101

9.3.4建模算法 101

9.4数据约简 103

9.5数据标准化和调整 105

9.6大数据软件:速度和可扩展性 107

9.7寻找关系而非相似之处 108

第10章 大数据分析中的特殊注意事项 111

10.1背景 111

10.2数据搜索理论 111

10.3理论搜索中的数据 112

10.4过度拟合 113

10.5巨大的偏差 113

10.6数据太多 116

10.7数据修复 116

10.8大数据的数据子集:不可加和不传递 117

10.9其他大数据缺陷 117

第11章 逐步走进大数据分析 120

11.1背景 120

11.2步骤1:制定一个问题 120

11.3步骤2:资源评价 121

11.4步骤3:重新制定一个问题 121

11.5步骤4:查询输出充分性 122

11.6步骤5:数据描述 122

11.7步骤6:数据约简 123

11.8步骤7:必要时选择算法 123

11.9步骤8:结果评估和结论断言 124

11.10步骤9:结论审查和验证 125

第12章 失败 127

12.1背景 127

12.2失败很常见 128

12.3失败的标准 128

12.4复杂性 131

12.5复杂性何时起作用 132

12.6冗余失败的情况 132

12.7保护钱,不保护无害信息 133

12.8失败之后 134

12.9案例:癌症生物医学信息学网格——遥远的桥 135

第13章 合法性 140

13.1背景 140

13.2对数据的准确性和合法性负责 140

13.3创建、使用和共享资源的权利 141

13.4因使用标准而招致的版权和专利侵权行为 143

13.5对个人的保护 144

13.6许可问题 145

13.7未经许可的数据 148

13.8好政策是有力保障 150

13.9案例:哈瓦苏派的故事 151

第14章 社会问题 153

14.1背景 153

14.2大数据感知 153

14.3数据共享 155

14.4用大数据降低成本和提高生产效率 158

14.5公众的疑虑 160

14.6从自己做起 161

14.7傲慢和夸张 162

第15章 未来 164

15.1背景 164

15.1.1大数据计算复杂,需要新一代超级计算机? 165

15.1.2大数据的复杂程度将超出我们完全理解或信任的能力范围? 166

15.1.3我们需要用超级计算中的最新技术训练出一支计算机科学家组成的团队吗? 166

15.1.4大数据会创建出那些目前没有训练程序的新型数据专业人员吗? 166

15.1.5是否有将数据表示方法通过统一的标准规范化,从而支持跨网络大数据资源的数据集成和软件互操作性的可能? 169

15.1.6大数据将向公众开放 169

15.1.7大数据弊大于利? 170

15.1.8我们可以预测大数据灾难会破坏至关重要的服务、削弱国家经济、破坏世界政治的稳定吗? 171

15.1.9大数据可以回答那些其他办法不能解决的问题吗? 171

15.2后记 171

术语表 172

参考文献 188

索引 196

返回顶部