统计思维 程序员数学之概率统计 PDF 点击下载

未收藏 未收藏           PDF网   更新时间:2022/08/16 00:17 阅读量:360

内容简介

《图灵程序设计丛书·统计思维:程序员数学之概率统计》是一本以全新视角讲解概率统计的入门图书。抛开经典的数学分析,Downey手把手教你用编程理解统计学。概率、分布、假设检验、贝叶斯估计、相关性等,每个主题都充满趣味性,经编程解释后变得更为清晰易懂。

《图灵程序设计丛书·统计思维:程序员数学之概率统计》研究数据主要来源于美国全国家庭成长调查(NSFG)与行为风险因素监测系统(BRFSS),数据源及解决方案的相关代码全部开放,具体章节列出了大量学习和进阶资料,方便读者参考。

《图灵程序设计丛书·统计思维:程序员数学之概率统计》面向广大程序员和计算机专业的学生。

目录

前言

第1章 程序员的统计思维

1.1 第一个孩子出生晚吗

1.2 统计方法

1.3 全国家庭成长调查

1.4 表和记录

1.5 显著性

1.6 术语

第2章 描述性统计量

2.1 均值和平均值

2.2 方差

2.3 分布

2.4 直方图的表示

2.5 绘制直方图

2.6 表示概率质量函数

2.7 绘制概率质量函数

2.8 异常值

2.9 其他可视化方法

2.10 相对风险

2.11 条件概率

2.12 汇报结果

2.13 术语表

第3章 累积分布函数

3.1 选课人数之谜

3.2 PMF的不足

3.3 百分位数

3.4 累积分布函数

3.5 CDF的表示

3.6 回到调查数据

3.7 条件分布

3.8 随机数

3.9 汇总统计量小结

3.10 术语表

第4章 连续分布

4.1 指数分布

4.2 帕累托分布

4.3 正态分布

4.4 正态概率图

4.5 对数正态分布

4.6 为什么需要模型

4.7 生成随机数

4.8 术语

第5章 概率

5.1 概率法则

5.2 蒙提霍尔问题

5.3 庞加莱

5.4 其他概率法则

5.5 二项分布

5.6 连胜和手感

5.7 贝叶斯定理

5.8 术语

第6章 分布的运算

6.1 偏度

6.2 随机变量

6.3 概率密度函数

6.4 卷积

6.5 正态分布的性质

6.6 中心极限定理

6.7 分布函数之间的关系框架

6.8 术语表

第7章 假设检验

7.1 均值差异的检验

7.2 阈值的选择

7.3 效应的定义

7.4 解释统计检验结果

7.5 交叉验证

7.6 报道贝叶斯概率的结果

7.7 卡方检验

7.8 高效再抽样

7.9 功效

7.10 术语

第8章 估计

8.1 关于估计的游戏

8.2 方差估计

8.3 误差

8.4 指数分布

8.5 置信区间

8.6 贝叶斯估计

8.7 贝叶斯估计的实现

8.8 删失数据

8.9 火车头问题

8.10 术语

第9章 相关性

9.1 标准分数

9.2 协方差

9.3 相关性

9.4 用pyplot画散点图

9.5 斯皮尔曼秩相关

9.6 最小二乘拟合

9.7 拟合优度

9.8 相关性和因果关系

9.9 术语

作者及封面简介

索引

精彩文摘

如果能将数据与实际方法相结合,就可以在存在不确定性时解答问题并指导决策,这就是本书的主题。

举个例子。我的妻子在怀第一胎时,我听到了一个问题:第一胎是不是经常晚于预产期出生?下面所给出的案例研究就是由这个问题引出的。

如果用谷歌搜索这个问题,会看到大量的讨论。有人认为第一胎的生产日期确实经常晚于预产期,有人认为这是无稽之谈,还有人认为恰恰相反,第一胎常常会早产。

在很多此类讨论中,人们会提供数据来支持自己的观点。我发现很多论据是下面这样的。

“我有两个朋友最近都刚生了第一个孩子,她们都是超过预产期差不多两周才出现临产征兆或进行催产的。”

“我的第一个孩子是过了预产期两周才出生的,我觉得第二个孩子可能会早产两周!”

“我认为这种说法不对,因为我姐姐是头生子,而且是早产儿。我还有好些表兄妹也是这样。”

这些说法都是基于未公开的数据,通常来自个人经验,因此称为轶事证据(anecdotal evidence)。在闲聊时讲讲轶事当然无可厚非,所以我并不是要批评以上那几个人。

但是,我们可能需要更具说服力的证据以及更可靠的回答。如果按照这个标准进行衡量,轶事证据通常都靠不住,原因有如下几点。

观测值数量较小 如果第一胎的孕期的确偏长,这个时间差与正常的偏差相比可能很小。在这种情况下,我们可能需要比对大量的孕期数据,才能确定这种时间差确实存在。

选择数据时存在偏倚 人们之所以参与这个问题的讨论,有可能是因为自己的第一个孩子出生较晚。这样的话,这个选择数据的过程就会对结果产生影响。

确认数据时存在偏倚 赞同这种说法的人也许更可能提供例子进行佐证。持怀疑态度的人则更可能引用反例。

不精确 轶事通常都是个人经验,经常会记错、误传或者误解等。

那我们该如何更好地回答这个问题呢?

1.1 统计学方法

为了解决轶事证据的局限性,我们将使用以下统计学工具。

数据收集 我们将使用大型的全国性调查数据,这个调查专门设计用于对美国人口进行有效的统计推断。

描述性统计 得出统计量,对数据进行简要的汇总,并评估可视化数据的不同方法。

探索性数据分析 寻找各种模式、差异,以及其他能够解决我们感兴趣的问题的特征,同时还将检查数据的不一致性,发现局限性。

估计 使用样本数据来估计一般总体的统计特征。

假设检验 如果看到明显的效应,例如两个群组之间存在差异,将衡量该效应是否是偶然产生的。

谨慎执行上面的步骤,并避免各种错误,我们就可以获得合理性和准确性更高的结论。

注意: 本站下载的电子书为rar打包文件,需要解压后查看,部分用户的手机端没有自带的解压插件,请在电脑端下载或者添加管理员微信(下侧)手动发送。


大小: 5.70M

格式: .PDF

    去登陆 点击下载

★书币价格充值实时到账

价格 书币数量 赠送书币
2元 200个
5元 500个 40个
10元 1000个 150个
20元 2000个 400个
50元 5000个 1500个
100元 10000个 4000个
去充值 查看书币使用说明 如有疑问,请添加管理员微信: (服务时间: 工作日09:00~18:00) PDF网:客服微信