-
>
宇宙、量子和人类心灵
-
>
考研数学专题练1200题
-
>
希格斯:“上帝粒子”的发明与发现
-
>
神农架叠层石:10多亿年前远古海洋微生物建造的大堡礁
-
>
二十四史天文志校注(上中下)
-
>
声音简史
-
>
浪漫地理学:追寻崇高景观
应用非参数统计(第2版)/统计与数据科学丛书 版权信息
- ISBN:9787030687401
- 条形码:9787030687401 ; 978-7-03-068740-1
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>>
应用非参数统计(第2版)/统计与数据科学丛书 内容简介
本书介绍非参数统计的基本概念和方法,其内容包括预备知识、U统计量、基于二项分布的检验、列联分析、秩检验、检验的功效与渐近相对效率、概率密度估计、非参数回归。每一章内容都着重阐述非参数统计推断的一般处理技术和原则,并给出一些典型例子各章后面的习题侧重于应用。本书的特点是侧重于介绍非参数统计在各应用领域中的常用方法,尽可能简化公式推导并淡化理论证明。此外,本书有选择地安排一些模拟计算和实际数据分析,其主要程序放在附录A中。 读者只需具有高等数学和概率统计的基本知识即可读懂本书的主要内容。本书可以作为大学高年级本科生或硕士研究生的教材,也可以作为科研工作者自学的参考书。
应用非参数统计(第2版)/统计与数据科学丛书 目录
“统计与数据科学丛书”序
第二版前言
**版前言
第1章预备知识1
1.1非参数统计概述1
1.2数据类型3
1.3检验的p值4
1.4次序统计量及其分布5
1.5分位数的估计6
1.5.1分位数的点估计6
1.5.2分位数的区间估计7
习题1 10
第2章U统计量11
2.1单样本U统计量11
2.1.1基本概念11
2.1.2U统计量的方差13
2.1.3U统计量的相合性15
2.1.4U统计量的渐近正态性16
2.2两样本U统计量18
2.3U统计量检验19
2.3.1对称中心的检验19
2.3.2位置参数的检验20
习题2 24
第3章基于二项分布的检验26
3.1二项检验26
3.2分位数检验29
3.3符号检验32
3.3.1基本方法32
3.3.2中位数的符号检验35
3.3.3两样本符号检验37
习题3 38
第4章列联分析40
4.12×2列联表及其检验40
4.1.12×2列联表40
4.1.2Fisher精确检验41
4.1.3Mantel-Haenszel检验44
4.1.4Simpson悖论45
4.2r×s列联表及χ2检验48
4.2.1r×s列联表48
4.2.2χ2统计量48
4.2.3拟合优度检验49
4.2.4独立性检验52
4.2.5中位数检验53
4.2.6χ2分布的期望值准则55
4.3列联表中的相关测量56
4.3.1φ相关系数56
4.3.2列联相关系数57
4.3.3V相关系数58
4.4对数线性模型58
习题4 64
第5章秩检验68
5.1线性秩统计量68
5.1.1定义及基本性质68
5.1.2渐近正态性72
5.2符号秩检验74
5.2.1符号秩统计量及其性质74
5.2.2Wilcoxon符号秩检验78
5.3位置参数的检验85
5.3.1Wilcoxon秩和检验85
5.3.2Mann-Whitney检验91
5.4尺度参数的检验92
5.4.1Mood检验93
5.4.2平方秩检验95
5.5多个独立样本问题97
5.5.1Kruskal-Wallis检验97
5.5.2Jonckheere-Terpstra检验102
5.6区组设计104
5.6.1Friedman检验105
5.6.2Page检验110
5.6.3Cochran检验111
5.6.4Durbin检验114
5.7相关分析115
5.7.1Spearman秩相关检验115
5.7.2Kendallτ相关检验118
5.7.3多变量Kendall协同系数检验122
5.8线性回归的非参数方法124
习题5 128
第6章检验的功效函数与渐近相对效率133
6.1功效函数133
6.1.1基本概念133
6.1.2功效函数的统计模拟134
6.2局部*优秩检验137
6.3Pitman渐近相对效率142
6.4单样本位置问题的线性符号秩检验的渐近相对效率146
6.5两样本位置问题的线性秩检验的渐近相对效率150
习题6 156
第7章概率密度估计157
7.1若干密度估计157
7.1.1直方图157
7.1.2Rosenblatt估计159
7.1.3核密度估计160
7.1.4*近邻密度估计162
7.2估计精度的度量164
7.3交叉验证法167
7.4密度估计的大样本性质169
7.4.1基本概念169
7.4.2核密度估计的大样本性质170
7.4.3*近邻密度估计的大样本性质171
7.5密度估计的应用171
习题7 174
第8章非参数回归175
8.1引言175
8.2回归函数的核估计176
8.2.1核估计的定义176
8.2.2带宽的选择177
8.2.3核函数的选择179
8.2.4核估计的性质180
8.2.5模拟计算181
8.3回归函数的局部多项式估计183
8.4回归函数的近邻估计186
8.5实例分析189
习题8 192
参考文献194
附录A主要程序197
A.1若干自定义函数197
A.2几个主要图形的程序203
附录B附表212
附表1标准正态分布表212
附表2二项分布表213
附表3χ2检验的临界值表222
附表4符号检验的临界值表223
附表5Wilcoxon符号秩检验的临界值表223
附表6Wilcoxon秩和检验的临界值表224
附表7平方秩检验的临界值表226
附表8Kruskal-Wallis检验的临界值表228
附表9Jonckheere-Terpstra检验的临界值表229
附表10Friedman检验的临界值表230
附表11Page检验的临界值表230
附表12Spearman秩相关检验的临界值表231
附表13Kendallτ相关检验的临界值表234
应用非参数统计(第2版)/统计与数据科学丛书 节选
第 1 章 预 备 知 识 本章主要介绍一些预备知识, 其内容包括非参数统计概述、数据类型、检验的 p 值、次序统计量及其分布、分位数的估计. 1.1 非参数统计概述 非参数统计是统计学的一个重要分支. 在学习这门课程之前, 首先要明白什么是 “非参数统计”, 了解这个分支的一些基本特点, 从而可以对它有初步的认识,对学习这门课程产生兴趣. 在统计学中, 统计推断的两个*基本的形式是: 参数估计和假设检验, 其大部分内容是和正态理论相关的, 人们称之为参数统计. 在参数统计中, 总体分布的形式或分布族往往是给定的, 而诸如均值和方差的参数是未知的. 人们的任务就是对这些参数进行估计或检验. 当假定分布为真时, 其推断有较高的精度. 然而, 在实际问题中, 对总体分布的假定并不是总成立的, 也就是说, 有时数据并不是来自所假定分布的总体. 因此, 在假定的总体分布下进行推断, 其结果可能会背离实际.于是, 人们希望在不假定总体分布的情况下, 尽量从数据本身获得所需要的信息.这就是非参数统计的初衷. 看下面的例子. 例 1.1.1 (概率密度估计) 设随机变量 X 有概率密度函数 f(x), 它属于某个确定的密度族 F. 令 X1, ,Xn 为来自总体 X 的样本, 要通过样本来估计 f(x).如果 F 的形式已知, 如正态分布族 {N(μ, σ2),.∞ 0}, 则只需对分布中的参数 μ 和 σ2 作出估计, 就可得到概率密度函数 f(x) 的估计, 这是一个参数统计问题. 我们可以利用极大似然估计法来估计 μ 和 σ2. 如果对 F 只施加一般性的假定, 如 f(x) 对称, 且具有连续的二阶导数等, 则这是一个非参数统计问题. 我们可以利用多种方法对非参数概率密度函数 f(x)进行估计, 例如, 核估计法、*近邻估计法、小波估计法等. 这些估计方法已成为现代非参数统计的重要内容. 例 1.1.2 (回归函数估计) 设随机变量 Y 与 X 之间存在着某种相关关系,这里 X 可以是控制或可以精确观测的变量. 如果在 X = x 的条件下, Y 的数学期望 E(Y |X = x) 存在, 记为 m(x), 则称 m(x) 为 Y 关于 X 的回归函数. 设 (X1, Y1), , (Xn, Yn) 为来自 (X, Y ) 的样本, 要通过样本来估计 m(x).在一元线性回归模型中, 假定 m(x) 为 x 的线性函数, 即 m(x) = a + bx, 且在给定 X = x 的条件下, Y 的分布为正态分布 N(a + bx, σ2). 这个模型由三个实参数 a, b 和 σ2 所刻画, 而要估计的回归函数 m(x), 实际上只依赖于参数 a 和 b,因而它是一个典型的参数统计问题. 我们可以利用*小二乘法对 a 和 b 进行估计.然而, 如果对 Y 的分布不作任何假定, 或只作一般性假定 (如 Y 的方差有限),则问题就成为非参数性的, 称为非参数回归. 我们可以利用多种方法对非参数回归函数 m(x) 进行估计, 例如, 核估计法、*近邻估计法、局部多项式估计法、小波估计法等. 这些估计方法是现代非参数统计的重要组成部分. 综上所述, 我们可提出下面的定义: 如果一个统计问题的模型所涉及的分布族不能用有限个实参数去刻画, 则称该问题为非参数统计问题. 非参数统计是统计学研究非参数统计问题的一个分支学科. 非参数方法是处理与分布无关的问题的方法. 所谓与分布无关, 意味着它的推断方法不假定总体服从确定的分布, 并不是脱离总体的分布. 与参数方法相比,非参数方法具有如下特点. (1) 具有广泛的适用性. 非参数方法不假定具体的总体分布, 从而它适用于来自任何总体分布未知的数据, 可进行定量数据和定性数据的统计分析, 能用来描述更多的问题, 故适用面广. 由于非参数方法没有利用关于总体分布的信息, 因此就是在对总体分布没有任何了解的情况下, 它也能获得可靠的结论. 在这一点上,非参数方法优于参数方法. 然而, 在总体的分布族已知的情况下, 它没有像极大似然估计那样充分利用总体分布的信息, 于是所得出的结论就不如参数方法那样精确, 一般来说效率偏低. 在第 6 章可以看到, 有的非参数方法与相应的参数方法相比, 效率上的损失也很小. 参数方法往往对设定的模型有更大的针对性: 一旦模型改变, 方法也就随之改变. 非参数方法则不然, 由于它对模型的限定少, 以致人们只能用很一般的方式去使用样本中的信息来进行统计推断. (2) 具有稳健性. 稳健性 (robustness) 反映统计方法这样一种性质: 当真实模型与设定模型的偏离不大时, 这种统计方法仍能保持良好的性质, 至少不至于变得很差. 非参数方法对总体分布的限制相对较少, 不致因为对总体分布的假定不当而导致统计推断结果与实际不符, 所以它具有较好的稳健性. 而参数方法是建立在分布已知的基础上, 当总体分布发生改变时, 其推断的正确性就大打折扣, 甚至可能产生错误的结论. 关于参数方法的论述可参见薛留根 (2015a) 的著作. (3) 以大样本理论为主导. 由于对总体分布的假定条件宽松, 因而大样本理论在非参数统计中占据了主导地位. 可以说, 绝大多数常用的非参数方法都是基于有关统计量的某种渐近性质. 非参数统计更多地依赖于大样本方法这一特点, 可以从其模型的广泛性上来理解: 统计量的分布依赖于总体的分布. 如果我们对总体的分布了解很少, 则就难以得出有关统计量的确切分布. 而很多小样本方法是基于这种确切分布的. 例如, 在总体方差 σ2 未知的条件下去推断总体的期望 μ, 人们就用样本方差 S2 去代替 σ2, 然后构造出统计量 T = √n(X . μ)/S. 由于当n → ∞ 时, T 依分布收敛于标准正态分布 N(0, 1), 因此这是一个大样本方法. 然而, 如果总体服从正态分布, 则由 Fisher 基本定理可知: T 服从自由度为 n.1 的t 分布. 因此, 关于 μ 的统计推断可以建立在这个确切分布的基础上, 这就成为一种小样本方法. 1.2 数 据 类 型 在对某个总体进行统计推断时, 首先要从该总体中抽取样本, 然后利用样本构造出统计量, 由此就可以解决参数估计和假设检验问题. 数据是样本的观测值,是样本的实现. 统计工作的主要内容是数据收集和数据处理, 其中数据处理是统计的核心内容, 它是将数据转化为有用信息的过程. 在科学实验和生产实践中, 人们遇到各种各样的数据, 这就为统计分析提供了保障. 然而, 为正确处理和分析数据, 就必须先了解数据, 这样才能有针对性地选用统计分析方法. 在统计学中, 统计数据主要可分为四种类型, 分别是定类数据、定序数据、定距数据和定比数据.定类数据和定序数据称为定性数据; 定距数据和定比数据称为定量数据. 下面我们对这四种类型的数据分别加以介绍. (1) 定类数据. 某项指标的观测值不是数, 而是事物的属性. 有时, 为了识别不同的类别, 也可以用特定的数字和符号表示某类事物. 例如, 人的性别 (男、女),职业 (教师、医生、工人), 物体的颜色、样式等, 它们的异同是按照事物的某些特征来划分和辨别的. 人们常用数表示属性的分类, 如用数 “1” 和 “0” 分别表示 “男” 和 “女”, 这仅仅是人们赋予的识别代码, 并不说明事物的数量; 它不能进行算术运算, 也没有大小关系, 而只能进行 “=” 或 ‘‘ .= ” 的逻辑运算. 定类数据的描述性统计量有频数、众数等. (2) 定序数据. 事物的属性具有顺序关系. 为方便起见, 有时也用数字表示. 例如, 家庭经济状况分为高收入、中等收入、低收入三类, 可分别用 3, 2, 1 表示.这些数只起一个顺序作用, 不能作算术运算, 即这里的 “3 . 2” 是没有意义的. 也就是说, “高收入” 比 “中等收入” 的经济状况好, 但 “好多少” 不能计算, 只能比较类别之间的次序关系. 定序数据可以进行 “=” “.=” “>” “” “” “<” “+” “.” 的运算, 而且可以进行 “×” 和“÷” 的运算. 反映定比数据集中趋势和离散程度的描述性统计量不仅有均值、中位数、众数、方差、标准差, 还有变异系数等.从上述介绍可知: 定性数据描述事物的性质, 其 0 只有相对意义; 定量数据描述事物的数量, 其 0 具有实际意义. 定类数据是*低级别的数据, 定比数据是**级别的数据, 中间两个级别依次为定序数据和定距数据. 数据的级别越高, 所包含的运算性质就越多. 参数方法所分析的数据主要是定量数据. 非参数方法不但可以用来分析定量数据, 而且还可以用来分析定性数据. 例如, 利用问卷调查资料分析用户对几种商品的喜爱程度是否相等; 利用民意测验分析职工对公司的几种改革方案的支持率是否有差异等. 这方面的研究是参数方法做不到的, 只能应用非参数方法. 这一点又说明了非参数方法应用面广. 当手中有了数据集后, 首先要对它有一个直观的认识. 在数据来自一个总体时, 需要看它的大致分布形状. 利用直方图和 Q-Q 图可以做到这一点. 直方图可以用来看该分布是否呈现出对称性, 是否有很长的尾部. Q-Q 图是按升序重新排列的样本观测值和标准正态分布的分位数 (通常用 Φ.1((i.3/8)/(n+1/4))) 来作散点图. 如果原来的样本来自正态分布, 则该图应该大致呈一条直线; 否则, 它将在一端或两端有摆动, 说明其总体分布与正态分布有差别. 调用统计软件中的函数就可以作出直方图和 Q-Q 图. 如 R 语言中作直方图的函数是 hist(x), 作 Q-Q图的函数是 qqnorm(x), 其中括号中的 x 为数据变量. 1.3 检验的 p 值 给定原假设 H0 和备择假设 H1, 并记为假设检验问题 (H0,H1). 为解该假设检验问题, 首先需要构造检验统计量 T. 然后利用 T 得到检验的拒绝域 W. *后作出判断: 在 T 的观测值落入 W 时, 就拒绝原假设 H0, 认为备择假设 H1 成立;在 T 的观测值没有落入 W 时, 就不能拒绝原假设 H0, 只能认为 H0 成立. 这就是所谓的检验法. 如果引入检验的 p 值, 那么就可以用 p 值对检验作出决定. 检验的 p 值定义如下. 定义 1.3.1 检验的 p 值是在已知观测值下拒绝原假设的*小显著性水平.如果用 tobs 表示检验统计量 T 的观测值, 则左边检验的 p 值是 P{T . tobs}, 右边检验的 p 值是 P{T . tobs
- >
自卑与超越
自卑与超越
¥29.9¥39.8 - >
二体千字文
二体千字文
¥14.0¥40.0 - >
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
¥6.3¥14.0 - >
月亮虎
月亮虎
¥14.4¥48.0 - >
伊索寓言-世界文学名著典藏-全译本
伊索寓言-世界文学名著典藏-全译本
¥9.3¥19.0 - >
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
新文学天穹两巨星--鲁迅与胡适/红烛学术丛书(红烛学术丛书)
¥9.9¥23.0 - >
推拿
推拿
¥12.2¥32.0 - >
苦雨斋序跋文-周作人自编集
苦雨斋序跋文-周作人自编集
¥6.9¥16.0
-
概率统计与随机过程习题解集
¥17.7¥32 -
高等学校理工类专业基础课教材-概率论与数理统计教程(第二版)
¥13.2¥35 -
4.23文创礼盒A款--“作家言我精神状态”
¥42.3¥206 -
4.23文创礼盒B款--“作家言我精神状态”
¥42.3¥206 -
一句顶一万句 (印签版)
¥40.4¥68 -
百年书评史散论
¥14.9¥38