什么是交叉列表分析?
交叉列表是多个频数表的重组,表格中每个格子为列表变量特定值的特异组合。交叉列表可以检验属于多个变量类的观察对象的频数。通过观察频数,我们可以辨别交叉列表中变量间的关系。只有分类(名称)变量或含有少数值的变量才能列表。 注意如果想将连续性变量列表(如收入),首先要将其转变为一定范围值。
2x2表格
2×2表是最为简单的交叉列表,只有两个变量,每个变量只有两个特定值。如,我们进行一次简单的调查,调查男性(male)与女性(female)对两个品牌苏打 (brand A and brand B)的选择,数据整理如下:
性别
苏打
对象 1
对象 2
对象 3
对象 4
对象 5
。 。。
男...全部
交叉列表是多个频数表的重组,表格中每个格子为列表变量特定值的特异组合。交叉列表可以检验属于多个变量类的观察对象的频数。通过观察频数,我们可以辨别交叉列表中变量间的关系。只有分类(名称)变量或含有少数值的变量才能列表。
注意如果想将连续性变量列表(如收入),首先要将其转变为一定范围值。
2x2表格
2×2表是最为简单的交叉列表,只有两个变量,每个变量只有两个特定值。如,我们进行一次简单的调查,调查男性(male)与女性(female)对两个品牌苏打 (brand A and brand B)的选择,数据整理如下:
性别
苏打
对象 1
对象 2
对象 3
对象 4
对象 5
。
。。
男性
女性
女性
女性
男性
。。。
A
B
B
A
B
。。。
所得的列表可如下表示。
苏打: A
苏打: B
性别:男性
20 (40%)
30 (60%)
50 (50%)
性别:女性
30 (60%)
20 (40%)
50 (50%)
50 (50%)
50 (50%)
100 (100%)
每一格子都是两个列表变量值的特定结合(行变量性别与列变量苏打),每个格子中的数值让我们知道落在某个特定变量值结合格子中对象有多少。
一般说来,这个表格让我们知道了女性选择A品牌的苏打比男性多,男性则更多选择B品牌。那么性别与苏打品牌的喜好可能是有关联的(下文介绍如何测量关联的强度)。
格边频数
表格边上的值是对表格中所有数值的单因素(频数)表格。
因为他可以帮助我们估计每一行(列)的频数分布所以显得很重要。例如,如果性别的页边频率也是40%与60%,那么40% 男性与 60% 的女性选择了A品牌的苏打,就不能提示性别(gender)与苏打之间有关联,上述的例子中格边频率仅简单地反映了男女性别比例。
因此,行(列)的频率分布与各自格边频率分布的差异提示了列表变量间的关系。
行,列,总百分率
上一段的例子显示为了估计列表变量之间的关系,我们需要比较格边频率与行列频率。
当使用百分比来表示频率时这种比较是相当简单的。
列表的图象表示
为了达到分析目的,表中的各行、各列都可用直条图表示,这种方法可以在简单的图中直观地观察整个表格情况。
两因素的表格可看成3维条图;同样,也可得到分类条图,分类条图中,变量被列表其他变量处于各个水平时画出的直条图所替代。3维条图的优点在于形成整个表格的综合图象;分类图象的优点在于可让我们准确地估计每一表格中的特定频率。
Stub-and-Banner表
Stub-and-Banner表, 或简称为 Banners,是一种将多个两因素表以压缩形式表示的方法。可用例子来解释这种表格。
回到上文的观众调查例子。(注意,为了简明问题,只将“经常”与“总是”两种应答情况进行列表)
STATISTICA
BASIC
STATS
Stub-and-Banner Table:
列百分比
因素
足球:
总是
足 球:
经 常
行:
合计
棒球:总是
棒球:经常
92。
31
61。54
7。69
38。46
66。67
33。33
棒球:合计
82。05
17。95
100。00
网球:总是
网球:经常
87。
50
87。50
12。50
12。50
66。67
33。33
网球:合计
87。50
12。50
100。00
拳击:总是
拳击:经常
77。
78
100。00
22。22
0。00
52。94
47。06
拳击:合计
88。24
11。76
100。00
Banner 表的解释
上表中,我们可看到用板球,网球,拳击兴趣来表示对足球的兴趣的多个两因素表格,表格中的数值是行百分比,所以将各列的行百分比相加为100%。
例如,右上角显示总是对足球感兴趣的应答者有92。31%总是对板球感兴趣。接下来我们可以知道在总是对足球感兴趣的应答者中有87。50%总是对网球感兴趣;有77。78%对拳击总感兴趣。最后一栏(Row Total)的百分比相当于观察总数。
控制变量的多因素表
只有两个变量交叉列表,我们称这种表格为两因素表。将变量值交叉列表的基本思想可推广到多个变量。例如,回到上述的“苏打”例子,加入第三变量。这个变量表示的是进行调查的所在的州(state) (Nebraska 或 New York)。
性别
苏打
州
对象 1
对象 2
对象 3
对象 4
对象 5
。。。
男性
女性
女性
女性
男性
。。。
A
B
B
A
B
。
。。
内布拉斯加
纽约
内布拉斯加
内布拉斯加
纽约
。。。
三个变量的交叉列表就形成了三因素表。
州: 纽约
州: 内布拉斯加
苏打: A
苏打: B
合计
苏打: A
苏打: B
合计
性别:男性
20
30
50
5
45
50
性别:女性
30
20
50
45
5
50
合计
50
50
100
50
50
100
理论上,可用简单的多因素表对无限的变量进行交叉列表。
但实践证明超过4个变量时,人们就很难观察与理解表格的意义了。
通常分析这种表格中各因素之间的关系时推荐使用模型技术如Log-Linear Analysis 或 相关分析
多因素表格图式
可以制作双分类3维的直方图:
或线图,该线图可以用简单的图形表示三因素的频数大小:
枝图(或瀑布图)可以用来表示更多因素的表格(见下图)
。收起