(i)对于一个二值响应y,令表示样本中1的比例(等于yi的样本均值)。令表示结果为y=0的正确预测百分
(i)对于一个二值响应y,令表示样本中1的比例(等于yi的样本均值)。令表示结果为y=0的正确预测百分数,而表示结果为y=1的正确预测百分数。若是整体的正确预测百分数,证明的一个加权平均:
(ii)在一个容量为300的样本中,假设=0.70,所以有210个结果为yi=1,90个结果为yi=0。假设y=0的正确预测百分数为80,而y=1的正确预测百分数为40。求总体正确预测百分数。
(i)对于一个二值响应y,令表示样本中1的比例(等于yi的样本均值)。令表示结果为y=0的正确预测百分数,而表示结果为y=1的正确预测百分数。若是整体的正确预测百分数,证明的一个加权平均:
(ii)在一个容量为300的样本中,假设=0.70,所以有210个结果为yi=1,90个结果为yi=0。假设y=0的正确预测百分数为80,而y=1的正确预测百分数为40。求总体正确预测百分数。
第1题
(i)对于一个二值响应y,令表示样本中1的比例(等于yi的样本均值)。令q0,表示结果为y=0的正确预测百分数,而q1表示结果为y=1的正确预测百分数。若p是整体的正确预测百分数,证明p是q0和q1的一个加权平均:
(ii)在一个容量为300的样本中,假设yi=0.70,所以有210个结果为yi=1,90个结果为yi=0。假设yi=0的正确预测百分数为80,而yi=1的正确预测百分数为40。求总体正确预测百分数。
第2题
使用PNTSPRD.RAW中的数据。
(i)变量sprdcvr是一个二值变量,若在大学篮球比赛中实际分数差距超过拉斯维加斯让分,则此变量取值1。sprdcvr的期望值(比方说u)表示在一场随机抽取的比赛中分差超过让分的概率。在10%的显著性水平上相对于H1:μ≠0.5检验H0:μ=0.5,并讨论你的结果。(提示:将sprdcvr只对一个截距项进行回归便得到一个r统计量,利用这个统计量很容易完成。)
(ii)553个样本中有多少场比赛是在中立场地进行的?
(iii)估计线性概率模型
并以通常的形式报告结论。(报告通常的标准误和异方差-稳健的标准误。)哪个变量在实际上和统计上都是最显著的?
(iv)解释为什么在原假设下,模型中不存在异方差性。
(v)利用通常的F统计量检验第(iv)部分的原假设,你得到了什么结论?
(vi)给定上述分析,你会不会认为,利用赛前可利用的信息,有可能系统地预测拉斯维加斯让分能否实现?
第3题
考虑简单回归模型
y=β0+β1x+u
令z为x的二值工具变量。运用教材(15.0),证明Ⅳ估计量β1可以写成:的那部分样本中yi和xi的样本平均值,而的样本平均值。该估计量称为群组估计量,它是由沃德(Wald,1940)最先提出。
第4题
(i) 如果你利用一个容量为n的随机样本进行score。对voucheri的简单回归, 那么, 普通最小二乘估计量能给出教育券项目影响的一个无偏估计量吗?
(ii)假设你还可以搜集到一些诸如家庭收入、家庭结构(比如孩子是否与双亲住在一起)和父母的受教育水平等背景信息。为了得到教育券项目影响的无偏估计量,你需要控制这些因素吗?请解释。
(iii)你为什么应该在回归中包含这些家庭背景变量?有没有你不包含这些背景变量的情况呢?
第5题
为了确定避孕套的使用在降低有性行为的高中生之间传播性疾病的有效性,一个简单的模型为
其中, inf rate表示有性行为的学生中感染性病的比例, con use表示声称合理地使用了避孕套的男孩子比例,avg inc表示平均家庭收入, 而city则是一个表示所在学校是否处在城里的虚拟变量; 这个模型是在学校这个层次上做的。
(i)在因果性和其他条件不变的模式下解释上述方程,β1的符号应该是什么?
(ii)为什么inf rate和com se可能是联合决定的?
(iii)如果避孕套使用率随着性病感染率的上升而提高,所以在下式中
(iv)令aris表示一个二值变量,若学校有分发避孕套项目则取值1.解释这如何用于通过Ⅳ估计β1(和其他系数)。我们必须在每个方程中对concis做怎样的假定?
第6题
(i)假设你可以搜集到1985年和1990年两个州驾龄人口的随机样本。令arrest表示一个二值变量, 如果一个人在当年曾因酒后驾车而被捕,它就等于1。在不控制任何其他因素的情况下,写下一个线性概率模型,以检验开瓶酒精饮料法是否降低了因酒后驾驶而被捕的概率。在你的模型中,哪个系数度量了这项法律的影响?
(ii)你为什么还想在模型中控制一些其他因素?这些因素有哪些?
(iii)现在假设你只能搜集到这两个州在1985年和1990年县一级水平上的数据。因变量是有驾照人员在本年度因酒后驾驶而被捕的比例。这个数据结构与第(i)部分中描述的个人水平上的数据结构有何不同?你将使用哪种计量经济方法?
第7题
利用APPLE.RAW中的数据。这些电话调查数据是为了得到(假想的)“环保”苹果需求。调查者向每个家庭都(随机地)介绍了正常苹果和环保苹果的一组价格,并询问他们愿意购买每种苹果的磅数。
(i)对于样本中的660个家庭,有多少家庭报告称在预定价格上不愿意购买环保苹果?
(ii)变量ecolbs看上去在严格正值上具有连续分布吗?你的回答对ecolbs托宾模型的适当性有何含义?
(iii)以ecoprc、regprc、famic和hhsize作为解释变量,估计一个托宾模型。哪些变量在1%的水平上显著。
(iv)faminc和hhsize联合显著吗?
(v)第(iii)部分中价格变量系数的符号与你的预期一致吗?请解释。
(vi)令β1和β2为ecoprc和regprc的系数,相对一个双侧备择假设,检验假设H0:-β1=β2。报告检验的p值。(如果你的回归软件不能很容易地计算这种检验,你可能还要参考教材4.4节
(vii)对样本中的所有观测求E(ecolbslx)的估计值[见方程(17.25)],称之为ecolbsi。最大和最小拟合值是多少?
(viii)计算ecolbs,和ecolbsi之相关系数的平方。
(ix)现在,利用第(iii)部分中同样的解释变量,估计ecolbs的一个线性模型。为什么OLS估计值比托宾估计值小那么多?从拟合优度来看,托宾模型比线性模型更好吗?
(x)评价如下命题:“由于托宾模型的R,如此之小,所以估计的价格效应可能是不一致的。”
第8题
令d表示一个(--值)虚拟变量,并令:表示一个定量变量。考虑模型
这是含有一个虚拟变量和一个定量变量之交互作用的一般性模型[方程(7.17)中有一个例子]。
(i)由于没有重大变化,所以取误差为u=0.于是,当d=0时,我们可以把y和z之间的关系写成函数 。当d=1时,同样写出y和z之间的关系,其中左边应该使用f1(z),以表示Z的线性函数。
其中所有系数和标准误都保留到小数点后三位。利用这个方程, 求出使得男女log(zo age) 的预测值相等的totcoll值。
(iv)基于第(iii)部分中的方程,女人能现实地获得足够多的大学教育而赶上男人的工资吗?请解释。
第9题
其中,为逻辑斯蒂函数。对于一个具有12年教育经历的40岁的人来说,高中阶段受到过职业培训对其目前生活在贫困中的影响是什么?这个影响大吗?
第10题
本题使用GPA2.RAW中的数据。
(i)考虑方程
其中,colgpa表示累积的大学GPA,hsize表示高中毕业年级以百人计的规模,hsperc表示在毕业年级中学术排名的百分位,sat表示SAT综合分数,female是一个二值变量,而athlete也是一个运动员取值1的二值变量。你对这个方程中的系数有何预期?哪些你没有把握?
(ii)估计第(i)部分中的方程,并以通常的形式报告结果。估计运动员和非运动员之间GPA的差异是多少?它是统计显著的吗?
(ii)从模型中去掉sat并重新估计这个方程。现在,作为运动员的估计影响是多大?讨论为什么这个估计值不同于第(ii)部分的结论。
(iv)在第(i)部分的模型中,容许作为运动员的影响会因性别不同而不同。检验如下原假设:在其他条件不变的情况下,女生是否是运动员没有差别。
(v)sat对colgpa的影响会因性别不同而不同吗?讲出你的根据。
第11题
在例7.2中,令noPC表示一个虚拟变量:没有一台个人计算机的学生取值1,否则取值0。
(i)如果用noPC取代方程(7.6)中的PC,所估计方程的截距会怎么样?noPC的系数是多少?
(ii)如果用noPC取代PC,R2会有什么变化?
(iii)PC和noPC应该都作为自变量包括进模型中吗?请解释。