登录首页用户案例合作品牌购买会员帮助中心关于我们我的文档退出登录

APP内阅读

1

发布时间：2024-7-08 | 杂志分类：其他

1

作者: 云展网用户

免费制作

更多内容

云展网用户

粉丝：{{bookData.followerCount}}

{{!bookData.isSubscribed?'关注':'取消关注'}}

1

{{`发布时间：2024-7-08`}} | 云展网画册制作产品说明书其他 1

知识的秘语：开启孩子学习成绩的黄金钥匙分析目标：随着中国社会的不断发展和进步，基于中国如此庞大的人口数量下，现有就业市场、学位竞争压力大。社会已然掀起一股提升孩子能力的浪潮。孩子的学习成绩在如今的中国大环境下，被认为是评估学习能力和知识掌握程度的重要指标。了解和探究影响孩子学习成绩的因素对于家庭教育策略具有重要意义。在当今科技快速发展的时代，我能够借助现代科学技术和数据科学方法，深入研究大规模的学生成绩数据，并从中提取有关于学习成绩影响因素的信息。本次研究旨在深入探究影响孩子学习成绩的因素，为家庭提升孩子学习成绩提供更深入的理论支撑。通过收集、整理和分析大规模的学生数据，我希望发现不同因素对学习成绩的潜在影响，并由此建立准确且可靠的预测模型。同时我还将探索不同因素之间的相互作用，以此更好地确定它们在影响孩子学习成绩中的综合效益。通过本次研究，我们将为孩子学习成绩的提升做出贡献，帮助更多家庭培养孩子。数据概括与展示：数据简介：Expanded_data_with_more_features.csv:该数据集有 14 个特征，分别是 Gender(性别)、EthnicGroup(种族群体)... [收起]

[展开]

云展网用户

粉丝: {{bookData.followerCount}}

文本内容

{{isCollapse?'展开':'收起'}}

第1页

知识的秘语：开启孩子学习成绩的黄金钥匙

分析目标：

随着中国社会的不断发展和进步，基于中国如此庞大的人口数量

下，现有就业市场、学位竞争压力大。社会已然掀起一股提升孩子能

力的浪潮。孩子的学习成绩在如今的中国大环境下，被认为是评估学

习能力和知识掌握程度的重要指标。了解和探究影响孩子学习成绩的

因素对于家庭教育策略具有重要意义。

在当今科技快速发展的时代，我能够借助现代科学技术和数据科

学方法，深入研究大规模的学生成绩数据，并从中提取有关于学习成

绩影响因素的信息。

本次研究旨在深入探究影响孩子学习成绩的因素，为家庭提升孩

子学习成绩提供更深入的理论支撑。通过收集、整理和分析大规模的

学生数据，我希望发现不同因素对学习成绩的潜在影响，并由此建立

准确且可靠的预测模型。同时我还将探索不同因素之间的相互作用，

以此更好地确定它们在影响孩子学习成绩中的综合效益。

通过本次研究，我们将为孩子学习成绩的提升做出贡献，帮助更

多家庭培养孩子。

数据概括与展示：

数据简介：

Expanded_data_with_more_features.csv:该数据集有 14 个特征，

分别是 Gender(性别)、EthnicGroup(种族群体)、ParentEduc(家长教育

第2页

背景 ) 、 LunchType( 午餐类型 ) 、 TestPrep( 考前准备 ) 、

ParentMaritalStatus(父母婚姻状况)、PracticeSport(运动锻炼时长)、

IsFirstChild( 是否是第一个孩子 ) 、 NrSiblings( 兄弟姐妹数量 ) 、

TransportMeans( 交通方式)、WklyStudyHours(每周自学时间 )、

MathScore(数学成绩)、ReadingScore(阅读成绩)、WritingScore(写作

成绩)，该数据集包括（虚构的）公立学校学生的三个测试分数以及可

能对他们产生交互影响的各种个人和社会经济因素。同比较于该网站

的其他类似数据集而言，其数据量更大，比现有其他数据数据规模大

得多，其次，其特征数量多，和其他数据集相比，其特征多达 14 个，

能够从更多维度去挖掘可能影响学习成绩的因素。

数据来源

该数据集包括公立学校的学生的三个测试分数以及可能对他们产生

交互影响的各种个人和社会经济因素。

数据链接地址：

https://www.kaggle.com/datasets/desalegngeb/students-examscores

第3页

数据清洗、整理

首先是在读取数据 data 后，我发现数据内存在一些地方是\"\"，但

这并不会被na.omit()识别为缺失值，因此我将存在\"\"的数据替换成NA，

然后再通过 na.omit()识别删除缺失值。删除后，出现了一个问题，由

于格式问题，数据里的 “5 月 10 日 ” 在 r 中被打印出来是

5\\xd4\\xc210\\xc8\\xd5 ，因此在进行替换的时候只能是选择将

5\\xd4\\xc210\\xc8\\xd5 替换成 5-10 ，最后就是将 MathScore 、

ReadingScore、WritingScore 的成绩加在一起形成总分 TotalScore 列。

第4页

分析方案的选择、确定：

根据数据的概括，我决定采用数据可视化结合上文提到的卡方检

验以及随机森林进行数据分析。

卡方检验：

卡方检验是一种常用的统计方法，用于确定两个或多个分类变量

之间是否存在显著关联。它的基本思想是比较观察到的频数与预期的

频数之间的差异，并根据这种差异来评估变量之间的关联程度。

卡方检验的公式是通过计算卡方统计量来进行的，其公式如下所

示：

?

2 = ∑

(??? − ???)

2

???

其中，??? 是观察频数（实际观测到的频数），??? 是期望频数（在假

设下预期的频数）。

在执行卡方检验时，首先设置一个原假设（null hypothesis），该

假设通常是两个变量之间不存在关联。然后，收集数据并计算每个组

合的观察频数。接下来，根据原假设，计算期望频数，并将观察频数

和期望频数之间的差异进行平方，然后除以期望频数，并将所有组合

的差异进行求和得到卡方统计量。

卡方统计量的值越大，表示观察频数和期望频数之间的差异越大，

这意味着两个变量之间可能存在显著关联。要确定关联是否显著，需

要根据卡方统计量的值和自由度（degrees of freedom）使用适当的

卡方分布进行推断。通过查找卡方分布表或使用统计软件，可以计算

第5页

出卡方统计量的 P 值，进而判断是否拒绝原假设。

如果 P 值小于事先设定的显著性水平（通常为 0.05），则可以拒

绝原假设，并得出结论认为两个变量之间存在显著关联。反之，如果

P 值大于显著性水平，则无法拒绝原假设，无法得出关联的结论。

卡方检验提供了一种方法来评估分类变量之间的关联性。通过计

算卡方统计量并进行假设检验，我们可以确定两个变量之间是否存在

显著关联，从而提供对数据的进一步解释和结论。

接下来是卡方检验后，得到的卡方检验结果:

根据计算所得到的卡方检验结果，可以得出以下结论：

在所考察的变量中， Gender、EthnicGroup、ParentEduc、

第6页

LunchType、TestPrep、PracticeSport 和 WklyStudyHours 与 TotalScore

之间存在显著关联（P 值小于显著性水平 0.05）。这意味着这些变量

与学生的总分之间存在一定的关系，可能对学生成绩产生影响。

然而， ParentMaritalStatus 、 IsFirstChild 、 NrSiblings 和

TransportMeans 与 TotalScore 之间的关联性并不显著（P 值大于显著

性水平 0.05），即这些变量与学生的总分之间可能没有明显的相关性。

随机森林模型检验：

本着严谨的科学态度，我换用另一个模型对各变量的重要性进行

判断。

在机器学习中，随机森林是一种强大的集成学习方法，它由多个

决策树组成。每个决策树都是基于自助采样法（bootstrap sampling）

得到的不同训练集训练而成。自助采样法是一种有放回的随机采样方

法，通过对原始数据集进行 m 次采样，得到大小为 m 的新数据集 D'。

在每一轮采样中，样本 x 被抽到的概率为 1/m。因此，在进行 m 轮

采样后，样本 x 仍未被抽取到的概率为:

(1 −

1

?

)

?

根据极限公式：

????→∞

(1 −

1

?

)

?

≈

1

?

≈ 0.368

我们可以得知，原始数据集中约有 36.8%的样本没有被抽到，这

些未被抽到的样本可以用于由新数据集 D'训练得到的学习器的\"包外

估计\"。

第7页

通过使用自助采样法和随机森林，我们能够充分利用原始数据集，

并获得较低的泛化误差。这对于数据集较小且训练集和测试集无法很

好分离的情况尤为适用。

在随机森林中，除了自助采样法，还有一个重要概念是特征随机

性。特征随机性是指每个决策树节点只考虑特征子集的一部分来进行

分裂。这种随机性有助于提高随机森林的多样性和泛化能力，减少过

拟合的风险。

考虑一个包含 n 个样本和 n'个特征的数据集。在随机森林中，每

个决策树只使用特征子集的一部分进行分裂，假设特征子集大小为 m。

则每个节点选择分裂特征的概率为1

?。

下面是具体的公式：

?(1 − ?

−?

′/?

)

该公式表示未被抽样的样本数量的期望值。指数项?

−?

′

/?描述了

样本未被抽样的概率。

当样本数量 n 远大于特征数量 n'时，指数项趋近于 0，即几乎所

有样本都被抽样到。当样本数量 n 相对较小或特征数量 n'相对较大

时，指数项趋近于 1，表示部分样本未被抽样到。

这个公式展示了自助采样法的性质，即样本的重复抽样和部分样

本未被抽样。通过自助采样，随机森林能够充分利用样本，提高多样

性和泛化能力。

上述公式揭示了随机森林中未被抽样的样本数量的期望值，强调

了自助采样和特征随机性在随机森林中的重要性，并揭示了随机森林

第8页

的多样性和泛化能力的来源。

在随机森林中，我们通过集成多个决策树的预测结果来获得最终

的预测。每个决策树都是在自助采样的数据集上训练得到的，并且具

有特征随机性。这意味着每个决策树都是在不同的训练子集上使用部

分特征进行训练。

下面是具体的公式：

?̂ =

1

?

∑

?

?=1

?̂

?

(?

′

)

在随机森林中，我们通过集成多个决策树的预测结果来获得最终

的预测。每个决策树都是在自助采样的数据集上训练得到的，并且具

有特征随机性。这意味着每个决策树都是在不同的训练子集上使用部

分特征进行训练。

公式中的 ?̂ 表示最终的预测结果，它是所有决策树预测结果

?̂

?

(?

′

)的平均值，其中 b 是决策树的索引，B 是决策树的总数。

通过集成多个决策树的预测结果，随机森林能够提高预测的准确

性和稳定性。每棵决策树都对数据进行了随机抽样，从而增加了模型

的多样性。同时，决策树只考虑特征的子集，减少了模型对单个特征

的过度依赖，提高了泛化能力。

通过对决策树预测结果的平均，随机森林能够获得更准确和稳定

的预测性能，并具备较强的泛化能力。这种集成方法使得随机森林成

为一种强大的机器学习算法，适用于各种预测和分类任务。

第9页

根据得到的随机森林的特征重要性结果，我们可以看出午餐类型、

考试准备、种族和父母教育水平对学生的学习成绩或其他目标变量具

有较大的影响。其中，午餐类型的重要性得分最高，可能表示不同类

型午餐对学生表现产生影响。此外，考试准备、种族和父母教育水平

也对学生的表现有较大的影响。性别、每周学习小时数和参与体育活

动对学生的表现影响较小。其他特征的重要性较低，可能对学生表现

没有明显的关联性。

数据可视化分析——图一：

第一个数据可视化图的数据基于前面随机森林模型计算得到的重要

性特征数据，该数据可以很好的反应出各个变量对于总分成绩的影响，

为了更好体现其背后蕴含的现象，我绘制了热力图：

第10页

该数据可视化图整体是蓝色色调，最低是亮蓝，最高是暗蓝色。

首先是创建一个数据框用于存放要前面计算得出的重要性值。然后将

'plot_data'按照重要值做降序排序工作，然后利用 ggplot 函数画图，

设置填充颜色由 Importance 的值来决定。利用 scale_fill_gradient 函

数设置填充颜色的渐变范围是从浅蓝色到深蓝色。最后设置图形的主

题，隐藏网格线和设置了斜体 x 轴标签，避免 x 轴标签重合的情况。

从上面的图中我们可以清楚的看到，LunchType、TestPrep、

ParentEduc、EthnicGroup、Gender 均是颜色比较深的，说明这几个

变量对于总分影响的重要性比较强。然后最浅的是 WklyStudyHours、

PracticeSport，这说明这两个变量实际上对于总分影响不大。

数据可视化分析——图二：

尽管我已经从随机森林模型的计算结果中知道了哪些指标对于

学习成绩的影响大，但是冰冷冷的数字还是不能简单直观地表现出各

第11页

项指标对于成绩的影响，换句话说就是不够直观，为此，我又在此基

础上进行了绘图。

第二个数据可视化图的数据我采用的是总分中排前 100 的学生

的数据，对该数据我收集了他们的 ParentEduc 信息，意在分析家长

的学历对于学生成绩的影响，评比的标准就是看哪个学历下成绩排前

100 的学生的数量最多。

对于该数据可视化图，首先利用 order 排序，然后用 head 选取

前 100 的学生的数据，然后收集这部分学生的家长学历情况。最后利

用计数好后的数据进行绘制柱状图，x 是 ParentEduc 的类别，y 是对

应类别的数量，fill 则让不同的类别有了不同的颜色，方便观看。

通过该数据可视化图，我们可以看到数量最多的类别是

bachelor's degree 和 master's degree，以及相对较多的 associate's

第12页

degree，最少的就是 High school，我们可以从中看出来，孩子的成

绩和家长的学历是非常相关的，学历高的父母，其孩子的成绩好的可

能性更高。

数据可视化分析——图三：

接下来我要探究一个老生常谈的话题：男生和女生的学习成绩会

有显著的不同吗？男生的成绩高还是女生的成绩高？为了探究男生

和女生的成绩，我绘制了一个小提琴图(带箱型图)，该小提琴左边的

是 female，右边的是 male，旨在利用小提琴图直观表现男和女的区

别。

对于本图，我使用 ggplot 函数创建了一个基础绘图对象，然后使用

第13页

geom_violin 添加了小提琴图层，接着使用 geom_boxplot 添加了箱线

图层。

从图表中我们可以清楚的看到，代表 female 的小提琴图其数据

大量分布在 210 左右，分布在 150 以下的人数少。代表 male 的小提

琴图的分布主要集中在 200 附近，分数在 150 以下的孩子的数量明

显超过 female。再关注这两个小提琴图上的箱型图，从平均值来看，

female 的平均总分要比 male 的平均总分要高。因此从数据图中我们

可以知道，按照以往大家所说的“女生读书没有男生厉害。”这种说法

是错误的，是属于对女孩子的刻板印象。这也启发家长：不要因为孩

子是女生就不培养其学习能力，女生的学习能力也不容小觑！

数据可视化分析——图四：

大家想必在小学就有听过这么一个说法：“女孩子的数学能力就

是比不过男孩子。”，为了探究这个说法的科学性与准确性，我绘制了

男生女生各科性别雷达图，旨在通过观察男生和女生在不同维度的表

现来印证说法是否成立。

第14页

对于该图像，首先，计算每个性别的各项成绩的均值，得到一个

数据框，然后将最小值、最大值和均值的数据合并，使用 radarchart

函数创建雷达图，展示了不同性别在各个成绩指标上的分布情况。最

后，添加了一个水平图例，显示性别标签和对应的颜色。

从图像中我们可以看出来。在数学成绩方面，男生确实均值表现

要比女生好，总体而言二者还是相对接近的。此外女生的阅读成绩和

写作成绩均比男生高，在写作成绩方面，女生和男生拉开了一定的距

离。这启发的家长们，可以针对性地取长补短，让总得分更高。

数据可视化分析——图五：

接下来是一个很有意思数据可视化结果，为探究在一周内自学时

第15页

长对于成绩的影响，我绘制了金字塔图，横轴是总分均分，纵轴是一

周自学时长的几个类别，然后中间分界，左边是男生的数据，右边是

女生的数据。

该数据可视化图是使用了 ggplot2 和 dplyr 包创建，首先通过通

过使用 group_by 和 summarise 函数，对原始数据按照性别和每周学

习时间进行分组，并计算出每组的平均总成绩。然后，使用 ggplot 函

数创建图表，并通过 geom_bar 函数绘制两组柱状图，其中女性用粉

色表示，男性用蓝色表示。为了呈现金字塔形状，男性的柱状图在 y

轴上取了负值。然后利用 coord_flip 函数实现 x 和 y 轴的翻转。实现

了金字塔图。

从数据可视化图结果上看，这确实是一个很有趣的发现，在家长

们的普遍认知中，课外学习时长越多，肯定分数越高，虽然从图表上

看确实如此，但其实无论是男生还是女生，从“<5”到\">10\",成绩的变

第16页

化量并不大。而付出这么多时间去为了这点成绩的突破是否值得，这

可能需要家长和孩子进行沟通，因为一个人的能力绝不仅仅是单一的

学习成绩，而孩子的周末也不应该仅仅是学习。在我看来，每周自学

时长在 5-10 小时可能是最合适的，既比<5 小时的情况下的成绩出现

明显提升，又不与\">10”相差太多。

数据可视化分析——图六：

接下来，我将从家庭经济支持方面对于孩子成绩的影响出发，探

讨上学交通方式和午餐质量对于孩子成绩的影响。为了能够更加直观

体现两种变量对于孩子成绩的影响程度，我绘制了分组柱状图进行进

行比较。

第17页

和上图类似，本数据可视化图先对原始数据按照午餐类型和交通

方式进行分组，并计算出每个组合的平均总分。然后利用 ggplot 的

geom_bar 函数绘制柱状图，不同的交通方式使用不同的填充颜色，

并利用'position=\"dodge\"'使得不同组合的柱状图并排展示。最终实现

了本图的绘制。

从图中我们可以看出，孩子们的交通方式并不会对他们的成绩产

生什么影响，更多情况下，他们的成绩几乎一样。但是值得家长们注

意的是，孩子们的午餐质量对于孩子们的学习成绩具有重要的影响，

其差值在 40 分左右，这是个很大差值了，这对于家长来说意义重大：

对于孩子，要让他吃饱吃好，这样子才能有好的分数。家长们需要尽

可能的满足孩子们关于就餐的需求，要让孩子们摄取到足够多的营养，

以便更好投入到学习生活中去.

数据可视化分析——图七：

接下来我注意到还剩下一个变量特征：TestPrep，该变量描述的

是是否有在考前进行考前准备，比如模拟考或者考前训练等，我要探

究其对于各项成绩以及总成绩的影响，考虑到箱线图可以最为直观地

展示影响，我决定绘制四个箱线图进行数据可视化展示。

第18页

通过 ggplot 函数和 geom_boxplot 函数创建了四个箱线图，分别

对应不同的成绩指标。每个箱线图都设置了 x 轴为考试准备情况，y

轴为对应的成绩指标。接下来，使用/操作符将四个箱线图组合在一

起，形成一个 2x2 的组合图形。最后，使用 combined_plot 显示组合

图形。

分析该数据可视化图后我们首先可以得出一个结论：TestPrep 是

行之有效的提高分数的方法，家长们可以在考试前帮助孩子们完成

TestPrep 来有效提高成绩。对于三项成绩而言，TestPrep 对于

ReadingScore 和 WritngScore 的帮助最大，而对于 MathScore，可能

是因为需要有数学思维和长期训练，所以提升幅度没这么大。

结论：

通过数据建模与分析，我将可能影响孩子学习成绩的因素找了

第19页

出来，对于对成绩影响大的因素也进行了重点标注与说明，希望家长

们能够通过阅读本文章，找到最适合提升孩子成绩的方案，正如我的

题目所说的那样，找到知识的秘语：开启孩子学习成绩的黄金钥匙。

我们大多数人都不含着金汤匙出生，学习是在众多出人头地的路上最

公平的一条道路。

{{isCollapse?'展开':'收起'}}

百万用户使用云展网进行多媒体电子书制作，只要您有文档，即可一键上传，自动生成链接和二维码(独立电子书)，支持分享到微信和网站！

收藏

转发

下载

免费制作

其他案例

更多案例

免费制作

x

{{item.desc}}

下载

{{item.title}}

{{toast}}