<script type="application/ld+json&q
作业 考核 论文 答案 一请联系 微--xhmcz122
Q-210969415
网络教育学院
《数据挖掘》课 程 大 作 业
题 目:
姓 名:
学习中心:
第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。
在完成这次大作业的过程中,我遇到了许多挑战。首先,数据清洗是一个巨大的难题。原始数据中存在大量的缺失值和异常值,直接影响了后续的数据分析。为了解决这个问题,我采用Python的Pandas库进行数据清洗,通过填充缺失值、删除异常值等方法,使得数据质量得到了显著提升。
在数据挖掘的过程中,特征选择成为了我面临的另一个难题。面对众多的特征,如何选择与目标变量最相关的特征是至关重要的。通过阅读相关文献,我了解到特征选择的方法有很多种,如基于统计的方法、基于模型的方法等。最终,我选择了基于模型的特征选择方法,通过构建不同的模型,比较不同特征的重要性得分,从而选出最重要的特征。
在完成这个项目的过程中,我深刻地认识到Python在数据挖掘中的重要性。Python不仅拥有丰富的数据处理和分析库,如Pandas、Numpy、Scikit-learn等,而且语法简洁明了,易于学习和使用。这使得我们能够更加高效地进行数据处理和挖掘工作。
这次大作业让我更加深入地理解了数据挖掘的全过程。从数据清洗、特征选择到模型构建和评估,每一个步骤都需要精心设计和实施。同时,我也体会到了团队合作的重要性,只有大家齐心协力,才能更好地完成任务。
第二大题:完成下面一项大作业题目。
2021秋《数据挖掘》课程大作业
注意:从以下5个题目中任选其一作答。
题目一:Knn算法原理以及python实现
要 求:文档用使用word撰写即可。
主要内容必须包括:
(1)算法介绍。
(2)算法流程。
(3)python实现算法以及预测。
(4)整个word文件名为 [姓名 奥鹏卡号 学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )
作业提交:
大作业上交时文件名写法为:[姓名 奥鹏卡号 学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)
以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。
。
注意事项:
独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!
题目二:朴素贝叶斯算法原理以及python实现
要 求:文档用使用word撰写即可。
主要内容必须包括:
(1)算法介绍。
(2)算法流程。
(3)python实现算法以及预测。
(4)整个word文件名为 [姓名 奥鹏卡号 学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )
作业提交:奥鹏大工答案请进:
大作业上交时文件名写法为:[姓名 奥鹏卡号 学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)
以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。
。
注意事项:
独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!
题目三:SVM算法原理以及python实现
要 求:文档用使用word撰写即可。
主要内容必须包括:
(1)算法介绍。
(2)算法流程。
(3)python实现算法以及预测。
(4)整个word文件名为 [姓名 奥鹏卡号 学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )
作业提交:
大作业上交时文件名写法为:[姓名 奥鹏卡号 学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)
以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。
。
注意事项:
独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!
题目四:中华古诗词分析
要 求:编写程序爬取中华古诗词网站
https://so.gushiwen.org/authors/上诗人的诗词信息,至少500首诗词,抽取诗词信息的诗人名字、朝代、诗词标题、诗词内容存储在json文件中,自选某一角度完成对诗词的处理分析。如:
(1)杜甫、李白的诗词用字、用词的对比分析;
(2)唐宋代表性诗词的用词对比分析;
(3)使用sklearn对不同诗人的诗词进行训练,训练得到的模型能用于对诗词的作者的判别。对比不同算法判别的准确率。
(4)整个word文件名为 [姓名 奥鹏卡号 学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )
作业提交:
大作业上交时文件名写法为:[姓名 奥鹏卡号 学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)
以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。
注意事项:
独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!
题目五:歌词分析
要 求:自选有音乐歌词的网站,编写爬虫程序下载不同类型的歌曲歌词,至少3种以上类型,每种类型至少100首歌曲,抽取其中的歌曲名称、歌曲类型、歌词信息存储在json文件中,自选某一角度对歌词进行处理分析。如:
(1)不同类型的歌曲用词分析,如下图所示(自行学习使用jieba库和wordcloud库的使用)。
(2)使用sklearn库对不同类型的歌词进行训练,训练得到的模型能用于对歌词类型的判别。对比不同算法判别的准确率。
(3)整个word文件名为 [姓名 奥鹏卡号 学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )
作业提交:
大作业上交时文件名写法为:[姓名 奥鹏卡号 学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)
以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。
在完成这次大作业的过程中,我遇到了许多挑战。首先,数据清洗是一个巨大的难题。原始数据中存在大量的缺失值和异常值,直接影响了后续的数据分析。为了解决这个问题,我采用Python的Pandas库进行数据清洗,通过填充缺失值、删除异常值等方法,使得数据质量得到了显著提升。
在数据挖掘的过程中,特征选择成为了我面临的另一个难题。面对众多的特征,如何选择与目标变量最相关的特征是至关重要的。通过阅读相关文献,我了解到特征选择的方法有很多种,如基于统计的方法、基于模型的方法等。最终,我选择了基于模型的特征选择方法,通过构建不同的模型,比较不同特征的重要性得分,从而选出最重要的特征。
在完成这个项目的过程中,我深刻地认识到Python在数据挖掘中的重要性。Python不仅拥有丰富的数据处理和分析库,如Pandas、Numpy、Scikit-learn等,而且语法简洁明了,易于学习和使用。这使得我们能够更加高效地进行数据处理和挖掘工作。
这次大作业让我更加深入地理解了数据挖掘的全过程。从数据清洗、特征选择到模型构建和评估,每一个步骤都需要精心设计和实施。同时,我也体会到了团队合作的重要性,只有大家齐心协力,才能更好地完成任务。
注意事项:
独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。