大工24春《数据挖掘》大作业题目及要求[电大作业答案]

内容摘要:
网络教育学院 《数据挖掘》课 程 大 作 业 题 目: 姓 名: 学习中心: 第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。 第二大题:完成下面一项大作业题目。 《数据挖掘》课程大作业 注意:从以下5个题目中任选其一作答。 题目一:Knn算法原理以及python实现 要 求:文档">
<script type="application/ld+json&q
国家开放大学答案,形考任务,电大作业答案,毕业论文。

作业 考核 论文 答案 一请联系 微--xhmcz122 Q-210969415


网络教育学院
《数据挖掘》课 程 大 作 业

大工23春《数据挖掘》大<a href=http://www.433c.com/cyzx/2023-07-19/2408.html target=_blank class=infotextkey>作业</a>题目及要求【标准答案】[电大<a href=http://www.433c.com/cyzx/2023-07-19/2408.html target=_blank class=infotextkey>作业</a>答案]

题 目:
姓 名:
学习中心:
第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。

第二大题:完成下面一项大作业题目。

《数据挖掘》课程大作业
注意:从以下5个题目中任选其一作答。
题目一:Knn算法原理以及python实现
要 求:文档用使用word撰写即可。
主要内容必须包括:
(1)算法介绍。
(2)算法流程。
(3)python实现算法以及预测。
(4)整个word文件名为 [姓名 奥鹏卡号 学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )
作业提交:
作业上交时文件名写法为:[姓名 奥鹏卡号 学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)
以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。


注意事项:
独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!

题目二:朴素贝叶斯算法原理以及python实现大工答案请进:

要 求:文档用使用word撰写即可。
主要内容必须包括:
(1)算法介绍。
(2)算法流程。
(3)python实现算法以及预测。
(4)整个word文件名为 [姓名 奥鹏卡号 学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )
作业提交:
作业上交时文件名写法为:[姓名 奥鹏卡号 学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)
以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。


注意事项:
独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!
题目三:SVM算法原理以及python实现
要 求:文档用使用word撰写即可。
主要内容必须包括:
(1)算法介绍。
(2)算法流程。
(3)python实现算法以及预测。
(4)整个word文件名为 [姓名 奥鹏卡号 学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )
作业提交:
作业上交时文件名写法为:[姓名 奥鹏卡号 学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)
以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。

1. 算法介绍

KNN是一种基本的、易于理解的分类算法。它的基本思想是:在特征空间中,如果一个实例的大部分近邻都属于某个类别,则该实例也属于这个类别。

2. 算法流程

  1. 确定距离度量方式:常用的距离度量方式有欧氏距离、曼哈顿距离等。
  2. 选择近邻数K:K的选择会影响分类结果。
  3. 找出K个最近邻居:在特征空间中找出距离最近的K个点。
  4. 进行分类:基于这K个邻居的类别,判断该点的类别。

3. Python实现算法以及预测

首先,确保已经安装了必要的库,如numpysklearn


 
python复制代码
  import numpy as np
  from sklearn import datasets
  from sklearn.model_selection import train_test_split
  from sklearn.preprocessing import StandardScaler
  from sklearn.neighbors import KNeighborsClassifier
  from sklearn.metrics import classification_report, confusion_matrix

接下来,我们将使用鸢尾花数据集(Iris dataset)作为例子。


 
python复制代码
  # 加载数据集
  iris = datasets.load_iris()
  X = iris.data
  y = iris.target
   
  # 划分数据集为训练集和测试集
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
   
  # 数据标准化(可选)
  scaler = StandardScaler()
  X_train = scaler.fit_transform(X_train)
  X_test = scaler.transform(X_test)
   
  # 使用KNN进行分类
  knn = KNeighborsClassifier(n_neighbors=3) # 你可以更改n_neighbors的值来观察其对结果的影响
  knn.fit(X_train, y_train)
  y_pred = knn.predict(X_test)

最后,我们可以评估模型的性能。


 
python复制代码
  # 输出分类报告和混淆矩阵
  print(confusion_matrix(y_test, y_pred))
  print(classification_report(y_test, y_pred))

4. 保存为Word文件

将上述代码和结果保存为一个Word文件,文件名按照您的要求(例如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)。在Word中,您可以将上述代码和结果复制粘贴进去,然后保存即可。如果您想直接从Python生成Word文件,可能需要使用第三方库如python-docx。但这种情况下,您需要将代码和结果以字符串形式保存到Word文件中,这可能会比较复杂。


注意事项:
独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!

题目四:中华古诗词分析
要 求:编写程序爬取中华古诗词网站
https://so.gushiwen.org/authors/上诗人的诗词信息,至少500首诗词,抽取诗词信息的诗人名字、朝代、诗词标题、诗词内容存储在json文件中,自选某一角度完成对诗词的处理分析。如:
(1)杜甫、李白的诗词用字、用词的对比分析;
(2)唐宋代表性诗词的用词对比分析;
(3)使用sklearn对不同诗人的诗词进行训练,训练得到的模型能用于对诗词的作者的判别。对比不同算法判别的准确率。
(4)整个word文件名为 [姓名 奥鹏卡号 学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )
作业提交:
作业上交时文件名写法为:[姓名 奥鹏卡号 学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)
以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。

注意事项:
独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!

题目五:歌词分析
要 求:自选有音乐歌词的网站,编写爬虫程序下载不同类型的歌曲歌词,至少3种以上类型,每种类型至少100首歌曲,抽取其中的歌曲名称、歌曲类型、歌词信息存储在json文件中,自选某一角度对歌词进行处理分析。如:
(1)不同类型的歌曲用词分析,如下图所示(自行学习使用jieba库和wordcloud库的使用)。
(2)使用sklearn库对不同类型的歌词进行训练,训练得到的模型能用于对歌词类型的判别。对比不同算法判别的准确率。
(3)整个word文件名为 [姓名 奥鹏卡号 学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )
作业提交:
作业上交时文件名写法为:[姓名 奥鹏卡号 学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)
以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。如下图所示。

注意事项:

1. 算法介绍

KNN是一种基本的、易于理解的分类算法。它的基本思想是:在特征空间中,如果一个实例的大部分近邻都属于某个类别,则该实例也属于这个类别。

2. 算法流程

  1. 确定距离度量方式:常用的距离度量方式有欧氏距离、曼哈顿距离等。
  2. 选择近邻数K:K的选择会影响分类结果。
  3. 找出K个最近邻居:在特征空间中找出距离最近的K个点。
  4. 进行分类:基于这K个邻居的类别,判断该点的类别。

3. Python实现算法以及预测

首先,确保已经安装了必要的库,如numpysklearn


 
python复制代码
  import numpy as np
  from sklearn import datasets
  from sklearn.model_selection import train_test_split
  from sklearn.preprocessing import StandardScaler
  from sklearn.neighbors import KNeighborsClassifier
  from sklearn.metrics import classification_report, confusion_matrix

接下来,我们将使用鸢尾花数据集(Iris dataset)作为例子。


 
python复制代码
  # 加载数据集
  iris = datasets.load_iris()
  X = iris.data
  y = iris.target
   
  # 划分数据集为训练集和测试集
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
   
  # 数据标准化(可选)
  scaler = StandardScaler()
  X_train = scaler.fit_transform(X_train)
  X_test = scaler.transform(X_test)
   
  # 使用KNN进行分类
  knn = KNeighborsClassifier(n_neighbors=3) # 你可以更改n_neighbors的值来观察其对结果的影响
  knn.fit(X_train, y_train)
  y_pred = knn.predict(X_test)

最后,我们可以评估模型的性能。


 
python复制代码
  # 输出分类报告和混淆矩阵
  print(confusion_matrix(y_test, y_pred))
  print(classification_report(y_test, y_pred))

4. 保存为Word文件

将上述代码和结果保存为一个Word文件,文件名按照您的要求(例如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)。在Word中,您可以将上述代码和结果复制粘贴进去,然后保存即可。如果您想直接从Python生成Word文件,可能需要使用第三方库如python-docx。但这种情况下,您需要将代码和结果以字符串形式保存到Word文件中,这可能会比较复杂。

立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: