一种基于协同过滤的图书推荐平台

所属分类：经济论文阅读次时间：2021-05-20 10:35

本文摘要：在信息数据交互量剧增的当下，数据挖掘与机器学习技术飞速发展。其中，推荐技术在高校学生的学习、生活中已成为一种主流的兴趣爱好反馈方式。如何在快速建立学生的综合成绩与学习行为之间的关联度、挖掘学生学习的兴趣向量的同时，实现对热门图书的个性化推

高端学术服务项目

　　在信息数据交互量剧增的当下，数据挖掘与机器学习技术飞速发展。其中，推荐技术在高校学生的学习、生活中已成为一种主流的兴趣爱好反馈方式。如何在快速建立学生的综合成绩与学习行为之间的关联度、挖掘学生学习的兴趣向量的同时，实现对热门图书的个性化推荐，已经成为高校研究激发学生自主学习的方向之一。本文提出基于协同过滤的图书推荐算法，通过对我校学生的学习行为进行数据分析，构建协同过滤的概率矩阵模型，从而发现学生学习的兴趣倾向值，最终实现向学生推荐个性化图书信息的平台的搭建，进一步方便学生选择个人感兴趣的图书，进行阅读、学习与知识拓展，提升校园优良学风建设。

图书管理系统

　　相关研究目前国内对于推荐算法在学生课程属性与情趣偏好中的相关问题进行了较为深入的研究。王仲钰利用多维属性间关联规则数据挖掘技术，采用协同过滤算法、关联算法对不同用户群体图书借阅数据进行分析，探索具有针对性的图书推荐服务策略，提升图书馆服务能力。

　　图书馆论文范例：新时代图书腰封设计的价值取向探析

　　王刚计算用户之间的相似性并与传统的协同过滤推荐方法相结合，提出了基于用户兴趣序列的改进协同过滤图书推荐方法。李萍通过实验测试，采用数据挖掘技术的图书推荐系统推荐的书目与实际借阅的书目基本吻合，判断准确性对比传统方式大幅提高。张紫嫣也提出一种结合类别偏好的协同过滤推荐算法。在原算法计算用户相似度的基础上，结合用户类别偏好的相似度来计算近邻，从而得到推荐结果。

　　现有的国内研究中重点考虑在对协同过滤数据的关联规则研究上，而对挖掘学生的兴趣倾向值矩阵建立研究较少。在国外研究中，Tewari也阐述了根据买家的兴趣推荐图书的观点，并提出了一种基于内容过滤，协同过滤和关联规则挖掘相结合的图书推荐系统。Parvatikar通过将基于协作的过滤和关联规则挖掘相结合来解决在线图书推荐数据稀疏性问题，以获得更好的性能。

　　Mathew等人提出了一种基于内容过滤(CBF)，协作过滤(CF)和关联规则挖掘的组合特征的书推荐系统(BRS)，以产生有效和有效的推荐。本文提出将基于协同过滤的推荐算法，构建基于协同过滤的概率矩阵模型的学生兴趣倾向挖掘技术，设计出一种针对兴趣倾向推荐的个性化图书推荐系统，以达到向学生推荐个性化图书信息，为学生教育信息化提供便利的目的。基于协同过滤的推荐算法常用的协同过滤算法分为两种，基于用户的协同过滤算法(user-basedcollaborativefiltering)，以及基于物品的协同过滤算法(item-basedcollaborativefiltering)。

　　本系统的目标是向学生进行个性化图书推荐，采用基于用户的协同过滤算法，经过用户偏好多维度评分、相似兴趣倾向计算与关联推荐列表计算后，得出准确率和召回率最高的带权优先兴趣倾向计算结果。多维度评分多维度评分是指进行协同过滤推荐的基础。本研究采取基于学生科目成绩、收藏书籍、书籍阅读速度、书籍评分与评价等行为的数据根据学习行为反应的用户兴趣倾向对其进行加权，经过减噪和归一化的预处理后构建用户偏好二维矩阵模型，以用户列表与物品列表作为纬度尺标，得出用户对物品的偏好值。

　　兴趣倾向计算兴趣倾向计算是指经过矩阵分析得到用户喜好后，得到用户兴趣偏好向量并计算用户之间的相似度。在常用的欧几里德距离、皮尔逊相关系数、Cosine相似度、Tanimoto系数等兴趣倾向算法中，本研究采用Cosine相似度方法，它被广泛应用于计算文档数据的相似度，其中xi与yi分别代表x用户与y用户对书籍i的评分，两个向量积的数值越小则相似度越高。

　　关联推荐列表关联推荐列表用于要求以经典Apriori算法挖掘关联规则，获取到相邻用户与相邻物品集后，根据基于用户的CF思想，生成用户没有偏好值的候选项集，再根据关键词频率筛选过滤掉超出最小支持度的频繁项集，最后提取出强关联的关联推荐列表，抓取相应书籍数据并进行推荐。

　　构建基于协同过滤的图书推荐系统目前，高校图书馆与数字资源大多仅作为图书资源库而提供信息检索与文件查询功能，缺乏有针对性的信息推荐功能。本研究为提高用户获取目标书籍的效率，进一步方便学生进行阅读、学习、知识拓展，为了将高校学生的选修课程进行准确定位，并利用学生对于课程的评价，同时结合互联网中学生的浏览数据构建出与本人兴趣一致的推荐书籍，在协同过滤的推荐算法基础上构建设计了可视化的个性化图书推荐系统。

　　本系统经过对学生学习行为的预处理，充分发挥互联网作为学生获取图书信息的主要途径的特点，利用数据挖掘技术获取到学生的浏览历史、好评书籍等数据结合，使用Python语言对数据进行预处理，处理丢失的数据与偏离值，建立兴趣倾向值与数据的关联性分析并抓取学生个性化推荐书籍列表，由此完成协同过滤推荐的过程，并将相应图书信息在系统平台上展现。

　　学生学习行为分析与兴趣倾向计算以高校学生学习行为数据为基础，对学生大类课程成绩与选修课课程成绩进行分析，提取学生的优势与弱势学科，进行学生学科权值的重点加权并构建协同过滤投票模型，以实现学科类取长补短的个性化图书推荐。其次，对学生公选课方向与学生个性化选修课程类别等数据进行分析，构建学生的知识关联图谱，以学生重点优势类别为中心、专业与兴趣为对比尺标，达到分方向进行多维度兴趣关联的目的。

　　同时系统对新用户提供阅读兴趣类倾向选择与兴趣热门图书选择与评分，将阅读兴趣点信息与知识关联图谱结合进行初步筛选，构建多维数据的评分体系与基于协同过滤的概率矩阵模型，最终实现学生兴趣倾向值的初步计算。图书信息动态获取与数据预处理在图书信息的动态获取上，使用基于Python的BeautifulSoup库的爬虫技术对热门的图书信息网站的数据进行动态挖掘，对图书分类排行以及每日优选图书部分进行标签页的定时动态爬取。针对xpath爬取过程中出现的不规律爬取结果采用加上定位映射的方法，最终自定义xpath实现冻结页面数据抓取。

　　通过对学生兴趣倾向值的分析，对抓取的图书数据进行数据清洗。首先经过解析器对图书关键词进行获取，排除学科关联程度低、可靠性低以及重复挖掘等问题的数据。按特征权重比筛选出关键性数据，并反向计算筛选后数据的可靠性与关联度。对偏差较大的数据进行排除，处理丢失的数据、处理偏离值，为后期数据统计、兴趣指标的计算、以及数据关联性分析奠定数据基础。

　　最后完成清洗图书数据的信息存储，确保数据转换、标准化、归一化的准确性。构建基于协同过滤的图书推荐系统本系统的可视化平台以MVC模式进行构建，客户层中图书推荐系统使用Vue框架、应用层则采取SSM框架进行开发。在对外接入层实现外部图书网站接口的获取与连接，为挖掘学生兴趣可能性，对实时畅销书籍数据实现了动态爬取，紧跟热点、综合性地带动高校学生主动读书学习的兴趣。

　　服务层中有爬虫模块、数据分析模块与系统展示模块三部分。具体的，爬虫模块，利用用户关联度和兴趣相似度计算方法，对k门槛内相似用户的图书数据按照偏好矩阵权重值大小进行获取，获取多维度的图书数据源;数据分析模块，在数据层中将学生的学习行为数据进行处理分析，通过协同过滤算法计算出学生学习需要获取图书的倾向性。

　　最后，系统展示模块，对于经过预处理清洗的图书信息，结合学生的兴趣倾向关键词筛选出爬虫子系统中存储的个性化推荐书籍，将个人综合页面将学生行为分析阶段的综合成绩分析情况与兴趣倾向以图形的方式展现，便于用户更加迅速、直观地查看图书的相关信息。本系统在客户层使用Vue框架进行视图界面开发，将服务层计算的图书推荐结果通过API接口在个人推荐页面进行读取与展示。最终系统将完成分布式部署、多进程、负载均衡地图书推荐系统的构建与联通。

　　总结

　　以激发学生自主学习内容推荐为目标，本文结合学生阅读兴趣倾向，提出基于协同过滤与关联规则的个性化图书推荐系统，根据兴趣倾向值进行数据爬虫，并将个性化协同过滤推荐算法应用到学生图书推荐平台的建设中。有助于提高学生之间书籍的获取效率与信息共享，帮助学生深入理解阅读的重要性并满足其对个性化书籍推荐的需求，从而激发学生的阅读学习知识的兴趣。下一步研究中，将进一步加强与高校图书馆数据资源建设联系，充分利用学校图书馆对于学生的专业图书的类别划分以及学生在图书馆借阅书籍的记录，进一步完善本文计算方法，以提供更人性化的图书馆推荐平台。

　　作者：付羽逍;王祎珺;敖明明;杨伊帆