多特征融合下视频网站弹幕信息有用性检测研究

所属分类：电子论文阅读次时间：2022-03-31 10:30

本文摘要：摘要： [目的/ 意义] 随着视频平台弹幕功能被大众所熟知，弹幕信息呈现爆炸式增长，信息有用性检测逐渐凸显重要的学术和商业价值。 [方法/ 过程] 本文提出了多特征融合下视频网站弹幕信息有用性检测模型。该模型首先从弹幕信息效用、弹幕表达形式和弹幕用户特征 3

高端学术服务项目

　　摘要： [目的/ 意义] 随着视频平台弹幕功能被大众所熟知，弹幕信息呈现爆炸式增长，信息有用性检测逐渐凸显重要的学术和商业价值。 [方法/ 过程] 本文提出了多特征融合下视频网站弹幕信息有用性检测模型。该模型首先从弹幕信息效用、弹幕表达形式和弹幕用户特征 3 个角度提取与弹幕信息有用性相关的特征指标，然后利用随机森林对重要特征进行选择，建立机器学习模型逻辑回归、 SVM、决策树、朴素贝叶斯、 GBDT 等对弹幕信息进行分类，得到各等级信息有用性的检测结果。 [结果/ 结论] 从结果中显示，集成模型(GBDT、 LightG⁃BM 和 XGBoost)相比于单模型算法展现了更好的优越性。最后，根据研究结果提出相应的理论和实践意义。本研究扩展了在线信息特征相关研究，也为评估和改善视频平台环境提供了决策依据。

　　关键词：特征融合; 随机森林; 机器学习; 有用性检测; 弹幕信息

视频融合信息论文

　　近年来，弹幕已经发展成为大众熟知并接纳的一种信息传播方式。弹幕文化最早起源于 2006 年日本 Niconico 视频网站， 2008 年传入我国被 ACG 爱好者所接受，其后， BiliBili 网站(以下简称 B 站)迅速建立并发展成为我国最大的弹幕视频网站， 2014年底，腾讯、爱奇艺等国内主流视频网站纷纷使用了弹幕功能[1-2]。在 2020 年 11 月， B 站联合中国社会科学院社会学研究所发布《2020 年度弹幕报告》，报告基于大数据统计指出 B 站用户总共发送超 16 亿次弹幕， 95 后用户非常活跃[3]。

　　随着弹幕的受众和影响力不断扩大，大量弹幕信息呈爆炸式增长，过去弹幕只是一种漂浮于在线播放视频之上的流动文本，现在弹幕已发展成为诸多场景必不可少的互动功能之一[4]。用户可以即时进行文本编辑与发送，将自己的弹幕呈现在播放页面上。相比于传统评论，视频弹幕具有即时性、共情性、互动性等特点。作为一种新型的信息交流方式，弹幕不仅包含用户对视频内容的评论信息，同时还包括用户复杂多样的态度、意向、情感等信息。

　　喻昕等指出，弹幕信息具有互动性、可视性、娱乐性和有用性 4 种特性，其中有用性反映出弹幕信息的可利用价值[5]。随着用户参与度提高，弹幕数量日渐庞大且不断增长，密集的文字铺满屏幕，可能会对用户观看体验造成一定的影响[6]。用户倾向于对自己的观看体验产生积极影响的弹幕信息，认为该信息是有价值的、有意义的。此外，弹幕信息中传递的用户观点和想法越来越多地被视频创作者和平台关注，且在产品功能上十分重视弹幕的筛选和审核机制[7-8]。

　　然而，信息有用性在不同程度上取决于个人的主观认知，针对信息有用性的量化研究成为一项具有挑战性的工作[9-10]。因此，面对海量弹幕信息，有效甄别和检测弹幕信息有用性体现出重要的价值。现有对信息有用性的研究集中于网络评论有用性[11-12]，弹幕是继网络评论后的一种新颖的信息表达方式，弹幕信息有用性的衡量标准也产生了一定变化。基于上述情况，本文以视频网站弹幕信息为研究对象，提取弹幕信息特征，构建有用性检测模型，并采用弹幕数据进行实验来验证检测效果，以期达到能独立判断和自动识别视频网站弹幕的信息价值，有效挖掘用户观点，提升视频网站服务质量。

　　1 相关工作

　　1.1 弹幕文本研究在互联网时代，弹幕文化日益浓厚，表现出显著的风格特征，呈现出互动性、碎片性、流动性和及时性[13-14]。弹幕文本具有形式短且语义缺失的特点，张俊杰分析收集视频弹幕数据发现， 80%以上的弹幕在 30 字符以下[15]。从传播学角度，网络媒体有丰富的符号化表达方式，弹幕的语言模式成为研究关注的重点。例如，沈文静将弹幕分为文字类和非文字类符号[16]; 付阳春按照弹幕语言成因分为操作类、情感类、来源类和其他 4 类[17]; 王路珊认为弹幕语言有其独特语境，在语音、文字、词汇、句法和语义方面不同于其他网络语言[18]。弹幕伴随视频网站的发展得以运用，可以极大地改善人与人之间的互动[19]。

　　在营销学领域，学者们重点关注视频网站弹幕的用户体验。孟陆等以信息源特性维度(专业性、技能性等 7 项) 来分类弹幕文本，检验直播网红的信息源特性对受众行为的影响[20]。不少研究指出，弹幕蕴含着用户的行为和态度信息，从弹幕文本中判别用户的关注点和情感倾向，有助于行为科学中的潜在应用[21-23]。张亚雪等认为，弹幕使用动机在于满足受众自我呈现和多种需求[24]。

　　Wang S 等构建基于改进的 Bi-LSTM 模型的弹幕评论情感分析模型[25]。在网络教育中，杨九民等通过元分析证明弹幕对学习者的学习具有积极影响，对学习结果影响显著[26]。此外，对弹幕进行识别和标注等技术也在不断发展。 Wu B等利用弹幕的文本内容自动提取时间同步的视频标签[27]。 He M 等结合弹幕动态性预测视频流行度，利用羊群效应设计检测 “领头羊” 弹幕[28]。 Xu L等结合弹幕之间的关联性提取视频摘要[29]。

　　1. 2 信息有用性检测研究信息有用性是用户感知信息的有用程度对信息价值的衡量，目前相关研究大多围绕在线评论的特征探究有用性影响因素，包括评论信息特征、评论者特征以及产品类型[30]。刘伟等通过 IAM 的双路径分析理论模型，证明信息丰富性、信息可读性和点评负面性对在线评论有用性有显著正向影响[31]。而对于商家回复场景下的信息有用性，程艳霞等则从有效解决问题、满足情感需求、培育驾驭能力 3个维度开发量表[32]。大多数对于信息有用性检测的研究首先须得到有效特征，并运用回归方法和分类算法进行检测，研究场景较分散[11，33-34]。

　　总的来说，无论在学术还是在商业领域，弹幕信息有用性检测相关研究体现了重要的价值，但仍处于初步探索阶段。近年来，机器学习模型对网络信息的分析和处理方面得到广泛应用，具有优良表现。如利用机器学习模型对新能源汽车普通消费者评论进行情感演化分析[35]，运用 LightGBM 算法预测 P2P 项目信用[36]等。逻辑回归、 SVM、决策树等机器学习模型能从高维度、高噪声数据中学习经验知识，为进一步提高信息有用性检测的精确度提供了可能。本文试图结合弹幕文本特点，解析视频网站弹幕用户的行为方式，从影响信息有用性的关键要素出发构建特征指标，应用机器学习算法构建预测模型，实证检验模型有效性，通过对比不同的机器学习算法，寻找最优模型，达到弹幕信息有用性检测要求。

　　2 多特征融合下视频网站弹幕信息有用性检测模型

　　2. 1 总体框架本文提出的视频网站弹幕信息有用性检测过程主要包含两个阶段：特征生成和信息有用性检测。

　　在特征生成阶段，首先利用 Python 爬虫收集视频弹幕数据集，对数据进行清洗，根据有效特征计算模板进行计算，数值转换后得到各维度的特征项;在信息有用性检测阶段，使用随机森林对提取特征项进行排序筛选以提高检测效果，并将所选择的特征值形成目标数据集，输入到分类器进行模型训练，对视频网站弹幕信息有用性进行检测，根据弹幕信息有用性特征对检测效果进行评估。

　　2.2 有效特征选取及量化

　　在视频网站弹幕信息有用性检测模型中，特征选取与量化是重要的预处理策略。特征选取是为了解决预测问题，选择一部分必要的、具有代表性的特征，减少过度拟合，提高模型学习和预测能力。在不同的信息有用性指标体系构建中，主要考虑 3个方面：一是信息特征，如信息质量和信息可信度通常作为主要衡量指标[37-38]; 二是文本特征，包括文本长度和单词数目等[39]; 三是用户自身特征也与信息有用性关系密切[38]。鉴于此，本文将检测弹幕信息有用性作为目标，从弹幕信息效用、弹幕表达形式和弹幕用户特征 3 个角度概括相关特征作为具有决定性的影响变量。

　　2.2. 1 弹幕信息有用性信息有用性是用户对信息的接受、理解与分析的重要特征，信息有用性高的信息更易理解，具有更高的影响力与传播价值[40]。弹幕在视频上经过较短时间传递信息，视频观看者会对有用信息表达出喜爱与认可。在信息有用性衡量方式中，杨东红等采用投票数作为评论有用性的衡量依据[11]。在信息传递过程中，点赞数是信息发送者与信息接受者之间的互动机制[41]。本文通过弹幕的点赞数来反映弹幕信息有用性的高低。

　　2.2.2 弹幕信息效用有用性作为信息的一种属性，并没有明确信息效用的实质内容[42]。信息效用与用户自身任务相关，与信息效用相关的度量指标包括及时性、适用性、相关性等[43-44]。由此，结合弹幕环境，信息效用可以通过可读性、文本情感值、信息时效性和主题相似度 4 个特征，反映信息给用户个人带来的效果与感受。

　　2. 2.3 弹幕表达形式视频中的弹幕是一种新颖的信息评论方式，其文本特点为短而精湛。信息表达形式影响信息内容的传达效果，各项研究表明，信息表达形式的差异性显著影响人们对信息有用性的感知[11，38]。总结弹幕信息所呈现出来的语言特征，包含文本字数、文本颜色、句子完整度和句子互动性 4 个方面。

　　2.2. 4 弹幕用户特征个体差异性使弹幕用户在信息表达方面有所偏差，信息发布者特征对于信息有用性同样重要。例如，在大众点评网的实证研究中，点评者经验对于点评有用性呈正相关[31]; 在开放式创新社区中，用户主动贡献程度正向影响信息有用性[52]。本文基于弹幕环境从用户会员等级和用户发送活跃程度分析用户特征。

　　2.3 信息有用性检测过程信息有用性检测的结果依赖于特征的有效性和具体学习算法。为了降低模型复杂度，提高检测效率，本文对复杂数据集进行特征处理完成后，采用随机森林算法完成多维特征变量选择处理，根据重要度准则筛选关键特征。在此基础上，利用多个机器学习算法(逻辑回归、 SVM、决策树等) 开发弹幕信息有用性检测模型。

　　3 实验与结果分析

　　3. 1 实验数据

　　本文选择的视频网站弹幕信息有用性检测实证对象为腾讯视频平台，它是较早使用弹幕功能的视频在线播放平台之一，具有注册用户即时发送弹幕、弹幕点赞、弹幕字体颜色等功能，在拥有海量影视资源的基础上，通过弹幕等功能吸引了大量用户，热门视频弹幕数量高，参与用户数量大。 2020 年拍摄的《航拍中国》在腾讯视频平台得到 9.5 分的超高评分，是深受用户喜爱的一部纪录片; 用户群体的地区、性别、年龄等具有一定的均衡性。

　　本文使用 Python 爬取腾讯视频网站中《航拍中国第三季》共十集纪录片的全部弹幕数据作为研究文本，该纪录片弹幕文本更新时间截至 2021 年 4 月 15 日，包含弹幕相关数据记录共49 369条，将数据存入 Excel 表格中，包括弹幕ID、弹幕文本、用户名、用户头像 URL、会员等级、颜色样式、发布时间、弹幕点赞数等基本信息。

　　3. 2 描述性统计分析

　　利用获取的弹幕数据，依据上述有效特征选取及量化方法进行数值转换。根据实验模型中的 1 个因变量即信息有用性， 10 个自变量包括弹幕可读性、文本情感值、信息时效性、主题相似度、文本字数、文本颜色、句子完整度、句子互动性、用户会员等级、用户活跃程度。对 11 项特征进行描述性统计分析，得到 11 项指标的平均值、标准差、最大值、最小值 4 项指标。其中，信息有用性平均值为 1􀆰 87，说明大量用户发送的弹幕获得了较少点赞数，整体信息有用性偏低。

　　4 结果与启示

　　4. 1 研究结果

　　从特征的筛选中，弹幕表达形式相关特征的重要程度排序较靠后，有 3 项指标被直接剔除掉，说明不同特征项对信息有用性的预测能力有较大的差异。弹幕具有丰富的表现形式，改变了用户的视觉体验，如红色弹幕比较具有警示意义。喻昕等在网络直播平台弹幕用户参与行为研究中表示互动性和可视性是影响用户体验的关键信息源[5]，本文结果进一步表明了弹幕信息的句子互动性较强或文本颜色特别能吸引其他用户注意，但并不表示一定能得到其他用户的认可。过去研究表明，文本长度和信息有用性之间具有显著影响，本文研究对象聚焦于弹幕评论，且弹幕的文本长度更加简短，但结果与以往研究具有一致性。

　　使用 7 种机器学习算法对通过特征选择后的目标数据集进行训练与测试，通过不同的角度对各算法的评估结果进行对比。不同评估结果均反映了集成模型要优于单模型，具有更高的数据分类精度。而 LightGBM 作为 GBDT 模型的改进算法，增加了学习控制参数与学习目标参数，在结果上显著提升了预测准确率，避免出现过拟合情况。从 Precision、Recall、 F1 和 Accuracy 各项评估结果显示， XGBoost相比 LightGBM 进一步提升了模型预测的稳定性，更适用于弹幕有用性检测应用场景。

　　4.2

　　相关启示

　　1) 建立信息有用性检测指标体系具有可行性。信息有用性检测作为近年来热门研究领域，以往研究多关注于传统商品评论与评价的信息有用性探究，较少关注弹幕环境下的信息有用性。

　　本研究构建多特征融合下视频网站弹幕信息有用性检测模型，对弹幕信息特征进行挖掘与分析，将弹幕通过信息特征、文本特征、用户特征分析得出弹幕信息效用、弹幕表达形式与弹幕用户特征 3 类特征。拓宽了对于弹幕信息有用性的研究维度，同时兼备科学性与合理性。建立较为完善的信息有用性检测指标体系，能够为信息有用性分析与解释提供路径与方法。

　　2) 集成模型在大规模非均衡数据集上表现出更好的稳健性。本文的实验过程为弹幕文本数据分析和处理提供了完整的解决思路。实验中，对弹幕文本数据进行量化处理，通过随机森林模型获得特征的重要程度，采用 7 种当下较为热门的机器学习算法，充分对模型的预测效果进行评估与比较，对比在不同算法下同一数据集的预测效果。可以看出，对于相关性不确定的大规模非均衡弹幕文本数据，集成学习模型的检测效果和稳健性均优于其他模型，是一种较为实用的解决方法。

　　3) 在管理实践中有助于推动网络信息服务正向发展。对弹幕信息进行有用性检测，有助于评估视频弹幕质量、优化弹幕功能、增强用户粘性，促进平台有序发展。另外，在本文研究基础上，值得对弹幕文本特征与含义进行更深层次挖掘，建立必要的弹幕内容监管机制，及时删除不文明或敏感弹幕，避免弹幕环境恶化。对弹幕文本内容进行挖掘与审核，能正确引导视频观看用户合理讨论，发送文明弹幕，有助于营造和谐稳定的视频观看环境。

　　5 结语

　　本文的研究目的是对视频网站弹幕信息有用性进行检测，通过构建多特征融合下信息有用性检测模型，从多个角度分析弹幕信息有用性影响因素，并提出特征量化方法。在实验部分，本文利用随机森林模型分析各项特征的重要程度，并使用多种机器学习算法进行训练和检测，取得了不错的评估效果。本文的研究不仅丰富了信息特性的理论体系，同时对视频平台的监管机制和服务策略具有一定实践意义。但本文尚有许多值得改进的地方，例如在考虑信息有用性影响因素时，未能涵盖文本语言上的其他特征，在全面性上有进一步提高的空间; 弹幕信息有用性不同等级样本数量的不均衡，使机器学习算法分类精度效果有限; 另外，本文的研究样本只选取了单一类视频，在后面研究中可以对比不同类别视频的弹幕有用性检测的差异性，为视频平台提供更精准的服务。

　　参考文献

　　[1] 郭磊. 我国弹幕视频网站的受众研究 [D]. 昆明：云南大学，2015.

　　[2] 江含雪. 传播学视域中的弹幕视频研究 [D]. 武汉：华中师范大学， 2014.

　　[3] B 站联合社科院社会学研究所. 2020 年度弹幕报告 [EB/ OL].

　　[4] 葛欣怡. 弹幕在不同场景中的传播效果探究 [D]. 北京：北京邮电大学， 2019.

　　[5] 喻昕，许正良. 网络直播平台中弹幕用户信息参与行为研究———基于沉浸理论的视角 [J]. 情报科学， 2017， 35 ( 10)： 147 -151.

　　[6] 马黛. 新媒体时代的弹幕文化现象分析 [ J]. 西部广播电视，2021， 42 (5)： 79-81.

　　[7] 张颐武. 弹幕的意义 [N]. 人民政协报， 2021-01-18， (9).

　　[8] 许熙扬，刘锦宏. 基于用户需求的 B 站社区属性转型策略分析 [J]. 今传媒， 2021， 29 (5)： 26-28.

　　[ 9] Liu X， Wang G A， Fan W， et al. Finding Useful Solutions in OnlineKnowledge Communities： A Theory-Driven Design and Multilevel A⁃nalysis [J]. Information Systems Research， 2020， 31 ( 3)： 731 -752

　　作者：张瑞何禄鑫黄炜