互联网时代信息数量急剧增加,给人类带来巨大的信息压力,如何快速获取准确的信息尤为重要。自动标题生成技术应运而生,它不仅可以帮助人们更快速地了解大量信息的核心内容,还可以快速筛选用户感兴趣的信息。目前标题生成技术多应用于新闻领域,在其他领域应用较少。事实上,标题生成技术在教育、商业和科学等领域也拥有较高的应用价值和发展潜力,例如,在商业领域,标题生成技术可以自动生成营销文案、广告语等,有助于提升宣传效果。
本文将标题生成技术应用于课堂教学领域,并构建了课堂知识点文本–标题数据集。通过课堂知识点标题生成,可以让用户迅速了解每个知识点的核心内容,帮助用户理解并总结课堂内容,同时也便于教师进行课程设计和教学管理。
研究方法
目前常用的抽取式算法,如Lead-3和原始的TextRank算法,在忽略关键词的情况下,仅根据句子位置或文本相似度等因素进行句子排序,无法很好地体现文章重点信息,因此本文提出一种改进的TextRank算法——考虑关键字和句子位置的文本排序(textranking considering keywords and sentencepositions,TKSP)算法。TKSP算法综合考虑关键词和句子位置对句子重要性的影响,采用基于TextRank 的词汇权重和位置权重相结合的策略能更准确地提取文章中的重要信息并排名。具体来说,该算法通过统计每个句子中包含的关键词数量、句子的位置、是否是关键句子等信息对句子赋予权重,然后对所有句子进行排序,抽取排名靠前的重点句子作为文本标题。将TKSP抽取式算法与统一语言模型(unified language model,UniLM)结合,并融合文本主题信息,提出统一语言模型结合考虑关键字和句子位置的文本排序算法的模型(unified language modeling combined textranking considering keywords andsentence positions,UniLM-TK),用于课堂知识点标题生成任务。
成果简介
1)将标题生成技术应用于课堂教学进行课堂知识点标题生成。
2)构建了服务于知识点标题生成任务的课堂知识点文本–标题数据集。
3)针对抽取式方法,在TextRank算法的基础上提出了一种改进TKSP算法,在该算法中,通过融入句子位置、关键词数量等因素计算句子权重,衡量不同句子的重要程度。通过与其他抽取式方法对比,证明TKSP算法有效。将TKSP算法与UniLM生成模型结合,并在模型中融合文本主题信息,提出了UniLM-TK模型,通过结果对比,证明UniLM-TK模型生成的标题具有更好的准确性和可读性。
图文导读
1)数据集构建流程
从中国大学MOOC上收集9门计算机类课程、2门医学类课程、13门经管类课程构建知识点文本–标题数据集,该数据集包含课程名、知识点教学文本、知识点标题,共607个样本。数据集构建流程如图1所示。
图1 数据集收集流程
第一步,音频提取。采用 Python 中的Moviepy库从所有教学视频(mp4格式)中提取音频(wav格式)。
第二步,音频转文本。本研究使用飞书妙计音频转写工具进行语音转文本。
第三步,对课堂教学文本进行整理,基于知识点进行文本分割,通过人工撰写标题获得知识点文本一标题对格式的数据集。
数据集样本形式如图2所示。
图2 数据集形式
2)TKSP算法介绍
TKSP算法首先将Word2Vec词向量模型应用于TextRank,使用Word2Vec模型学习每个词语的向量表示,并利用这些词向量计算每个句子的向量表示。这些句子向量被用于构建文本中基于句子之间相似度的图结构。在计算句子权重值时,TKSP算法考虑了影响句子关键性的因素,通过分析人工标注标题过程,以及对教师讲述知识点方式的特点归纳,本文总结了4个影响标题生成的因素:句子的位置、关键词的数量、关键词的重要性和句子的关键性。
(1)句子的位置。在教师介绍知识点时,知识点的主题与句子的位置存在相关性。一般而言,文本第一段会整体介绍知识点,因此该段具有高度的概括性。设置句子Si的位置权重Lweight(Si)为
其中e为权重调整阈值,n 表示文本中句子总数i表示该句子在文本段中的相对位置。式(1)保证了在第一段话中距离第一句越远的句子权重越小。
(2)关键词的数量。含有关键词的句子通常比其他句子具有更多文本有效信息,在一个句子中关键词出现得越多,句子的重要程度就越大。本文通过TextRank算法抽取知识点内容中3个关键词作为关键词表,包含关键词越多的句子权重越大,设置句子,的关键词数量权重Kweight(Si)为
(3)关键词的重要性。关键词的权重值反映了关键词的重要程度。关键词对文本的重要性越高,其TextRank权重值就越大。对3个关键词的权重值进行降序排列,含有第1个关键词的句子权重最高,含有第2和第3个关键词的句子权重相对较弱,设置句子Si的关键词重要性权重Tweight(Si)为
其中,j表示关键词的索引,除数表示句子中全部关键词的权重值,被除数表示3个关键词的总权重值,k表示句子Si中包含的关键词数量。
(4)句子的关键性。在知识点介绍中,第1个出现关键词的句子往往对知识点进行总体介绍,与知识点主题具有较大相关性,第1个出现关键词的句子最重要,之后出现关键词的每个句子权重递减,设置句子Si的关键性权重Tweight(Si)
其中,loc(keywords(Si))表示含有关键词的句子出现的位置。
构建最终的句子权重W(Si),其计算公式为
其中,α、β、γ和δ为权重系数,表示其对应的权重影响因子对句子权重的影响力大小,权重系数越大,影响因子对句子权重的影响力就越大。通过权重计算公式计算文本中句子的权重,根据句子的权重值选择排名前几位的句子组成文本标题。
为权重系数,表示其对应的权重影响因子对句子权重的影响力大小,权重系数越大,影响因子对句子权重的影响力就越大。通过权重计算公式计算文本中句子的权重,根据句子的权重值选择排名前几位的句子组成文本标题。
3)UniLM-TK模型介绍
抽取式TKSP算法可结合多个句子权重影响因素从文本中抽取重点句子,但抽取的句子作为标题通常包含冗余成分,与抽取式标题相比,生成式方法生成的标题更加简洁流畅,但是模型不能很好地在生成标题前深度理解源文本的主要内容,生成的标题会包含错误和重复信息。
针对以上问题,本文提出抽取式与生成式相结合的标题生成模型UniLM-TK。具体而言,通过TKSP抽取的重点句子可以有效减少模型计算量和数据处理难度,使模型更加聚焦于重点信息的提取和生成;而生成式UniLM模型则能够根据TKSP输出的关键句子进一步理解文本主题和上下文语境,生成更加准确、流畅和易懂的文本内容。
文本主题可以帮助模型更好地理解文本中的关键信息和重要概念。通过将知识点主题纳入标题生成过程中,可以帮助模型生成标题时更好地概括并突出文章的核心内容,确保生成的标题更加准确有针对性。本文使用TextRank算法从知识点文本中抽取1个关键词作为文本的主题词。模型结构如图3所示。
图3 UniLM-TK模型图
首先,使用TextRank算法从知识点文本中抽取1个主题词。TextRank算法通过对文本中的句子进行图结构建模,并根据句子之间的相似度计算排名,提取具有重要性的关键词作为主题词。其次,使用TKSP算法对原文本进行处理,抽取重点句。然后,将主题词经过标记嵌入层得到一个高维向量作为主题词嵌入表示,该向量包含了主题词在不同上下文中的语义信息,反映了主题词的含义和语境相关性,并将重点句集合分别经过分段嵌入层、位置嵌入层和标记嵌入层,这3个嵌入层分别有效地编码重点句集合中的段落信息、位置信息和语义信息。最后,将主题词的嵌入表示与重点句的嵌入表示进行拼接操作,得到输入序列的综合表示。
输入序列会进行多个transformer块的处理transformer块由注意力机制和前向神经网络2部分组成,注意力机制包括多头自注意力机制与交叉注意力机制。前向神经网络通常由2层全连接层组成,每2层间包含一个激活函数。
重点句通过自注意力机制进行处理。自注意力机制计算描述文本内部各个词或句子之间的相关性和重要性,并生成自注意力权重。这些自注意力权重用于对描述文本中的词或句子进行加权求和,从而获得描述文本的上下文表示向量,反映其内部的依赖关系和上下文信息。主题词通过交叉注意力机制进行处理。文本的每个词或句子作为查询(Q),而主题词则作为键(K)和值(V)。交叉注意力机制计算主题词与文本中的词或句子之间的相关性,并生成交叉注意力权重。利用这些交叉注意力权重对文本中的词或句子进行加权求和,从而得到带有主题信息的上下文表示向量。将主题与文本内容进行关联,构建最终的注意力计算公式为
其中,attention_output为最终的上下文表示,self_attention_output为自注意力机制的输出,crosse_attention_output为交叉注意力机制的输出;a和b为权重系数,分别用于控制自注意力和交叉注意力在最终上下文表示中的相对重要性。
在前向神经网络中,注意力机制的输出被送入一个经过多层非线性变换的小型前馈网络中,以进一步提取高层次的特征表示。这样,在整个transformer块中,注意力机制和前向神经网络相互协作,对输入序列进行多次非线性变换,从而获得更具表达力和区分度的特征表示。输入序列经过多个transformer块的处理之后,得到输入序列的编码表示矩阵,用于训练和预测下游任务。
课题组简介
新疆大学信息科学与工程学院赵晖教授带领的研究组是专注于人工智能、大数据、自然语言处理和机器学习领域的技术团队。团队成员包含硕士研究生11人,其中多人荣获国家奖学金、自治区奖学金,以及多项国家、自治区和学校科技成果奖,在CCF推荐的国际期刊和会议上发表多篇有影响力的论文,所研发的关键技术和专利支撑了多家企业的实际应用。
文章信息
肖思羽,赵晖.面向课堂教学内容的知识点标题生成[J/OL].清华大学学报(自然科学版):1-10[2023-12-14].https://doi.org/10.16511/j.cnki.qhdxxb.2023.26.059.
期刊介绍
《清华大学学报(自然科学版)》创刊于1915年,已有百年历史,是中国最早同时以大学校名和“学报”冠名的期刊。《清华大学学报(自然科学版)》现由清华大学出版社出版,月刊。作为名副其实的“老字号”期刊,众多学术权威的力作与莘莘学子的处女作在其上交相辉映,使之成为清华大学自强不息、厚德载物的科学精神的见证。
《清华大学学报(自然科学版)》被多家国际性文献检索机构如Ei、CA、MR、РЖ、INSPEC、Zbl等及国内多家全国性文献检索机构如中文核心期刊要目总览、CSCD、CNKI 等收录。1999、2003年荣获第一、二届国家期刊奖,2005年荣获第三届国家期刊奖提名奖,2010、2013年荣获第二、三届中国出版政府奖期刊奖提名奖,2009年被评为“新中国60年有影响力的期刊”,2013、2015、2017年荣获全国百强科技期刊。