免费论文查重: 大雅 万方 维普 turnitin paperpass

试析问句面向问句检索词项赋权研究书写

最后更新时间:2024-03-27 作者:用户投稿原创标记本站原创 点赞:19369 浏览:84384
论文导读:
摘要:在社区型问答服务中,存在大量的由用户生成的问题及答案,一方面用户可以通过发布新问题,等待其他用户的回答;另一方面用户可以通过搜索与当前问题相关或者相似的问题,从而得到相应的答案。随着社区型问答服务的发展,用户更加关注问题检索服务的质量,因此如何合理并有效地检索出与用户当前问题相关或相似的问题,成为社区型问答服务的核心任务。对社区型问答服务中用户问题的特点进行了分析,提出一种确定问题中词项重要性的方法,从而改进传统问题检索模型中计算当前问题和候选问题集之间相关度的方法,提高问题检索质量。实验证明文中的方法在MAP、MRR及R-precision三项指标中均有提高。同时,分析了影响词项重要度的实验特征,得出最优的特征集合。
关键词:社区型问答; 问题检索; 词项赋权
2095-2163(2013)05-0054-04
0引言
传统的检索模型如布尔模型、向量空间模型、Okapi BM25模型及语言模型等,能够有效衡量用户查询与候选文档之间的关系。在社区型问题检索中,由于用户问题形式的复杂性及候选文档长度的特殊性,使得传统的检索模型在问题检索任务中的有效性和适用性受到限制,与其相对应的词项赋权机制的合理性也有待验证。此外,Xue et al 提出的利用翻译模型自动获取问题词项之间以及问题和答案词项之间语义关系的检索模型,Wang et al提出的利用短语结构句法树核匹配的相关问题检索模型,但这两种模型都没有对词项的重要性进行量化评估。
社区型问答服务中,用户的问题可分为三类。第一类问题的特点是用户问题较短,往往只包含若干个关键词;第二类问题与传统的TREC(Text Retrieval Conference)( http://trec.nist.gov/)问答中的问题相似,其问题表述较为规范;第三类问题本身包含问题及问题描述,或者是多个问题形成的复合问题。上述三种类型的问题中,第三类问题具有相当长度,带有很多冗余的词项,其中也包含部分噪声词项,从而对检索结果的质量产生不利的影响。
针对社区型问答中问题的复杂性及检索任务的特殊性,本文利用依存句法分析技术获取用户问题中词项之间内在的句法关系,并融合词性命名实体等特征衡量用户问题中各个词的权重,从而提出一种合理的用户问题中词项赋权机制,这种机制不仅可以将用户问题中的干扰词与关键词区分开,而且量化了词的权重,并将此机制与传统的检索模型结合得出一种新的问题检索和排序的方法。
1相关工作
问题检索作为社区型问答服务的核心任务,广泛应用于相似和相关问题推荐、答案推荐及问题推送等服务中。Jeon et al[3]基于IBM model1翻译模型对社区型问答服务中的问答对进行建模,获取问题和答案以及问题之间词汇和语义上的关系,从而衡量问题与答案之间以及问题与问题之间的相似度,实验结果表明其在问题检索任务中的性能要优于传统的检索模型。Duan et al[4]将所有候选问题词汇链形成前缀树,再利用最小描述长度(Minimum Description Length, MDL)的方法对句子树进行剪枝,识别出每个问题的主题成分和焦点成分,最后对主题和焦点应用语言模型进行建模,从而进行问题检索。Xue et al在分析和对比了基于翻译模型和语言模型的检索模型的基础上,将上述两种模型相结合,提出一种新的问题检索和答案检索模型。Bernhard et al[5]利用多种词汇以及语义资源,训练单语的翻译模型,从而计算问题之间以及问题和答案之间的相关度。Moschitti et al[6]利用浅层语义分析技术(semantic role labeling, SRL)和短语结构的句法分析技术构建谓词论元结构,提出了新的核函数用以计算问题及答案之间以及问题之间的相似度。Wang et al和Moschitti et al[6]在短语结构句法分析的基础上,利用树核的方法计算问题之间的相似度。
近年来,在TREC检索评价体系下的查询词赋权工作取得了较大的进展。Bendersky et al[7]融合多类特征,利用分类的方法对长查询中的关键概念(key concept)进行识别,并在传统检索模型的排序机制下,改进传统模型的查询词赋权机制。Bendersk论文导读:
y et al[8]基于排序学习的方法度量查询中概念的重要性,并利用马尔科夫随机域的方法构建图模型,获取查询词之间的依存关系,从而得到查询词的权重。Bendersky et al[9]针对以往的查询词赋权机制中参数相对固定的问题,提出一种动态的参数化赋权方法。Ming et al[10]引进类别信息,通过获取词项在父类和子类中的不源于:论文的格式www.7ctime.com
同熵值,以此区分词项相对于类别的重要性,并将其融合到传统的检索模型。
Park et al[11]利用依存句法分析的特征处理长查询中的词项排序问题,并利用tf、idf和词性特征结合依存句法特征训练rank svm模型,从而利用模型预测出新查询的词项排序。Lee et al[12]通过统计词项之间的共现情况,由此得出词项之间相互的依存关系。
2问题中的词项权重[
本文采用基于检索结果覆盖率的方法在客观上从检索结果出发衡量训练集问题中词项的权重,并提取有效的特征描述与词项权重相关的因素,最后利用已有特征训练学习模型,进而预测新问题中词项的权重。由于本文研究问题中词项的赋权,而为了避免概念混淆,下文所涉及到的词项概念均为问题中的词项,特此说明以区分查询词的概念。

2.1初始权值[HT5”SS]

本文的方法以用户问题在传统的检索模型中的检索表现作为基准,在此之上通过计算检索结果的召回率得出词项的权重,具体方法如下。
其中W(t)为问题中词项的权重,q为当前问题,φ为检索结果评价函数,Z为归一化因子。在本文的方法中,Φ(q)的值为对问题q分别利用向量空间模型、BM25模型及语言模型在候选问题集合上返回的文档数之和;φ(q-t)的值为去掉当前词项后,三种模型检索返回的文档集与使用问题q检索返回的文档集交集中的文档数。通过计算这两者的差值,从而得到当前词项相对于整个问题的重要性,即去掉词项t之后,剩余问题的检索结果与原问题检索结果的重合度越低,证明被去掉词项t越重要,反之则越不重要。利用归一化因子Z使得问题中的词项权值在相同的评价空间上可比较,从而得出问题q中各个词项的权重,其中Z是针对于当前问题q,三种检索模型返回的文档经过去重后的文档数的和乘以问题q中所有词项t的权重W(t)的和。

2.2特征选择[HT5”SS]

本文在考虑传统词项权重估计的特征之外,加入了基于依存句法分析以及命名实体识别等自然语言分析特征,从而更加合理地发现与词项权重潜在相关的特征。本文选取的特征如表1所示。

2.3权值预测[HT5”SS]

基于上述的特征选择过程,本文利用回归模型综合考虑各个特征,通过训练得出权重预测模型。回归分析的模型表达式如下。
3问题检索模型

3.1基于语言模型的检索模型[HT5”SS]

近年来,语言模型广泛用于信息检索的相关任务,Ponte et al[13]、Strohman et al[14]、Jeon et al[3]、Duan et al[4]、Xue et al、Gao et al[15]及Nie et al[16]等,在其工作中验证了语言模型用于信息检索的有效性及合理性,并且基于语言模型的信息检索,已成为相对成熟且稳定的检索模型,并且广泛用于商业搜索及科学研究之中,其模型的详细描述如下。
是基于上述语言模型的检索模型,能够通过公式(4)衡量词项与文档之间的相关度,但是由于上述语言模型本身忽略了词项之间的相关性,从而使得词项之间以一种相互独立的形式存在,对于问题检索任务而言,由于用户的查询是完整的问题,包含词项数量较多,其中部分词项对于检索结果的贡献较低甚至是负面的,因此对于用户问题而言,通过词项之间的相互关系确定词项的权重比独立地衡量词项的权重更加合理。

3.2基于词项赋权的问题检索[HT5”SS]

在基于语言模型的检索系统中,词项之间的相互独立性使得论文导读:方法,提高问题检索的结果。本文的贡献主要有以下两个方面。一方面,本文提出了一种新的基于回归模型预测问题中词项重要性的方法,可以有效识别问题中的关键词项;另一方面,本文综合分析了可能影响问题中词项重要性的特征,并通过一种合理的特征选择方式得到最优的特征组合。本文用到较为丰富的特征衡量问题中词项的重要性,但
词项的权重并不依赖与其相关的其它词,因此语言模型中词项的权重有其局限性,本文利用依存句法分析获取词项之间的关系,作为衡量词项之间关系的特征,得出2.3节中基于词项之间相互关系的词项权重。其后将得到的词项权值融合到Indri检索模型的查询语言之中,从而影响Indri检索的词项权重分配机制,提高检索结果质量。表2给出了利用本文方法赋权之后的Indri查询语言示例。
4实验及评价

4.1实验数据集[HT5”SS]

本文选取WikiAnswer的用户问题作为实验数据集,并选取其中1 200 000个问题作为实验数据集,在此之上随机抽取4 000个问题作为训练集数据,1 000个问题作为测试集数据,剩余的部分作为待检索的候选问题集。
本文使用Indri工具对候选问题集进行索引及查询,利用其中基于语言模型的检索模型,将测试集中的1 000个问题投入到检索模型中,分别返回排名前20的结果。由两名标注人员对测试集中的问题及检索结果进行标注,对于每一个测试集中的问题来说,人工对20个检索结果进行判定,分别标记为“True”和“False”,同时规定当且仅当检索结果与当前问题是相似问题时,才标注“True”,否则标注“False”。由此可以得到标注后的测试数据集。其数据分布如表3所示。

4.2实验结果[HT5”SS]

本文应用基于问题中词项赋权的方法改进传统的检索模型,针对问题检索任务,能够更加合理有效地衡量问题和候选问题之间的关系,实验结果如表4所示。
5结论及后续工作
本文给出一种计算问题中词项重要性的新方法,从而改进问题中的词项和候选文档之间相关度的计算方法,提高问题检索的结果。本文的贡献主要有以下两个方面。一方面,本文提出了一种新的基于回归模型预测问题中词项重要性的方法,可以有效识别问题中的关键词项;另一方面,本文综合分析了可能影响问题中词项重要性的特征,并通过一种合理的特征选择方式得到最优的特征组合。
本文用到较为丰富的特征衡量问题中词项的重要性,但是仍然不能保证其覆盖所有的语言现象,并且本文对所用到的特征的重要性没有量化的衡量,因此,在后续工作中将会考虑继续发现有效特征,并将特征进行参数化,即为不同的特征进行权重估计,从而更加合理有效地改进问题中词项赋权的工作,更好地提高问题检索的效果。