一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢擴(kuò)展方法 關(guān)聯(lián)規(guī)則挖掘算法
發(fā)布時(shí)間:2020-03-07 來(lái)源: 感悟愛(ài)情 點(diǎn)擊:
[摘 要]針對(duì)現(xiàn)有信息檢索系統(tǒng)中存在的詞不匹配問(wèn)題,提出一種基于詞間關(guān)聯(lián)規(guī)則的查詢擴(kuò)展算法,該算法利用現(xiàn)有挖掘算法自動(dòng)對(duì)前列初檢文檔進(jìn)行詞間關(guān)聯(lián)挖掘,提取含有原查詢?cè)~的詞間關(guān)聯(lián)規(guī)則,從中提取擴(kuò)展詞,實(shí)現(xiàn)查詢擴(kuò)展。實(shí)驗(yàn)結(jié)果表明,該算法能改善和提高信息檢索系統(tǒng)性能,具有很高的應(yīng)用價(jià)值。
[關(guān)鍵詞]查詢擴(kuò)展 關(guān)聯(lián)規(guī)則 局部反饋 信息檢索
[分類號(hào)]TP391
1 引 言
查詢擴(kuò)展是提高和改善信息檢索性能的核心技術(shù)之一,指的是利用計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)等多種技術(shù),把與原查詢相關(guān)的詞或者詞組添加到原查詢,得到比原查詢更長(zhǎng)的新查詢,然后再次檢索文檔,以改善檢索系統(tǒng)的查全率和查準(zhǔn)率,彌補(bǔ)用戶查詢信息不足的缺陷。傳統(tǒng)的查詢擴(kuò)展技術(shù)主要有全局分析的、局部分析的查詢擴(kuò)展。全局分析的查詢擴(kuò)展是對(duì)全部文獻(xiàn)中的詞或詞組進(jìn)行相關(guān)分析,計(jì)算每對(duì)詞或詞組間的關(guān)聯(lián)程度,將與用戶查詢關(guān)聯(lián)程度較高的詞或者詞組加入原查詢生成新查詢,其主要技術(shù)有全局聚類算法、潛在語(yǔ)義索引(LSI)和相似性詞典等;诰植糠治龅牟樵償U(kuò)展主要是利用初檢文檔中與原查詢最相關(guān)的n篇文檔作為擴(kuò)展詞的來(lái)源,主要有局部反饋的、用戶相關(guān)反饋的和基于局部上下文分析的查詢擴(kuò)展等。
本文從數(shù)據(jù)挖掘的角度研究查詢擴(kuò)展,提出一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢擴(kuò)展算法,該算法自動(dòng)對(duì)前列初檢文檔進(jìn)行詞間關(guān)聯(lián)挖掘,提取含有原查詢?cè)~的詞間關(guān)聯(lián)規(guī)則,從中提取擴(kuò)展詞,實(shí)現(xiàn)查詢擴(kuò)展。實(shí)驗(yàn)結(jié)果表明,該算法能改善和提高信息檢索的查全率和查準(zhǔn)率,與未進(jìn)行查詢擴(kuò)展時(shí)比較,采用本文查詢擴(kuò)展算法后,平均準(zhǔn)確率提高了13.34%,與傳統(tǒng)的局部上下文分析查詢擴(kuò)展算法比較,其平均準(zhǔn)確率提高了4.87%。
2 基于詞間關(guān)聯(lián)規(guī)則的查詢擴(kuò)展算法
2.1算法基本思想
首先對(duì)用戶查詢采用傳統(tǒng)的向量空間模型檢索算法(即tf*idf算法)對(duì)文檔集初檢,然后,對(duì)局部前列初檢文檔進(jìn)行詞間關(guān)聯(lián)規(guī)則挖掘,提取含有原查詢項(xiàng)的關(guān)聯(lián)規(guī)則構(gòu)建規(guī)則庫(kù),從庫(kù)中提取擴(kuò)展詞添加到原查詢中構(gòu)建新查詢,實(shí)現(xiàn)查詢擴(kuò)展。
2.2 面向查詢擴(kuò)展的詞間關(guān)聯(lián)挖掘及其剪枝策略
在向量空間模型中,將文檔視為事務(wù),將語(yǔ)詞看作是事物項(xiàng),即特征項(xiàng),則可以運(yùn)用關(guān)聯(lián)規(guī)則挖掘算法對(duì)基于向量空間模型的文本數(shù)據(jù)庫(kù)進(jìn)行詞間關(guān)聯(lián)規(guī)則挖掘。查詢擴(kuò)展的核心問(wèn)題是如何找到與原查詢相關(guān)的擴(kuò)展詞。針對(duì)查詢擴(kuò)展的特點(diǎn),我們?cè)谖墨I(xiàn)的關(guān)聯(lián)規(guī)則挖掘算法基礎(chǔ)上給出了面向查詢擴(kuò)展的詞間關(guān)聯(lián)規(guī)則挖掘的基本思想,即:用文獻(xiàn)的挖掘算法對(duì)文本數(shù)據(jù)庫(kù)只挖掘含有原查詢項(xiàng)的詞間關(guān)聯(lián)規(guī)則,讓候選項(xiàng)集減少到最低程度,提高挖掘效率。為此,在原算法的剪枝策略基礎(chǔ)上,增加兩種剪枝策略:一是將頻度為O的候選項(xiàng)集剪掉,因?yàn)轭l度為O的候選項(xiàng)集不可能成為頻繁項(xiàng)集,二是從候選2_項(xiàng)集開(kāi)始,將剪掉不含原查詢項(xiàng)的候選項(xiàng)集,只保留含有原查詢項(xiàng)的候選項(xiàng)集。
2. 3擴(kuò)展模型和擴(kuò)展詞權(quán)重的計(jì)算方法
本文采用的查詢擴(kuò)展模型為:原查詢?cè)~→擴(kuò)展詞(sup,conf)。即規(guī)則前件是查詢項(xiàng)集合,后件是擴(kuò)展項(xiàng)集合。sup是關(guān)聯(lián)規(guī)則支持度,conf是關(guān)聯(lián)規(guī)則置信度。在查詢擴(kuò)展中,原查詢項(xiàng)永遠(yuǎn)是最重要的,是最能反映用戶查詢意圖的,應(yīng)該具有最高的權(quán)重。擴(kuò)展詞的重要性不會(huì)高于原查詢語(yǔ)詞。為了體現(xiàn)這種思想,在進(jìn)行查詢擴(kuò)展時(shí),本文將原查詢項(xiàng)語(yǔ)詞的權(quán)重設(shè)置為2(設(shè)置為2的原因主要是和文獻(xiàn)的算法進(jìn)行實(shí)驗(yàn)比較),擴(kuò)展詞的權(quán)重置為0到l之間的值(包括0和1),即擴(kuò)展詞權(quán)重計(jì)算公式如下:
原查詢相關(guān)的擴(kuò)展詞,計(jì)算其權(quán)重,實(shí)現(xiàn)查詢擴(kuò)展,進(jìn)行第二次檢索,并返回結(jié)果。
3.3實(shí)驗(yàn)結(jié)果及其分析
將本文查詢擴(kuò)展算法(即BARBTQE算法)和基于局部上下文分析的查詢擴(kuò)展算法(即LCA-Based QE)進(jìn)行檢索性能比較。兩種算法分別對(duì)所設(shè)計(jì)的10個(gè)查詢?cè)谙嗤臏y(cè)試文檔集中進(jìn)行檢索,統(tǒng)計(jì)這10個(gè)查詢的平均準(zhǔn)確率(MAP)。表l表示分別采用BARBTQE和LCA-Based QE兩種擴(kuò)展方法后的檢索性能。其中“No Expansion”列表示不進(jìn)行查詢擴(kuò)展時(shí)的檢索性能(即初始檢索結(jié)果的檢索性能),其他兩列表示相應(yīng)擴(kuò)展方法的檢索性能以及與“No Expansion”相比時(shí)改進(jìn)的百分比。
從表1中可以看出,與未進(jìn)行查詢擴(kuò)展時(shí)相比,兩種查詢擴(kuò)展方法的檢索性能都有顯著的提高,然而,本文BARBTQE算法的提高幅度最為明顯,其平均準(zhǔn)確率(MAP)比傳統(tǒng)的向量空間模型tf*idf算法(No Expansion)的提高了13.34%,而比LCA-Based QE算法的提高了4.87%。實(shí)驗(yàn)結(jié)果表明,本文算法的檢索性能確實(shí)獲得了明顯的提高,比傳統(tǒng)的查詢擴(kuò)展效果好。主要原因是本文算法引入了查詢擴(kuò)展機(jī)制后,具有明顯歧義性的短查詢?cè)~通過(guò)擴(kuò)展詞可以達(dá)到消歧作用,同時(shí)還能檢索到原始短查詢中所不能檢索到的文檔。
4 結(jié)論
在信息檢索中,查詢擴(kuò)展是改善和提高其檢索性能的關(guān)鍵技術(shù)之一。本文提出了一種基于詞間關(guān)聯(lián)規(guī)則的查詢擴(kuò)展算法,該算法利用現(xiàn)有挖掘算法自動(dòng)對(duì)前列初檢文檔進(jìn)行詞間關(guān)聯(lián)挖掘,提取含有原查詢?cè)~的詞間關(guān)聯(lián)規(guī)則,從中提取擴(kuò)展詞,實(shí)現(xiàn)查詢擴(kuò)展。實(shí)驗(yàn)結(jié)果表明,該算法能有效地改善和提高信息檢索系統(tǒng)的查全率和查準(zhǔn)率,具有很高的推廣應(yīng)用價(jià)值。
相關(guān)熱詞搜索:關(guān)聯(lián) 挖掘 擴(kuò)展 一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢擴(kuò)展方法 關(guān)聯(lián)規(guī)則挖掘 不屬于大數(shù)據(jù)挖掘形式
熱點(diǎn)文章閱讀