www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

感悟愛情 蒲公英文摘 > 感悟愛情 >

一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢擴展方法關(guān)聯(lián)規(guī)則挖掘算法

發(fā)布時間:2020-03-07 來源: 感悟愛情點擊：

　　[摘　要]針對現(xiàn)有信息檢索系統(tǒng)中存在的詞不匹配問題，提出一種基于詞間關(guān)聯(lián)規(guī)則的查詢擴展算法，該算法利用現(xiàn)有挖掘算法自動對前列初檢文檔進行詞間關(guān)聯(lián)挖掘，提取含有原查詢詞的詞間關(guān)聯(lián)規(guī)則，從中提取擴展詞，實現(xiàn)查詢擴展。實驗結(jié)果表明，該算法能改善和提高信息檢索系統(tǒng)性能，具有很高的應(yīng)用價值。
　　[關(guān)鍵詞]查詢擴展　關(guān)聯(lián)規(guī)則　局部反饋　信息檢索
　　[分類號]TP391
　　
　　1 引言
　　
　　查詢擴展是提高和改善信息檢索性能的核心技術(shù)之一，指的是利用計算機語言學(xué)、信息學(xué)等多種技術(shù)，把與原查詢相關(guān)的詞或者詞組添加到原查詢，得到比原查詢更長的新查詢，然后再次檢索文檔，以改善檢索系統(tǒng)的查全率和查準(zhǔn)率，彌補用戶查詢信息不足的缺陷。傳統(tǒng)的查詢擴展技術(shù)主要有全局分析的、局部分析的查詢擴展。全局分析的查詢擴展是對全部文獻中的詞或詞組進行相關(guān)分析，計算每對詞或詞組間的關(guān)聯(lián)程度，將與用戶查詢關(guān)聯(lián)程度較高的詞或者詞組加入原查詢生成新查詢，其主要技術(shù)有全局聚類算法、潛在語義索引(LSI)和相似性詞典等�；诰植糠治龅牟樵償U展主要是利用初檢文檔中與原查詢最相關(guān)的n篇文檔作為擴展詞的來源，主要有局部反饋的、用戶相關(guān)反饋的和基于局部上下文分析的查詢擴展等。
　　本文從數(shù)據(jù)挖掘的角度研究查詢擴展，提出一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢擴展算法，該算法自動對前列初檢文檔進行詞間關(guān)聯(lián)挖掘，提取含有原查詢詞的詞間關(guān)聯(lián)規(guī)則，從中提取擴展詞，實現(xiàn)查詢擴展。實驗結(jié)果表明，該算法能改善和提高信息檢索的查全率和查準(zhǔn)率，與未進行查詢擴展時比較，采用本文查詢擴展算法后，平均準(zhǔn)確率提高了13.34％，與傳統(tǒng)的局部上下文分析查詢擴展算法比較，其平均準(zhǔn)確率提高了4.87％。
　　
　　2　基于詞間關(guān)聯(lián)規(guī)則的查詢擴展算法
　　
　　2．1算法基本思想
　　首先對用戶查詢采用傳統(tǒng)的向量空間模型檢索算法(即tf*idf算法)對文檔集初檢，然后，對局部前列初檢文檔進行詞間關(guān)聯(lián)規(guī)則挖掘，提取含有原查詢項的關(guān)聯(lián)規(guī)則構(gòu)建規(guī)則庫，從庫中提取擴展詞添加到原查詢中構(gòu)建新查詢，實現(xiàn)查詢擴展。
　　
　　2．2 面向查詢擴展的詞間關(guān)聯(lián)挖掘及其剪枝策略
　　在向量空間模型中，將文檔視為事務(wù)，將語詞看作是事物項，即特征項，則可以運用關(guān)聯(lián)規(guī)則挖掘算法對基于向量空間模型的文本數(shù)據(jù)庫進行詞間關(guān)聯(lián)規(guī)則挖掘。查詢擴展的核心問題是如何找到與原查詢相關(guān)的擴展詞。針對查詢擴展的特點，我們在文獻的關(guān)聯(lián)規(guī)則挖掘算法基礎(chǔ)上給出了面向查詢擴展的詞間關(guān)聯(lián)規(guī)則挖掘的基本思想，即：用文獻的挖掘算法對文本數(shù)據(jù)庫只挖掘含有原查詢項的詞間關(guān)聯(lián)規(guī)則，讓候選項集減少到最低程度，提高挖掘效率。為此，在原算法的剪枝策略基礎(chǔ)上，增加兩種剪枝策略：一是將頻度為O的候選項集剪掉，因為頻度為O的候選項集不可能成為頻繁項集，二是從候選2_項集開始，將剪掉不含原查詢項的候選項集，只保留含有原查詢項的候選項集。
　　
　　2. 3擴展模型和擴展詞權(quán)重的計算方法
　　本文采用的查詢擴展模型為：原查詢詞→擴展詞(sup，conf)。即規(guī)則前件是查詢項集合，后件是擴展項集合。sup是關(guān)聯(lián)規(guī)則支持度，conf是關(guān)聯(lián)規(guī)則置信度。在查詢擴展中，原查詢項永遠是最重要的，是最能反映用戶查詢意圖的，應(yīng)該具有最高的權(quán)重。擴展詞的重要性不會高于原查詢語詞。為了體現(xiàn)這種思想，在進行查詢擴展時，本文將原查詢項語詞的權(quán)重設(shè)置為2(設(shè)置為2的原因主要是和文獻的算法進行實驗比較)，擴展詞的權(quán)重置為0到l之間的值(包括0和1)，即擴展詞權(quán)重計算公式如下：
　　
　　
　　原查詢相關(guān)的擴展詞，計算其權(quán)重，實現(xiàn)查詢擴展，進行第二次檢索，并返回結(jié)果。
　　
　　3．3實驗結(jié)果及其分析
　　將本文查詢擴展算法(即BARBTQE算法)和基于局部上下文分析的查詢擴展算法(即LCA-Based QE)進行檢索性能比較。兩種算法分別對所設(shè)計的10個查詢在相同的測試文檔集中進行檢索，統(tǒng)計這10個查詢的平均準(zhǔn)確率(MAP)。表l表示分別采用BARBTQE和LCA-Based QE兩種擴展方法后的檢索性能。其中“No Expansion”列表示不進行查詢擴展時的檢索性能(即初始檢索結(jié)果的檢索性能)，其他兩列表示相應(yīng)擴展方法的檢索性能以及與“No Expansion”相比時改進的百分比。
　　從表1中可以看出，與未進行查詢擴展時相比，兩種查詢擴展方法的檢索性能都有顯著的提高，然而，本文BARBTQE算法的提高幅度最為明顯，其平均準(zhǔn)確率(MAP)比傳統(tǒng)的向量空間模型tf*idf算法(No Expansion)的提高了13.34％，而比LCA-Based QE算法的提高了4.87％。實驗結(jié)果表明，本文算法的檢索性能確實獲得了明顯的提高，比傳統(tǒng)的查詢擴展效果好。主要原因是本文算法引入了查詢擴展機制后，具有明顯歧義性的短查詢詞通過擴展詞可以達到消歧作用，同時還能檢索到原始短查詢中所不能檢索到的文檔。
　　
　　
　　4　結(jié)論
　　
　　在信息檢索中，查詢擴展是改善和提高其檢索性能的關(guān)鍵技術(shù)之一。本文提出了一種基于詞間關(guān)聯(lián)規(guī)則的查詢擴展算法，該算法利用現(xiàn)有挖掘算法自動對前列初檢文檔進行詞間關(guān)聯(lián)挖掘，提取含有原查詢詞的詞間關(guān)聯(lián)規(guī)則，從中提取擴展詞，實現(xiàn)查詢擴展。實驗結(jié)果表明，該算法能有效地改善和提高信息檢索系統(tǒng)的查全率和查準(zhǔn)率，具有很高的推廣應(yīng)用價值。

相關(guān)熱詞搜索：關(guān)聯(lián) 挖掘擴展一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢擴展方法關(guān)聯(lián)規(guī)則挖掘不屬于大數(shù)據(jù)挖掘形式

熱點文章閱讀

版權(quán)所有 蒲公英文摘 www.newchangjing.com