國(guó)內(nèi)自然語(yǔ)言處理研究熱點(diǎn)分析_自然語(yǔ)言處理分析層算法

發(fā)布時(shí)間:2020-03-10 來(lái)源: 幽默笑話點(diǎn)擊：

　　[摘要]在確定國(guó)內(nèi)自然語(yǔ)言處理領(lǐng)域使用頻率最高的61個(gè)關(guān)鍵詞的基礎(chǔ)上，運(yùn)用共詞分析法，以SPSS軟件為工具，通過(guò)因子分析和聚類(lèi)分析的方法，井借鑒相關(guān)研究結(jié)果，探討國(guó)內(nèi)自然語(yǔ)言處理研究現(xiàn)狀及研究熱點(diǎn)。
　　[關(guān)鍵詞]自然語(yǔ)言處理　共詞分析法　聚類(lèi)分析　因子分析
　　[分類(lèi)號(hào)]G350
　　
　　 1　引言
　　
　　最早的自然語(yǔ)言處理方面的研究工作是機(jī)器翻譯。1949年，美國(guó)人威弗首先提出了機(jī)器翻譯設(shè)計(jì)方案。從20世紀(jì)40年代算起，自然語(yǔ)言處理的研究已經(jīng)有印多年的歷史了，隨著信息網(wǎng)絡(luò)時(shí)代的到來(lái)，它已經(jīng)成為了現(xiàn)代語(yǔ)言學(xué)中一個(gè)頗為引人注目的學(xué)科。美國(guó)計(jì)算機(jī)科學(xué)家Bill Manaris(馬納利斯)在1999年出版的《計(jì)算機(jī)進(jìn)展》(Advances in Computers)第47卷的《從人一機(jī)交互的角度看自然語(yǔ)言處理》一文中，曾經(jīng)給自然語(yǔ)言處理提出了如下的定義：
　　“自然語(yǔ)言處理可以定義為研究在人與人交際中以及在人與計(jì)算機(jī)交際中的語(yǔ)言問(wèn)題的一門(mén)學(xué)科。自然語(yǔ)言處理要研制表示語(yǔ)言能力(Linguistic Compe-tence)和語(yǔ)言應(yīng)用(Linguistic Performance)的模型，建立計(jì)算框架來(lái)實(shí)現(xiàn)這樣的語(yǔ)言模型，提出相應(yīng)的方法來(lái)不斷地完善這樣的語(yǔ)言模型，根據(jù)這樣的語(yǔ)言模型設(shè)計(jì)各種實(shí)用系統(tǒng)，并探討這些實(shí)用系統(tǒng)的評(píng)測(cè)技術(shù)”。
　　這個(gè)定義比較全面地說(shuō)明了自然語(yǔ)言處理的性質(zhì)和學(xué)科定位，國(guó)內(nèi)外學(xué)者普遍認(rèn)同這個(gè)定義。
　　在自然語(yǔ)言處理研究發(fā)展的60多年間，國(guó)外該領(lǐng)域經(jīng)歷了萌芽期、發(fā)展期和繁榮期三個(gè)時(shí)期，并取得了豐富的研究成果。相比之下，國(guó)內(nèi)在該領(lǐng)域較為系統(tǒng)的研究成果則為數(shù)不多，主要是由于早期受到漢語(yǔ)信息處理一些預(yù)處理技術(shù)的制約(如漢字編碼、漢語(yǔ)分詞等)，到真正開(kāi)始漢語(yǔ)自然語(yǔ)言理解研究時(shí)，已經(jīng)比國(guó)外晚了20多年。但是，經(jīng)過(guò)20多年的發(fā)展，漢語(yǔ)自然語(yǔ)言處理技術(shù)也獲得了長(zhǎng)足的進(jìn)步，在機(jī)器翻譯、語(yǔ)料庫(kù)、語(yǔ)篇理解、概念層次網(wǎng)絡(luò)等領(lǐng)域取得了一些重要成果。
　　本文擬采用共詞分析方法，通過(guò)對(duì)國(guó)內(nèi)自然語(yǔ)言處理領(lǐng)域文獻(xiàn)中高頻關(guān)鍵詞共同出現(xiàn)頻率規(guī)律的分析，深入揭示其研究熱點(diǎn)以及研究現(xiàn)狀，為其他從事自然語(yǔ)言處理研究的學(xué)者提供參考。
　　
　　2　研究方法
　　共詞分析法(Co-term Analysis)在圖書(shū)情報(bào)界的應(yīng)用非常廣泛，是文獻(xiàn)計(jì)量學(xué)的一種重要方法，也是內(nèi)容分析法的常用方法之一。最先提出共詞分析方法的是Callon等人，其后這種方法被廣泛使用。共詞方法的思想來(lái)源于文獻(xiàn)計(jì)量學(xué)的引文耦合與共被引概念，即當(dāng)兩個(gè)能夠表達(dá)某一學(xué)科領(lǐng)域研究主題或研究方向的專(zhuān)業(yè)術(shù)語(yǔ)(一般為主題詞或關(guān)鍵詞)在同一篇文獻(xiàn)中出現(xiàn)時(shí)，表明這兩個(gè)詞之間具有一定的內(nèi)在關(guān)系，并且出現(xiàn)的次數(shù)越多，表明它們的關(guān)系越密切、距離越近。利用現(xiàn)代統(tǒng)計(jì)技術(shù)如因子分析、聚類(lèi)分析和多維尺度分析等多元分析方法，可以進(jìn)一步按這種“距離”將一個(gè)學(xué)科內(nèi)的重要關(guān)鍵詞加以分類(lèi)，從而歸納出該學(xué)科的研究現(xiàn)狀、熱點(diǎn)和內(nèi)容。不僅如此。利用現(xiàn)代信息技術(shù)和統(tǒng)計(jì)軟件圖形顯示功能，還能夠?qū)⒎治鼋Y(jié)果直觀形象地顯現(xiàn)出來(lái)，進(jìn)而達(dá)到可視化的效果。
　　用共詞分析法分析國(guó)內(nèi)自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。需要通過(guò)四個(gè)步驟完成：①，確定國(guó)內(nèi)該研究領(lǐng)域主要關(guān)鍵詞；②建立關(guān)鍵詞共詞矩陣；③選取多元統(tǒng)計(jì)方法對(duì)所建矩陣進(jìn)行統(tǒng)計(jì)分析；④對(duì)所獲得的數(shù)據(jù)進(jìn)行分析。
　　
　　3　數(shù)據(jù)來(lái)源與關(guān)鍵詞獲取
　　
　　3.1　數(shù)據(jù)來(lái)源
　　在中國(guó)期刊網(wǎng)(CNKi)上，以“自然語(yǔ)言處理”為關(guān)鍵詞，檢索時(shí)間范圍為CNKI默認(rèn)的年限。選擇了四個(gè)數(shù)據(jù)庫(kù)，分別是中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)、中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù)、中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫(kù)、中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù)等，并以關(guān)鍵詞為檢索字段，采用精確檢索的方式檢索出2233篇文獻(xiàn)，然后從CNKI上下載這些文獻(xiàn)的題錄數(shù)據(jù)。
　　
　　3.2　關(guān)鍵詞獲取
　　筆者利用自編軟件首先把所有的題錄數(shù)據(jù)載人到數(shù)據(jù)庫(kù)中，然后從這些數(shù)據(jù)中抽取出關(guān)鍵詞。進(jìn)行關(guān)鍵詞統(tǒng)計(jì)，選取高頻關(guān)鍵詞，然后對(duì)高頻關(guān)鍵詞進(jìn)行兩兩共同出現(xiàn)次數(shù)統(tǒng)計(jì)，最終生成一個(gè)高頻關(guān)鍵詞共詞矩陣。
　　在處理的過(guò)程中筆者去掉了與自然語(yǔ)言處理無(wú)關(guān)的文獻(xiàn)，最終有效篇數(shù)為2231篇。本文選擇詞頻不低于12次的進(jìn)行處理，去掉了一些不相關(guān)的詞：如“漢語(yǔ)”、“綜述”等；同時(shí)筆者對(duì)一些同義詞進(jìn)行了合并，如把“最大熵模型”和“最大熵”合并為“最大熵”等；最終確定了表征自然語(yǔ)言處理研究方向的61個(gè)關(guān)鍵詞，這是本文進(jìn)行共詞分析的基礎(chǔ)(見(jiàn)表1)。
　　對(duì)這61個(gè)關(guān)鍵詞進(jìn)行兩兩組合，統(tǒng)計(jì)它們共同在2 231篇文章中出現(xiàn)的次數(shù)，形成61×61共詞矩陣，部分共詞矩陣如表2所示：
　　在這里筆者把對(duì)角線的值設(shè)為該關(guān)鍵詞與其他關(guān)鍵詞共同出現(xiàn)次數(shù)的最大值+1，突出該關(guān)鍵詞與自己的親密關(guān)系。
　　4　自然語(yǔ)言處理的共詞分析
　　在共詞分析中常用的多元統(tǒng)計(jì)方法有三種：因子分析(Factor Analysis)，聚類(lèi)分析(Cluster Analysis)和多維尺度分析(MultimensionaI Scaling)。本文使用前面兩種方法來(lái)對(duì)高頻關(guān)鍵詞進(jìn)行分析，以揭示自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀和熱點(diǎn)。
　　
　　4.1　因子分析
　　因子分析要達(dá)到的目標(biāo)就是用盡可能少的因子去描述眾多的指標(biāo)或因素之間的聯(lián)系，其基本思想是根據(jù)關(guān)鍵詞間的相關(guān)性大小把研究對(duì)象的變量進(jìn)行分組，使得同組內(nèi)的變量之間相關(guān)性較高，而不同組的變量相關(guān)性較低。每組變量代表一個(gè)基本結(jié)構(gòu)，這個(gè)基本結(jié)構(gòu)稱(chēng)為公共因子。這樣較少的幾個(gè)公共因子就可以反映原資料的大部分信息。利用因子分析法。可根據(jù)因子得分值，在因子所構(gòu)成的空間中把研究對(duì)象的變量點(diǎn)畫(huà)出來(lái)，從而客觀地達(dá)到分類(lèi)的目的。
　　以上面得到的關(guān)鍵詞共詞矩陣為基礎(chǔ)，在SPSSl8中選擇主成份方法、協(xié)方差矩陣和最大方差旋轉(zhuǎn)進(jìn)行因子分析。結(jié)果顯示有10個(gè)公共因子被提取出來(lái)，其累計(jì)方差貢獻(xiàn)率為85.343％(見(jiàn)表3)。也就是說(shuō)。將這61個(gè)關(guān)鍵詞分成10個(gè)類(lèi)別，就可以解釋國(guó)內(nèi)自然語(yǔ)言處理領(lǐng)域85.343％的信息。其中第1、2、6三個(gè)因子的方差貢獻(xiàn)率較高，都超過(guò)了10％，分別為28.063％、10.821％、14.391％，累計(jì)方差貢獻(xiàn)率為53.275％，這是國(guó)內(nèi)自然語(yǔ)言處理研究的三個(gè)重要領(lǐng)域。
　　而與因子抽取相配套的因子個(gè)數(shù)碎石圖(見(jiàn)圖1)則比較直觀地顯示出因子分析的前10個(gè)因子類(lèi)別是比較明確的，這說(shuō)明因子分析中將自然語(yǔ)言處理研究劃分為lO類(lèi)是合理的。因子提取結(jié)果產(chǎn)生10個(gè)公共因子，根據(jù)因子載荷量系數(shù)大于0.7對(duì)命名才有幫助的原則，共提出10個(gè)公共因子，命名見(jiàn)表4。最后一個(gè)因子由于只有一個(gè)關(guān)鍵詞，因此就以其命名。　　關(guān)鍵詞的載荷量反映了關(guān)鍵詞在其公共因子中的相關(guān)度。表4顯示了由載荷量大于0.5的關(guān)鍵詞組成的公共因子(載荷臨界值越高，所確定的分類(lèi)結(jié)構(gòu)越簡(jiǎn)單。根據(jù)本文的數(shù)據(jù)情況，為能較好反映關(guān)鍵詞的組成結(jié)構(gòu)，這里將載荷臨界值定為0.5)。其中有部分關(guān)鍵詞由于載荷量小于0.5而未能參與分類(lèi)。它們是“文本挖掘、知識(shí)表示、句子相似度、wordnet、聚類(lèi)”等。這些關(guān)鍵詞的相關(guān)度相對(duì)較低，一方面，表明有些關(guān)鍵詞盡管頻次較高，但其所代表的研究主題范圍較大，在因子的相關(guān)度分析中并無(wú)特色，例如“聚類(lèi)”等；另一方面，有些關(guān)鍵詞所代表的主題較為新穎，還沒(méi)有同其他的公共因子很好地結(jié)合，如“知識(shí)表示”等。另外，關(guān)鍵詞“機(jī)器翻譯”同時(shí)出現(xiàn)在因子l和9中，體現(xiàn)了這兩個(gè)因子――“機(jī)器翻譯”和“語(yǔ)音識(shí)別”之間的密切相關(guān)性。
　　
　　4.2　聚類(lèi)分析
　　聚類(lèi)分析是從事物數(shù)量上的特征出發(fā)對(duì)事物進(jìn)行分類(lèi)。是數(shù)值分類(lèi)學(xué)和多元統(tǒng)計(jì)技術(shù)結(jié)合的結(jié)果，其基本思想是依照事物的數(shù)值特征，來(lái)計(jì)算各個(gè)變量或樣品間的親疏關(guān)系。而變量之間的親疏關(guān)系則有變量之間的距離來(lái)衡量，一旦變量之間的距離定義之后。則把距離近的變量歸為同一類(lèi)。系統(tǒng)聚類(lèi)(也稱(chēng)層次聚類(lèi))是最常用的一種方法，其含義是：開(kāi)始將每個(gè)變量各看成一類(lèi)，將距離最近的兩個(gè)類(lèi)合并；重新計(jì)算新類(lèi)與其他類(lèi)的距離，再將距離最近的兩類(lèi)合并；再計(jì)算新類(lèi)與其他類(lèi)的距離……。這樣一步步地進(jìn)行下去，每一步減少―類(lèi)，直至所有的變量都合并成一類(lèi)為止，整個(gè)聚類(lèi)過(guò)程可繪成聚類(lèi)圖。
　　本文采用聚類(lèi)分析中常用的系統(tǒng)聚類(lèi)法(Hierar-chical Clustering Method)對(duì)共詞矩陣進(jìn)行聚類(lèi)。該分析亦在SPSSl8中完成，聚類(lèi)時(shí)選用離差平方和(Ward)作為聚類(lèi)方法，在距離測(cè)度方法中選擇離散數(shù)據(jù)類(lèi)型Count中的斐方法(Phi-square Measure)，在數(shù)據(jù)標(biāo)準(zhǔn)化中選擇z分?jǐn)?shù)。
　　聚類(lèi)分析的結(jié)果見(jiàn)圖2，可以將自然語(yǔ)言處理研究領(lǐng)域分為10類(lèi)，綜合考慮每一類(lèi)中各關(guān)鍵詞的性質(zhì)，最終確定自然語(yǔ)言處理領(lǐng)域的十大研究熱點(diǎn)：機(jī)器翻譯、詞性標(biāo)注、句法分析、詞義消歧、語(yǔ)音識(shí)別、人工只智能、自動(dòng)文摘、問(wèn)答系統(tǒng)、信息檢索、語(yǔ)義網(wǎng)。下面結(jié)合相關(guān)文獻(xiàn)的具體內(nèi)容，對(duì)自然語(yǔ)言處理的研究熱點(diǎn)做進(jìn)一步研究。
　　4.2.1　機(jī)器翻譯機(jī)器翻譯是指利用計(jì)算機(jī)全自動(dòng)或部分自動(dòng)地將一種語(yǔ)言翻譯成為另一種語(yǔ)言的處理技術(shù)，它是自然語(yǔ)言處理最早的研究工作，同時(shí)也是它的一個(gè)重要分支，而且一直都是自然語(yǔ)言處理領(lǐng)域關(guān)注的前滑和熱點(diǎn)�！罢Z(yǔ)料庫(kù)”、“雙語(yǔ)語(yǔ)料庫(kù)”等關(guān)鍵詞表明了機(jī)器翻譯的其中一種方法――基于語(yǔ)料庫(kù)的方法，因?yàn)檫M(jìn)入20世紀(jì)90年代后，統(tǒng)計(jì)方法在自然語(yǔ)言處理中異軍突起；“計(jì)算語(yǔ)言學(xué)”、“語(yǔ)言學(xué)”等是與機(jī)器翻譯密切相關(guān)的學(xué)科；“中文信息處理”、“詞義排歧”、“標(biāo)注”等則是機(jī)器翻譯的關(guān)鍵技術(shù)環(huán)節(jié)；“電子詞典”等則是機(jī)器翻譯的重要應(yīng)用。

www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

國(guó)內(nèi)自然語(yǔ)言處理研究熱點(diǎn)分析_自然語(yǔ)言處理分析層算法

熱點(diǎn)文章閱讀