Web文本挖掘及可視化
發(fā)布時(shí)間:2018-06-27 來(lái)源: 歷史回眸 點(diǎn)擊:
摘要: 文本挖掘和文本可視化是計(jì)算機(jī)中重要應(yīng)用技術(shù),能夠形象地高度概括文本信息中的核心內(nèi)容,方便人們快速地理解和吸收文本中的核心思想。本文闡述文本挖掘預(yù)處理簡(jiǎn)要處理流程,然后闡述使用R軟件進(jìn)行文本挖掘,實(shí)現(xiàn)詞項(xiàng)聚類、文本聚類、繪畫詞項(xiàng)云圖、詞項(xiàng)網(wǎng)絡(luò)圖等,找出其中隱藏的文本信息,并以可視化方式展現(xiàn)出來(lái)。最后對(duì)文本挖掘和文本可視化技術(shù)進(jìn)行總結(jié)和展望。
Abstract: Text mining and text visualization are important application technologies in computers. They can summarize the core content of text information highly and help people quickly understand and absorb the core ideas in the text. This article elaborates the brief processing flow of text mining preprocessing, and then elaborates the use of R software for text mining, and implements term clustering, text clustering, drawing term cloud diagrams, term network diagrams, etc., to find the hidden text information, and visualize it. Finally, it summarizes and prospects text mining and text visualization technologies.
關(guān)鍵詞: 預(yù)處理;分詞;文本聚類;文本可視化;詞云
Key words: preprocessing;word segmentation;text clustering;text visualization;word cloud
中圖分類號(hào):TP319 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2018)14-0216-03
0 引言
文本無(wú)處不在,是信息交流的主要傳媒之一。Web文本挖掘是指從大量非結(jié)構(gòu)化、異構(gòu)的Web文檔的集合中發(fā)現(xiàn)有效的、潛在可用的及最終可理解知識(shí)的過(guò)程。Web文本挖掘可以對(duì) Web上文檔內(nèi)容進(jìn)行關(guān)聯(lián)分析、分類、聚類等。互聯(lián)網(wǎng)時(shí)代,如何利用文本挖掘技術(shù),從大量半結(jié)構(gòu)化文本數(shù)據(jù)中抽取關(guān)鍵信息、提升理解速度等,這是一個(gè)復(fù)雜的綜合性研究課題。文本可視化技術(shù)綜合了文本分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等學(xué)科的理論和方法,為人們理解復(fù)雜的文本內(nèi)容、結(jié)構(gòu)和內(nèi)在的規(guī)律等信息的有效手段,旨在最大程度的實(shí)現(xiàn)抽象與概括海量的文本信息,方便用戶快速理解和吸收文本的主要內(nèi)容。
本文所要處理的數(shù)據(jù)文本源,已在前階段研究工作中完成,已經(jīng)將處理后的花語(yǔ)文本存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中。本文使用R軟件實(shí)現(xiàn)文本預(yù)處理、詞項(xiàng)聚類、文本聚類和文本可視化等。
1 文本預(yù)處理
數(shù)據(jù)分類有按花材分類、送花對(duì)象分類和送花用途分類。在本文中,“玫瑰+戀人+愛情”表示為選取花材為“玫瑰”,送花對(duì)象為“戀人”,送花用途為“愛情”的花語(yǔ)文本。“康乃馨+父母+節(jié)慶”表示為選取花材為“康乃馨”,送花對(duì)象為“父母”,送花用途為“節(jié)慶”的花語(yǔ)文本。
對(duì)文本預(yù)處理,需經(jīng)過(guò)如圖1所示的若干流程:讀取花語(yǔ)文本數(shù)據(jù)、中文分詞(加載自定義詞典)、去除停用詞等、轉(zhuǎn)換文本表示、構(gòu)建詞項(xiàng)-文檔矩陣。中文分詞是中文文本挖掘研究的基礎(chǔ)與難點(diǎn),中文分詞的準(zhǔn)確與否,關(guān)系到能否準(zhǔn)確識(shí)別語(yǔ)句含義,直接影響文本挖掘結(jié)果的分析。分詞后詞項(xiàng)數(shù)量過(guò)多,還需進(jìn)行詞項(xiàng)降維、去除無(wú)意義詞語(yǔ)。文本預(yù)處理部分使用R軟件中的jiebaR包相關(guān)函數(shù)進(jìn)行處理,其中函數(shù)worker進(jìn)行中文分詞處理,函數(shù)filter_segment剔除停用詞,達(dá)到過(guò)濾分詞結(jié)果的效果。
2 聚類分析
聚類是將數(shù)據(jù)劃分到不同分類的過(guò)程,從很多文檔中把內(nèi)容相似的文檔聚為一類,同類中的對(duì)象有很大相似性,而不同類間的對(duì)象有很大相異性。
根據(jù)前文分析的結(jié)果,百合和康乃馨的產(chǎn)品頻數(shù)大致相近。另外,百合主要是送給戀人對(duì)象,而康乃馨主要是送給父母對(duì)象,選取這兩種花材的花語(yǔ)進(jìn)行聚類分析,以探究在花材送與對(duì)象表達(dá)的情感不同時(shí)花語(yǔ)表達(dá)的主題內(nèi)容。
2.1 詞項(xiàng)聚類
選取“百合+康乃馨”花語(yǔ),刪除稀疏詞項(xiàng),使用函數(shù)hclust對(duì)詞項(xiàng)層次聚類,樹狀圖被劃分為3個(gè)簇,繪制如圖2聚類圖。
圖2中,母親、母親節(jié)詞語(yǔ)被分到同一組中,表達(dá)了送與父母的主題;健康、朋友詞語(yǔ)被分到同一組中,表達(dá)了送與朋友的主題;而歲月、關(guān)懷、周年紀(jì)念、爛漫、真摯等詞語(yǔ)被分到一組,表達(dá)了送與戀人的主題。賣家在配置花語(yǔ)上,送與不同的對(duì)象所表達(dá)的主題也不相同,驗(yàn)證了百合花主要送與戀人與朋友,康乃馨主要送與父母與朋友。
2.2 文本聚類
選取“玫瑰+康乃馨”花語(yǔ),對(duì)分詞后的花語(yǔ)文本進(jìn)行k-means聚類,使用函數(shù)kmeans將花語(yǔ)文本劃分為3個(gè)簇,具體的聚類分組和每組頻繁詞項(xiàng)如下:
由上述簇和詞項(xiàng)可知,每個(gè)簇都圍繞著一個(gè)明確的主題。賣家對(duì)百合、康乃馨產(chǎn)品設(shè)置的花語(yǔ)中,簇1與朋友、友情有關(guān),簇2與戀人、愛情有關(guān),簇3與父母、節(jié)慶有關(guān)。賣家對(duì)百合、康乃馨產(chǎn)品主要表達(dá)三個(gè)主題,分別是愛情、親情和友情。
熱點(diǎn)文章閱讀