信息可視化設(shè)計(jì)教程【專題新聞文本集信息可視化研究】
發(fā)布時(shí)間:2020-03-07 來源: 美文摘抄 點(diǎn)擊:
[摘要]根據(jù)新聞要素說,提取專題新聞文本中的關(guān)鍵詞并進(jìn)行預(yù)處理;采用向量空間模型表示文本,運(yùn)用K―means算法實(shí)現(xiàn)文本聚類并構(gòu)建關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型以實(shí)現(xiàn)文本的可視化。實(shí)例表明:該方法能直觀地顯示專題新聞文本集的主要信息,便于快速掌握新聞中的主體與事件的關(guān)系以及新聞關(guān)注點(diǎn)隨時(shí)間的變化,從而加深對信息的理解,有利于信息的充分利用。
[關(guān)鍵詞]信息可視化 文本信息 關(guān)聯(lián)網(wǎng)絡(luò)模型
[分類號]G203
1 引言
面對大量的新聞信息,人們迫切需要了解信息之間的相互關(guān)系及發(fā)展趨勢,發(fā)現(xiàn)隱藏在其中的本質(zhì)特征和規(guī)律?梢暬夹g(shù)可以直觀地展示新聞文本中的大量信息及其之間的關(guān)系,便于人們理解、掌握信息。
信息可視化是指非空間數(shù)據(jù)的可視化。Card等將信息可視化定義為:“使用計(jì)算機(jī)支持、交互性的視覺表示法,對抽象數(shù)據(jù)進(jìn)行表示,以增強(qiáng)認(rèn)知”。也就是說,信息可視化是使用直觀的方式展現(xiàn)原始數(shù)據(jù)間的復(fù)雜關(guān)系、潛在信息以及發(fā)展趨勢,其目的是為了更好地利用信息資源。關(guān)于信息可視化的研究主要集中在三個方面:理論介紹、算法與模型的介紹以及實(shí)際應(yīng)用。20世紀(jì)90年代是信息可視化研究的初期,主要是理論的介紹,包括信息可視化的概念、內(nèi)涵、研究內(nèi)容等。其中,文本信息可視化是信息可視化的一種,可以分為兩類:一類是對單文檔的可視化;另一類是對多文本(文本集)的可視化。而基于時(shí)間信息的可視化模型是信息可視化研究領(lǐng)域的熱點(diǎn)問題之一,如時(shí)間墻模型和主題河流模型。這兩種模型都以時(shí)間為水平軸線展示文本信息,以發(fā)現(xiàn)文本主題的發(fā)展趨勢和隱含信息。此外,信息可視化模型還包括關(guān)聯(lián)分析模型和RDV模型。文本信息可視的方法主要有圖符標(biāo)識法、高維空間描述法、自組織地圖算法及群集映射法。文本信息可視化的應(yīng)用研究主要集中在文獻(xiàn)領(lǐng)域。如:Young Gil Kim等實(shí)現(xiàn)了專利文獻(xiàn)的可視化;Josiane Mothe則通過將文本在地圖上的可視化顯示,進(jìn)行信息挖掘。在國內(nèi),鄭珩等針對國內(nèi)管理科學(xué)文獻(xiàn)進(jìn)行可視化研究,任智軍等研究了科技文獻(xiàn)中的可視化分析技術(shù)。
現(xiàn)已提出的文本信息可視化模型大都按時(shí)間關(guān)系建立,能直觀顯示時(shí)間上文本間的關(guān)聯(lián),而對文本間深層次信息實(shí)體間的關(guān)聯(lián)則難以體現(xiàn),導(dǎo)致現(xiàn)階段文本信息可視化未能挖掘出文本中深層次的信息,僅停留在統(tǒng)計(jì)分析的基礎(chǔ)之上。因此,本文根據(jù)專題新聞文本集的特點(diǎn),借助網(wǎng)絡(luò),針對新聞文本內(nèi)容,構(gòu)建專題新聞文本集信息可視化模型,并以新浪網(wǎng)上四川汶川地震專題中關(guān)于災(zāi)后重建的新聞文本集為例進(jìn)行實(shí)證研究。
2 專題新聞文本集信息可視化流程
專題新聞文本集是多個關(guān)于某個專題新聞文本的集合,其可視化流程基本分為以下5個步驟。
2.1 提取關(guān)鍵詞
新聞具有五要素即who、when、where、what和why,因此每篇新聞文本都可以從這五個方面提取關(guān)鍵詞,代表每篇新聞文本的主要信息。為了簡化研究,突出事件的發(fā)展變化,本文只針對who,when和what進(jìn)行研究。新聞文本一般直接寫明描述性特征who和when,但現(xiàn)在的一些新聞中常常省去when。由于新聞具有很強(qiáng)的時(shí)效性,當(dāng)新聞中省略when時(shí),可以用新聞電頭標(biāo)注的時(shí)間代替。而對于語義特征要素what,關(guān)鍵詞的提取則需要根據(jù)研究目的,咨詢相關(guān)領(lǐng)域的專家并結(jié)合領(lǐng)域內(nèi)熱門搜索關(guān)鍵詞確定一系列初始關(guān)鍵詞,然后參考這些初始關(guān)鍵詞,根據(jù)新聞文本內(nèi)容提取。這樣,每篇新聞文本的信息就用描述性關(guān)鍵詞結(jié)合語義關(guān)鍵詞表示。
2.2 關(guān)鍵詞的預(yù)處理
一篇文本可以用多個關(guān)鍵詞表示,當(dāng)多個文本聚合在一起時(shí),關(guān)鍵詞數(shù)量巨大且分散而無規(guī)律可循,需要減少關(guān)鍵詞。根據(jù)描述性關(guān)鍵詞和語義關(guān)鍵詞的不同特點(diǎn),采用不同的方法分別對兩者進(jìn)行預(yù)處理。經(jīng)過預(yù)處理的關(guān)鍵詞構(gòu)成關(guān)鍵詞庫。
在新聞文本中,who和when是具體化的,因此提取的關(guān)鍵詞也是具體的。對于when,根據(jù)研究的專題新聞文本集的時(shí)間范圍,將時(shí)間粒度確定為日、月或年。對于who則可以進(jìn)行語義泛化處理。例如,國家元首是國家政府的代表,可以將其泛化為某國政府。
泛化處理后的語義關(guān)鍵詞what數(shù)量可能仍然太大,可以根據(jù)不同的主體分別對語義關(guān)鍵詞進(jìn)行主成分分析,得出不同主體的主要行為及其原因,以進(jìn)一步減少關(guān)鍵詞。
2.3 文本聚類
文本聚類前常用向量空間模型對文本信息進(jìn)行處理,稱為文本表示,其目標(biāo)就是將文本表示成為帶權(quán)重的向量。一般使用“詞一文檔”矩陣表示一系列文檔。矩陣的每一列(1,…,j,…,n)代表預(yù)處理后的一個關(guān)鍵詞,矩陣的每一行(1,…,i,…,m)代表文本集中的一個文本。參照預(yù)處理后的關(guān)鍵詞庫,當(dāng)?shù)趇個文本中含有關(guān)鍵詞j,那么矩陣中元素(i,j)的值為1,否則為0。所有的文本都可以用元素為0或1的向量表示。
文本集轉(zhuǎn)化為特征矩陣后,采用K-means算法進(jìn)行文本聚類,需要先確定劃分的類別數(shù)目,即K的值(K≥2)。關(guān)于K值的確定可以參考專題新聞文本集中主體who的數(shù)量,也可以嘗試不同的值以得到最滿意的聚類結(jié)果。
2.4 構(gòu)建關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型
由于每篇文本的信息都由關(guān)鍵詞表示,關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型實(shí)際上是文本的關(guān)聯(lián)網(wǎng)絡(luò)模型。建立關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型的基本步驟如下:
?確定每類文本的關(guān)鍵詞集合;谖谋镜木垲惤Y(jié)果,每類文本的關(guān)鍵詞都可以組成一個關(guān)鍵詞集D:(dt,…,dp,…,dq)。文本集劃分為K類,則有K個關(guān)鍵詞集。在每個關(guān)鍵詞集中,其元素d。具有唯一性。例如,文本A具有關(guān)鍵詞a,b,c,文本B具有關(guān)鍵詞c和d,那么這個文本類的關(guān)鍵詞集D=(a,b,c,d)。
?建立關(guān)鍵同的連接。當(dāng)任意兩篇文本中含有相同的關(guān)鍵詞時(shí),兩篇文本就可以以相同的關(guān)鍵詞為節(jié)點(diǎn),建立連接關(guān)系。如關(guān)鍵詞c是文本A和文本B的公共關(guān)鍵詞,以c為節(jié)點(diǎn),A和B之間就可以建立聯(lián)系。
?構(gòu)建關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型。針對每個關(guān)鍵詞,計(jì)算其在同一個文本類中出現(xiàn)的次數(shù),以關(guān)鍵詞出現(xiàn)的次數(shù)作為其節(jié)點(diǎn)權(quán)值,同時(shí)查找包含這個關(guān)鍵詞的所有文本的時(shí)間要素,以這些文本中最早的時(shí)間作為關(guān)鍵詞的時(shí)間。如關(guān)鍵詞c在文本A中出現(xiàn)的時(shí)間是2008-5-24,在文本B中出現(xiàn)的時(shí)間是2008―6一l,那么關(guān)鍵詞c的時(shí)間是2008-5-24,其權(quán)值為2。
文本聚類將文本集分為K個文本類,每一個文本類都可以建立一個關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型。根據(jù)以上步驟,將每一個文本類的關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型連接起來構(gòu)成文本集的關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型。由于任一文本都是用一系列關(guān)鍵詞代替,關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型實(shí)質(zhì)上 是文本集的關(guān)聯(lián)網(wǎng)絡(luò)模型。
2.5 可視化顯示
可視化顯示就是將關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型用直觀的、易于理解的圖形顯示出來。新聞文本具有很強(qiáng)的時(shí)效性,專題新聞文本集可以看作是一個時(shí)間序列集。在可視化顯示過程中,以時(shí)間為序,關(guān)鍵詞按照其出現(xiàn)的時(shí)間先后在圖形中顯示。用一個實(shí)點(diǎn)代表一個關(guān)鍵詞節(jié)點(diǎn),點(diǎn)的大小代表這個節(jié)點(diǎn)的權(quán)值大小,即關(guān)鍵詞出現(xiàn)的頻率。同時(shí)將關(guān)鍵詞的時(shí)間標(biāo)注在其實(shí)點(diǎn)下方。用弧表示關(guān)鍵詞之間的關(guān)系,弧的長度表示關(guān)鍵詞之間的時(shí)間間隔,弧越長表示時(shí)間間隔越長,反之時(shí)間間隔短。弧的粗細(xì)代表關(guān)鍵詞之間聯(lián)系的緊密程度,弧越粗表示聯(lián)系越緊密,反之聯(lián)系不緊密。
3 實(shí)證分析
3.1 數(shù)據(jù)獲取
以2008年5月24日至6月12日新浪網(wǎng)上四川汶川大地震專題新聞中關(guān)于災(zāi)后重建的新聞文本為原始數(shù)據(jù)進(jìn)行實(shí)例研究,其目的是直觀地顯示在災(zāi)后重建過程中人們的關(guān)注點(diǎn)及其變化,共收集到75篇新聞文本。從who,when和what三方面提取關(guān)鍵詞。本次研究關(guān)注的是事件發(fā)生的時(shí)刻,而不是事件持續(xù)的時(shí)長,所以when提取的是事件發(fā)生的時(shí)刻。對what根據(jù)語法結(jié)構(gòu)進(jìn)行分解即do what,以行為和行為實(shí)施的對象兩方面表示。參考網(wǎng)絡(luò)熱門搜索關(guān)鍵詞以確定災(zāi)后重建過程中人們關(guān)注的行為及其對象,并據(jù)此提取新聞文本關(guān)鍵詞,從而構(gòu)成研究的原始數(shù)據(jù)。
3.2 數(shù)據(jù)處理
數(shù)據(jù)處理就是對收集的原始數(shù)據(jù),按照文本信息可視化流程進(jìn)行處理:
?關(guān)鍵詞的處理。由于實(shí)例中新聞文本的時(shí)間跨度小,所以以天為時(shí)間單位。Who經(jīng)過抽象產(chǎn)生了8類主體。根據(jù)這8類主體分別對其行為及行為對象的關(guān)鍵詞進(jìn)行語義泛化處理,目的是得到各類主體的關(guān)鍵行為及行為對象。
?文本聚類。由于有8類主體,采用K-means聚類將文本集分為8類。
?根據(jù)建立關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型的基本步驟構(gòu)建關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型。
3.3 可視化顯示及分析
構(gòu)建的關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型如圖1所示,對其進(jìn)行分析,可以得出以下幾點(diǎn):
?實(shí)點(diǎn)表示的主體可實(shí)施各種行為,分別是政府、醫(yī)院、交通部門、個人、其他組織。灰點(diǎn)表示的既是主體又是對象,即可實(shí)施一定的行為也可接受其他主體對其實(shí)施的行為,分別是企業(yè)、學(xué)校、災(zāi)民。在收集的新聞文本集中,關(guān)于政府和企業(yè)的報(bào)道最多,分別有32篇和15篇,所以這兩個點(diǎn)最大,說明政府和企業(yè)是災(zāi)后重建過程中最受關(guān)注的兩個主體。
?空心點(diǎn)表示的是行為實(shí)施的對象,接受主體實(shí)施的行為。圖1中,用空心點(diǎn)表示的分別是過渡房、就業(yè)、家鄉(xiāng)、孤兒、政策、救災(zāi)物資、傷員和學(xué)生。圖中過渡房、傷員、救災(zāi)物資三點(diǎn)較大,說明過渡房、傷員、救災(zāi)物資是災(zāi)后重建過程中最受關(guān)注的對象。
?弧代表主體對對象實(shí)施的行為;〉姆较蛴芍黧w指向?qū)ο。政府?shí)施的行為包括調(diào)控企業(yè)、轉(zhuǎn)移災(zāi)民、頒布政策、救助災(zāi)民、發(fā)放救災(zāi)物資、重建學(xué)校;醫(yī)院主要是接收救治傷員;交通部門主要發(fā)揮運(yùn)輸作用,運(yùn)輸傷員、學(xué)生及救災(zāi)物資;個人則捐獻(xiàn)救災(zāi)物資及收養(yǎng)孤兒;其他組織主要是捐獻(xiàn)救災(zāi)物資;企業(yè)的行為包括生產(chǎn)過渡房及提供就業(yè);學(xué)校接收學(xué)生;災(zāi)民有入住過渡房、返回家鄉(xiāng)、外出就業(yè)等不同的行為。
?弧的粗細(xì)代表行為出現(xiàn)的頻率,表示主體與對象聯(lián)系的緊密程度。圖l中說明企業(yè)的生產(chǎn)調(diào)控,過渡房生產(chǎn)、災(zāi)民轉(zhuǎn)移、救災(zāi)物資發(fā)放使用、傷員救治及學(xué)生接收是災(zāi)后重建中比較受關(guān)注的問題。
?弧的長短代表文本集中第一次m現(xiàn)該行為的時(shí)間與災(zāi)后重建開始時(shí)間的間隔。從各行為第一次實(shí)施的時(shí)間來看,在災(zāi)后重建前期,主要關(guān)注的是災(zāi)民的轉(zhuǎn)移、救助、過渡房的生產(chǎn)、傷員的運(yùn)輸以及救災(zāi)物資的捐獻(xiàn)。隨著時(shí)間的推移,重建工作進(jìn)一步深入,人們開始關(guān)注其他的一些問題,包括:災(zāi)民返鄉(xiāng);企業(yè)為災(zāi)民提供就業(yè)機(jī)會;政府對基礎(chǔ)設(shè)施的重建;學(xué)校接收學(xué)生復(fù)課的情況。
4 結(jié)論
本文借助網(wǎng)絡(luò)思想,基于新聞文本內(nèi)容構(gòu)建了災(zāi)后重建專題新聞文本集的關(guān)鍵詞關(guān)聯(lián)網(wǎng)絡(luò)模型,直觀地展示了災(zāi)后重建的動態(tài)發(fā)展變化過程、各主體的主要行為及其之間的關(guān)系以及人們關(guān)注點(diǎn)的變化,有利于人們快速了解災(zāi)后重建的動態(tài)。但由于收集的新聞文本僅限于網(wǎng)絡(luò)媒體文本,原始信息缺乏一定的嚴(yán)謹(jǐn)性和權(quán)威性。且本文只對2008年5月24日至6月12日的新浪網(wǎng)上的文本信息進(jìn)行分析,雖然具有一定的代表性,但是文本涉及的時(shí)間較短、數(shù)據(jù)不夠全面且數(shù)量有限,未能完全展示災(zāi)后重建過程中的所有主體、事件及其之間的復(fù)雜聯(lián)系。此外,只針對新聞五要素中的when、who和what進(jìn)行分析、研究,尚未融入where和why要素。下一步將進(jìn)一步研究如何將這兩個要素融入可視化模型,從而更全面、深入地展示文本信息。
相關(guān)熱詞搜索:可視化 文本 專題 專題新聞文本集信息可視化研究 信息公開與新聞可視化 熱點(diǎn)新聞事件及評論
熱點(diǎn)文章閱讀