文本可視化在新聞事件演變中的應(yīng)用_什么是信息可視化
發(fā)布時(shí)間:2020-03-10 來(lái)源: 短文摘抄 點(diǎn)擊:
[摘要]介紹對(duì)Web空間和現(xiàn)實(shí)社會(huì)空間中的新聞事件演變進(jìn)行可視化是一個(gè)新的研究熱點(diǎn)?偨Y(jié)歸納文本可視化基本方法,并且結(jié)合成功的應(yīng)用,提出應(yīng)用在單個(gè)新聞事件、同時(shí)發(fā)生的新聞事件和先后發(fā)生的新聞事件上的新聞事件演變的可視化形式。指出綜合利用基于詞頻、語(yǔ)義、聚類、時(shí)間序列的可視化技術(shù)是對(duì)新聞事件演變過(guò)程進(jìn)行可視化展示的關(guān)鍵。
[關(guān)鍵詞]事件演變 文本可視化 新聞報(bào)道
[分類號(hào)]G353.1
1 引言
近年來(lái),很多社會(huì)事件經(jīng)過(guò)網(wǎng)民和新聞媒體等網(wǎng)絡(luò)傳播主體的推動(dòng)后,便以驚人的速度成為了網(wǎng)絡(luò)熱點(diǎn),并影響著現(xiàn)實(shí)事件的發(fā)展,例如“周老虎”、“艷照門(mén)”、“躲貓貓”事件等。在互聯(lián)網(wǎng)時(shí)代,這些熱點(diǎn)問(wèn)題同時(shí)置身于兩個(gè)空間之內(nèi):現(xiàn)實(shí)社會(huì)空間及Web空間。Web空間中的網(wǎng)絡(luò)傳播對(duì)現(xiàn)實(shí)社會(huì)空間的熱點(diǎn)問(wèn)題形成及發(fā)展有著巨大的推動(dòng),人們不得不去思考和分析這種現(xiàn)象背后隱藏的復(fù)雜因素。在研究過(guò)程中往往多以新聞、博客、論壇等文本作為研究對(duì)象。
新聞是一個(gè)特別有趣的分析領(lǐng)域,它對(duì)分析者和新聞讀者都有啟示和意義。新聞報(bào)道是在各個(gè)時(shí)間點(diǎn)上形成的、反映重要社會(huì)事件的文本。隨著互聯(lián)網(wǎng)的飛速發(fā)展,在網(wǎng)絡(luò)上獲取新聞報(bào)道已成為現(xiàn)代人的家常便飯,然而,隨著海量信息的不斷涌現(xiàn),人們利用傳統(tǒng)的檢索和閱讀方式理解大量、復(fù)雜信息的難度日益增大。更重要的是,只閱讀個(gè)別新聞,甚至一組新聞報(bào)道,人們無(wú)法看到新聞背景的整體面貌。閱讀報(bào)紙上的一篇文章只能得到少量信息,而人們想知道的是更關(guān)鍵的、相關(guān)的信息:該新聞的相關(guān)事件是怎樣隨時(shí)間而演變的;事件演變過(guò)程中受到哪些因素的影響;受眾對(duì)該新聞是如何回應(yīng)的,等等。
然而,面對(duì)海量的新聞報(bào)道,如今還沒(méi)有一個(gè)完善的機(jī)制能夠協(xié)助人們?cè)诙虝r(shí)間內(nèi)可視化地回顧某話題中許多事件的演變過(guò)程。同時(shí),讀者對(duì)新聞的回應(yīng)也有助于人們了解信息的來(lái)龍去脈,而博客、論壇等正是最容易獲得這類信息的平臺(tái),并且正以飛快的速度在網(wǎng)絡(luò)社區(qū)中突起。因此可以通過(guò)研究博客等社會(huì)媒體來(lái)跟蹤人們對(duì)新聞報(bào)道的注意力,發(fā)現(xiàn)重要的事件,并測(cè)量這些新聞報(bào)道的社會(huì)相關(guān)性。
網(wǎng)絡(luò)信息資源規(guī)模龐大,且新聞報(bào)道、博客文章和論壇帖子等文本都是網(wǎng)絡(luò)上主要的非結(jié)構(gòu)化數(shù)據(jù),分析這些非結(jié)構(gòu)化的文本流是可視化分析研究的長(zhǎng)期挑戰(zhàn)。為了迎接這個(gè)挑戰(zhàn),在文本可視化方法的基礎(chǔ)上,探索事件演變和發(fā)展的可視化方法、技術(shù)和系統(tǒng)越來(lái)越受到人們的關(guān)注。
2 文本可視化的基本形式
文本可視化方法在空間上將文本信息轉(zhuǎn)化成另一種視覺(jué)表示方式,并揭示出文本之間的主題模式或關(guān)系;谠~匯的文本可視化以詞頻統(tǒng)計(jì)為基礎(chǔ),基于篇章內(nèi)容的文本可視化致力于發(fā)現(xiàn)文章中隱含的特定的語(yǔ)義關(guān)系,基于主題領(lǐng)域的文本可視化主要利用聚類和自然語(yǔ)言處理技術(shù)來(lái)獲取主題,基于時(shí)間序列的文本可視化正是利用了時(shí)間這個(gè)非常重要的屬性。
2.1 基于詞頻的文本可視化
文本可視化最簡(jiǎn)單的思路是將文本看作詞的集合,針對(duì)一篇或多篇文本中的詞匯,以詞頻統(tǒng)計(jì)方法為基礎(chǔ),以發(fā)現(xiàn)特定的詞頻模式(如高頻詞、異常詞頻)為目的,通過(guò)對(duì)于詞匯的不同呈現(xiàn)來(lái)展現(xiàn)文本的特征。
基于詞頻的文本可視化方法主要有以下特點(diǎn):①更多方法是基于命名實(shí)體,而不是基于所有簡(jiǎn)單的詞匯;②反映詞匯在文本中的分布情況和程度;③靈活利用顏色標(biāo)識(shí)來(lái)高亮特定的詞頻模式。
典型的應(yīng)用有Document Contrast Diagrams、TagCloud、Contexter、TileBars等,實(shí)際應(yīng)用中一般都不能忽略詞頻這個(gè)重要屬性,但是這類系統(tǒng)更注重于追求可視化的炫麗效果,單獨(dú)采用這種方法的應(yīng)用在事件演變研究中并不常見(jiàn)。
2.2 基于語(yǔ)義的文本可視化
基于語(yǔ)義的文本可視化的對(duì)象不僅僅是文本中的詞匯,還需要大量高度標(biāo)注的文本,并通過(guò)計(jì)算、統(tǒng)計(jì)、推斷等技術(shù)手段,發(fā)現(xiàn)文本中隱含的特定的語(yǔ)義關(guān)系,使用戶更有效地閱讀和理解文本內(nèi)容,其主要面向大規(guī)模的文本集。
基于語(yǔ)義的文本可視化方法主要有以下特點(diǎn):①表現(xiàn)文本的主題和核心內(nèi)容;②展示文本內(nèi)容的敘述思路;③反映詞組在文本中的分布關(guān)系;④更適用于演講和辯論類文本的可視化。
典型的應(yīng)用有Document Arc Diagrams、DirectedSentence Diagrams、Word Tree、Transcript Analysis、NLP-Win等,該類系統(tǒng)的表現(xiàn)形式多種多樣、形態(tài)各異,除了運(yùn)用自然語(yǔ)言處理和語(yǔ)義分析的技術(shù)外,還需要大量的標(biāo)注,實(shí)際應(yīng)用的難度和工作量都比較大。
2.3 基于聚類的文本可視化
基于聚類的文本可視化也是針對(duì)大規(guī)模文本集的一種常見(jiàn)模式,其目的是從大規(guī)模文本中發(fā)現(xiàn)特定的主題領(lǐng)域。它不是簡(jiǎn)單地考慮詞頻或語(yǔ)義,而是利用文本中出現(xiàn)的詞語(yǔ)比較文本的相似性,從而產(chǎn)生聚類結(jié)果。
基于聚類的文本可視化方法主要有以下特點(diǎn):①反映主題領(lǐng)域及其主題之間的關(guān)系,并展示主題領(lǐng)域的關(guān)鍵命名實(shí)體或詞組;②采用二維或三維視角,靈活運(yùn)用形狀來(lái)表示特定的主題模式;③多應(yīng)用在信息檢索、網(wǎng)頁(yè)的鏈接關(guān)系分析、主題探測(cè)、學(xué)科熱點(diǎn)、話題演變、新興趨勢(shì)發(fā)現(xiàn)等領(lǐng)域。
典型的應(yīng)用有Lighthouse、Event Organizer、News-Junkie、Topic Tracking Visualisation Tool、Topic Islands等,該類系統(tǒng)的成功應(yīng)用取決于合適的聚類算法,高維的文本數(shù)據(jù)給聚類算法帶來(lái)了不小的挑戰(zhàn)。
2.4 基于時(shí)間序列的文本可視化
為了研究某些領(lǐng)域的發(fā)展趨勢(shì)、演變規(guī)律,基于時(shí)間序列的文本可視化方法利用了時(shí)間這個(gè)最重要的維度來(lái)完成特定的分析任務(wù)。以上三種文本可視化方法一般都結(jié)合文本的時(shí)間關(guān)系進(jìn)行可視化,其可視化的主要對(duì)象一般是大規(guī)模文本集。
基于時(shí)間序列的文本可視化方法主要有以下特點(diǎn):①時(shí)間軸是該類系統(tǒng)的最佳特征,它提供了一個(gè)有效的展示形式,用戶可以快速地對(duì)語(yǔ)料庫(kù)中所包含的信息進(jìn)行生動(dòng)地瀏覽;②常結(jié)合基于詞頻、聚類的可視化方法一起使用,著眼于主題如何隨著時(shí)間而變化;③靈活利用流體形狀反映特定的時(shí)間模式。
典型的應(yīng)用有TimeMines、NameVoyager、ThemeRiver、Theme Mountain、History Flow等。選取合適的時(shí)間片段是事件演變研究中的關(guān)鍵環(huán)節(jié)。30新聞事件演變的可視化形式
基于以上4種基本的文本可視化方法的綜合運(yùn)用,已經(jīng)出現(xiàn)了一些面向新聞報(bào)道、博客文章和論壇帖子等大規(guī)模文本數(shù)據(jù),以探索新聞事件演變?yōu)槟繕?biāo)的可視化技術(shù)和系統(tǒng)。
3.1 單個(gè)新聞事件的內(nèi)容演變可視化
某些話題只包含單獨(dú)的新聞事件,事件本身的內(nèi)容演變過(guò)程是值得人們關(guān)注的,比如一場(chǎng)交通事故發(fā)生之后的調(diào)查、取證、開(kāi)庭、審判的發(fā)展過(guò)程。分析某 話題下的單一事件,如今典型的系統(tǒng)一般使用聚類方法識(shí)別話題,再結(jié)合基于詞頻和時(shí)間序列的方法,隨著時(shí)間的推移發(fā)現(xiàn)各時(shí)間點(diǎn)上人們對(duì)某事件關(guān)注程度的變化,從而推理出事件內(nèi)容的演變。
Ievent是一個(gè)交互式話題檢測(cè)與跟蹤系統(tǒng)的構(gòu)想,針對(duì)單一事件的內(nèi)容演變進(jìn)行分析。它強(qiáng)調(diào)用戶的交互,將命名實(shí)體、聚類和時(shí)間序列等方法有效地結(jié)合起來(lái),支持用戶識(shí)別新聞事件并且隨時(shí)間推移在新聞流中跟蹤查看事件內(nèi)容的連續(xù)性演變。Ievent從Event Organizer中吸收了時(shí)間軸的思想,繼承了Lighthouse中的聚類可視化的思想,并考慮簇的大小和密度。Ievent主要由3個(gè)視圖構(gòu)成:聚類視圖、文檔視圖和命名實(shí)體視圖,如圖1所示:
在聚類視圖中,一個(gè)大尺寸和高密度的簇表示在短時(shí)間內(nèi)擁有大量的文本,因此,如果代表某個(gè)車(chē)禍?zhǔn)录木垲惷芏群苄、尺寸很大,則表示該事件在長(zhǎng)時(shí)間內(nèi)擁有大量的文本。對(duì)其對(duì)應(yīng)文檔視圖進(jìn)行分析,在圖2中我們可以發(fā)現(xiàn),某起車(chē)禍?zhǔn)录?月份有了新聞報(bào)道;經(jīng)過(guò)大約1個(gè)月后該事件有了調(diào)查結(jié)果,網(wǎng)絡(luò)和社會(huì)上對(duì)該事件進(jìn)行了廣泛的討論;3月份的文本對(duì)該事件的調(diào)查涉及了對(duì)法律訴訟程序的談?wù);最終,4月和5月的文本可能包括了輿論對(duì)案件審理以及審判結(jié)果的討論。然而,Ievent只是一個(gè)初步構(gòu)想,需要人工去分析事件的演變過(guò)程。
3.2 并行新聞事件相關(guān)性可視化
某些話題包含多個(gè)同時(shí)進(jìn)行的新聞事件,而且多個(gè)事件之間是相關(guān)的(可以稱為“并行新聞事件”)。比如某次總統(tǒng)競(jìng)選話題,每個(gè)候選人參與競(jìng)選是同時(shí)進(jìn)行的不同事件,它們之間的相互關(guān)系會(huì)影響著競(jìng)選過(guò)程的發(fā)展。分析某話題下的相關(guān)性事件,如今典型的系統(tǒng)一般使用聚類方法定位話題,再結(jié)合詞頻識(shí)別出不同的事件,最后利用基于時(shí)間序列的方法,分析各事件在時(shí)間軸上的演變過(guò)程的相關(guān)性,從而結(jié)合事件結(jié)果發(fā)現(xiàn)隱藏的模式。
Narratives是由微軟Live Labs開(kāi)發(fā)的基于社會(huì)流(Social Streams)體系結(jié)構(gòu)的平臺(tái),其目的是幫助用戶了解相關(guān)話題是如何隨時(shí)間變化的。用戶可以查看特定新聞事件的話題關(guān)鍵詞,并通過(guò)時(shí)間對(duì)文章進(jìn)行關(guān)聯(lián)。Narratives借鑒TimeMines和In-Spire等系統(tǒng),結(jié)合時(shí)間序列和聚類技術(shù),展示了一種隨著時(shí)間推移查看話題演變的獨(dú)特方式。
在Narratives中,一篇新聞報(bào)道被定義為包含多個(gè)關(guān)鍵詞的單一事件,通過(guò)查看對(duì)新聞報(bào)道的每個(gè)回應(yīng),Narratives可以將關(guān)鍵詞的序列可視化為一系列簡(jiǎn)單但相關(guān)的線圖。過(guò)去的許多研究在很大程度上強(qiáng)調(diào)一個(gè)單一變量隨時(shí)問(wèn)而變化,而Narratives特殊的挑戰(zhàn)是能查看多種可能有關(guān)的變量。Narratives希望隨時(shí)間推移能查看話題連續(xù)性的同時(shí),發(fā)現(xiàn)話題之間的相關(guān)性。
Narratives的語(yǔ)料庫(kù)由談?wù)撔侣剤?bào)道的博客文章組成,因此它們反映了關(guān)于某一話題的文章和對(duì)這些文章發(fā)表評(píng)論的博客。如圖3所示:
圖3中的Narratives界面比較了在2008年的3個(gè)月內(nèi)4位美國(guó)總統(tǒng)候選人的命運(yùn)。從圖中可以看出,每條折線圖都基于相同的時(shí)間軸,并分別反映了網(wǎng)絡(luò)上談及4位總統(tǒng)候選人的程度,這不但可以讓人們回顧4位總統(tǒng)候選人在選舉期的3個(gè)月內(nèi)受人們關(guān)注的程度,還進(jìn)一步反映出民意支持率的走勢(shì)。最終,奧巴馬脫穎而出的事實(shí)除了憑借他個(gè)人的才能之外,在一定程度上也受了網(wǎng)絡(luò)和社會(huì)輿論的影響。在下一屆總統(tǒng)選舉過(guò)程中,分析者可借助該模式并利用輿論數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的總統(tǒng)。
3.3 串行新聞事件相互關(guān)系演變可視化
一般的話題都包含了多個(gè)新聞事件,而且更多事件的發(fā)生時(shí)間是有先后順序的(可以稱為“串行新聞事件”),本質(zhì)上它們之間是相互影響、推動(dòng)和演變的。比如對(duì)于恐怖襲擊話題,每次恐怖襲擊事件的發(fā)生有著隱藏的關(guān)系,不同恐怖事件之間進(jìn)行著時(shí)間和內(nèi)容上演變。分析某話題下不同事件之間相互關(guān)系的演變,如今典型的系統(tǒng)除了使用聚類、詞頻等方法外,重點(diǎn)結(jié)合時(shí)間序列和語(yǔ)義等方法,發(fā)現(xiàn)不同事件之間隱藏的結(jié)構(gòu),從而分析出事件演變的過(guò)程。
自2001年9月11日紐約的恐怖襲擊事件開(kāi)始,世界各地遭受恐怖襲擊的頻率不斷增漲,并受到了公眾的更多關(guān)注。人們雖然可以很容易地從網(wǎng)絡(luò)上獲取成百上千個(gè)關(guān)于恐怖襲擊事件的新聞報(bào)道,但對(duì)人們來(lái)說(shuō)信息量太大,無(wú)法捕獲所需要的信息。TDT等信息檢索技術(shù)能夠通過(guò)給定恐怖襲擊這個(gè)話題,幫助人們根據(jù)恐怖襲擊事件來(lái)組織新聞報(bào)道。但是,它們沒(méi)有能力展示各事件之間復(fù)雜的發(fā)展關(guān)系。
作為情報(bào)人員,甚至普通老百姓,人們感興趣的是:哪些是一次恐怖襲擊中的主要事件?在該話題下它們是如何發(fā)展的?這就需要確定起始事件、結(jié)束事件、種子事件以及這些事件的演變。香港中文大學(xué)的Christopher c,Yang利用時(shí)間關(guān)系、事件相似性、時(shí)間接近和文檔分布接近等來(lái)識(shí)別在恐怖襲擊中事件發(fā)展和演變的關(guān)系。在這項(xiàng)工作中,Yang針對(duì)恐怖襲擊事件提出用事件演變圖(Event Evolution Graph)來(lái)展示不同事件之間隱藏的結(jié)構(gòu)(見(jiàn)圖4)。
圖4表示了車(chē)臣恐怖分子占領(lǐng)別斯蘭學(xué)校的恐怖襲擊的事件演變圖,其中一共有8個(gè)事件和11個(gè)演變關(guān)系。事件2“特別工作隊(duì)攻擊恐怖分析和數(shù)百人質(zhì)死亡”在圖中有最多的4個(gè)出鏈數(shù),因此可以被認(rèn)為是核心事件,并導(dǎo)致了一系列后續(xù)事件序列。事件6“別斯蘭學(xué)校在人質(zhì)被釋放后恢復(fù)了上課”和事件8“俄羅斯在反恐上成功的努力”成為了結(jié)束事件,被認(rèn)為是這一系列恐怖襲擊事件的結(jié)局。
臺(tái)灣學(xué)者提出了一個(gè)新聞話題回顧系統(tǒng),目的是透過(guò)事件主軸的摘要機(jī)制,更有效地協(xié)助新聞讀者在短時(shí)間內(nèi),了解事件演變的過(guò)程。它采用的機(jī)制是檢測(cè)話題中的事件并建構(gòu)之間的相互關(guān)系,再以此關(guān)系摘要成一篇話題回顧的報(bào)導(dǎo),作為新聞讀者快速了解事件發(fā)展的文本。
此機(jī)制主要包括三部分:事件界定、建構(gòu)話題主軸、主軸式摘要。建構(gòu)出的話題主軸可以提供話題發(fā)展脈絡(luò)的主干,并將相關(guān)性較低的事件排除。通過(guò)找出具有代表性的語(yǔ)句,并以話題發(fā)展主軸為模板依據(jù),進(jìn)而構(gòu)成的摘要,除了可以提供足夠的信息了解話題發(fā)展,也可以作為索引,協(xié)助用戶找到更多更詳細(xì)的信息(見(jiàn)圖5)。該系統(tǒng)非常全面地展示了從新聞報(bào)道中檢測(cè)與給定話題相關(guān)的事件,并通過(guò)對(duì)文本的分析,建構(gòu)出惠普并購(gòu)康柏話題中的各事件發(fā)展脈絡(luò),并對(duì)每個(gè)事件生成摘要。
然而,上述系統(tǒng)都只考慮了某話題的新聞報(bào)道中所涉及的事件,而沒(méi)有深入探索Web空間的網(wǎng)絡(luò)傳播對(duì)現(xiàn)實(shí)社會(huì)空間中事件的推動(dòng)和影響。
4 總結(jié)
隨著新聞讀者日常面對(duì)的新聞報(bào)道信息量不斷增大,分析者有必要探索綜合利用文本可視化方法來(lái)回顧某話題中各事件的演變過(guò)程,以便讀者了解新聞背景的整體面貌。本文在總結(jié)歸納文本可視化基本方法的基礎(chǔ)上,結(jié)合成功的應(yīng)用,提出了應(yīng)用在新聞事件演變上的可視化形式。面對(duì)不同發(fā)生情況的新聞事件,分析web空間上的新聞報(bào)道等文本數(shù)據(jù),都可以從以上三種不同的新聞事件可視化形式中找到解決方案來(lái)可視化現(xiàn)實(shí)社會(huì)空間中的事件演變過(guò)程。
相關(guān)熱詞搜索:可視化 演變 文本 文本可視化在新聞事件演變中的應(yīng)用 文本可視化研究 文本可視分析
熱點(diǎn)文章閱讀