尚未被發(fā)掘的創(chuàng)投概念【知識發(fā)掘的概念及其相關(guān)理論研究】
發(fā)布時間:2020-03-10 來源: 日記大全 點擊:
[摘要]知識發(fā)掘是擷取隱含、有用、未被發(fā)掘、有潛在價值的知識資源的一種過程,采用先進和傳統(tǒng)的技術(shù)、方法和手段,對數(shù)據(jù)庫內(nèi)外的知識進行系統(tǒng)分析、挖掘、發(fā)現(xiàn)和利用,區(qū)別于數(shù)據(jù)庫中的“知識發(fā)現(xiàn)”,強調(diào)發(fā)掘目的的有用性、發(fā)掘源頭的廣泛性、發(fā)掘手段的綜合性、發(fā)掘內(nèi)容的知識性、挖掘價值的潛在性、應用方式的具體性等特征。通過對“酵論”、“差論”、“圈論”的重點闡述,試圖分別回答知識發(fā)掘過程中發(fā)掘什么、發(fā)掘范式、發(fā)掘環(huán)境等問題。
[關(guān)鍵詞]知識發(fā)掘 酵論 差論 圈論
[分類號]G350
1 導言
作為一種人類的活動,知識發(fā)掘(Knowledge Management,KM)早在原始社會就已經(jīng)存在,經(jīng)歷了一個漫長的發(fā)展過程。原始經(jīng)濟時代,人們?yōu)榱松,結(jié)繩記事、鉆木取火、狩獵、對農(nóng)作物的栽培和對剩余獵物的飼養(yǎng),包括氏族之間的戰(zhàn)爭都包含著知識發(fā)掘成分;農(nóng)業(yè)經(jīng)濟時代,《易經(jīng)》是人們對自然知識的高度概括,《孫子兵法》是對戰(zhàn)爭規(guī)律的全面剖析,《天工開物》是對民間手工技藝的詳細描繪,《君王論》是對王者之道的精辟論述,《國富論》是對經(jīng)濟規(guī)律的深刻揭示,《本草綱目》是對中藥知識的系統(tǒng)總結(jié),它們都是知識挖掘的結(jié)果;工業(yè)經(jīng)濟時代,科學技術(shù)不斷發(fā)展,現(xiàn)代管理推動整個社會不斷進步,知識的發(fā)掘為知識社會孕育了胚胎;知識經(jīng)濟時代,經(jīng)濟的基礎(chǔ)已從自然資源轉(zhuǎn)化為知識資源,知識成為最重要的資源,知識發(fā)掘成為最重要的生存發(fā)展手段。人類社會中知識活動的發(fā)展過程如表1所示:
縱觀人類發(fā)展的歷史,不難看出人類社會創(chuàng)造財富的歷史進程隨著知識發(fā)掘的水平而變化(見圖1)。在當今“信息爆炸”、“信息泛濫”的社會,一個國家、一個社會組織、一個自然人的知識發(fā)掘能力及其發(fā)揮狀況直接代表著自身的生產(chǎn)力水平,反映著自身財富積累的狀況和對人類貢獻的大小,決定著自身的生活方式和生活質(zhì)量,影響著自己的命運和前途。認識知識發(fā)掘的本質(zhì),提高知識發(fā)掘水平,增強知識發(fā)掘效率,是整個人類社會生存發(fā)展最基本的任務,重視研究知識發(fā)掘理論和實踐問題對于完成這一歷史重任有著重要的意義。
2 知識發(fā)掘的概念
20世紀80年代末,人們開始研究知識發(fā)現(xiàn)(Knowledge Discovery,KD)。知識發(fā)現(xiàn)是數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)的簡稱。1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合會議(International Joint Conferences onArtificial Intelligence)的專題討論會上首次出現(xiàn)KDD這個術(shù)語。隨后在1991年、1993年和1994年都舉行KDD專題討論會,隨著KDD在學術(shù)界和工業(yè)界的影響越來越大,KDD組委會于1995年把專題討論會更名為國際會議,同年在加拿大蒙特利爾市召開第一次KDD國際學術(shù)會議,以后每年召開一次。
1992年,F(xiàn)rawley w,Piatetsky-Shapiro G和Matheusc共同提出了知識發(fā)現(xiàn)的定義:“Knowledge discovery isthe nontrivial extraction of implicit,previously unknown,and potentially useful information from data.”隨后,Pia―tetsky-Shapiro G等人又把KDD的概念進行了完善,至今被廣泛引用:“Knowledge discovery in database is thenontrlvial process identifying valid,novel,potentially usefuI,and ultimately understandable patterns in data.”即數(shù)據(jù)庫中的知識發(fā)現(xiàn)是指從數(shù)據(jù)庫中獲取有效、新穎、有潛在應用價值并最終可理解的知識模式的非平凡過程。
為了解決使用率很低的問題,國內(nèi)外學者圍繞方法、應用等重點問題進行了一系列研究,如從經(jīng)典理論、概率論、模糊理論、可能性理論和證據(jù)理論等人手探索系統(tǒng)模型方法,研究應用系統(tǒng)的流程共性取得了令人矚目的進展。
雖然知識發(fā)現(xiàn)的研究受到前所未有的重視,但其應用還有很大的局限性。這不僅是知識發(fā)現(xiàn)技術(shù)還很不成熟的問題,更重要的可能是技術(shù)以外的問題。對于廣大的管理決策者、科學工作者和信息收集、加工、服務者來說,通過技術(shù)手段從數(shù)據(jù)庫中發(fā)現(xiàn)的“知識”,盡管它新穎、有潛在應用價值并能被理解,但它并不是真正意義的知識,一般只是“準知識”或“過渡性知識”而已。真正能解決問題并被人們廣泛接受的知識一般是數(shù)據(jù)庫內(nèi)與庫外、隱性與顯性、人腦與電腦(系統(tǒng))、信息與知識的互動、協(xié)調(diào)、統(tǒng)一、創(chuàng)造的結(jié)果。限于數(shù)據(jù)庫中的發(fā)現(xiàn),不可能克服數(shù)據(jù)庫自身存在的信息不全、信息不新、信息不準的問題,而知識挖掘要求信息源必須是真實的、大量的、適時的;不可能收集到隱性知識,而形成新的知識系統(tǒng),隱性知識可能比顯性知識更關(guān)鍵;不可能有效實現(xiàn)千差萬別的個性化服務問題,而知識服務必須個性化。當然,筆者不排除知識庫中知識發(fā)現(xiàn)的基礎(chǔ)性地位和重要作用,但它不能替代其他因素的作用,不能過分強調(diào)技術(shù)的功能。
為此,筆者將采用先進的和傳統(tǒng)的技術(shù)、方法和手段,對數(shù)據(jù)庫內(nèi)外的知識進行系統(tǒng)的分析、挖掘、發(fā)現(xiàn)和利用,稱之為知識發(fā)掘,以示與僅限于數(shù)據(jù)庫中的“知識發(fā)現(xiàn)”之間的區(qū)別,同時試圖強調(diào)其概念所包含的系統(tǒng)性、廣泛性、連續(xù)性和積極主動性,以求得更好的實際應用效果。需要特別說明的是,知識發(fā)掘不是由筆者首次提出來的,如張宗橙、李宏等專家學者在自己公開發(fā)表的文章中就提出過此類概念,筆者只是在這里突出其特定的內(nèi)涵、特征以及重要作用而已。
總之,知識發(fā)掘是擷取隱含、有用、未被發(fā)掘、有潛在價值的知識資源的一種過程。在實際運用中,這個過程需要運用信息組織與分析等發(fā)掘技術(shù)和傳統(tǒng)有效的分析方法,通過相關(guān)參與者的互動,來反復探索數(shù)據(jù)庫及其他相關(guān)的知識源,以發(fā)現(xiàn)新的、有用的規(guī)律,再經(jīng)過人們的解讀、完善、推介和連接,使發(fā)現(xiàn)的規(guī)律信息變成現(xiàn)實可用的知識。
知識發(fā)掘概念有以下要點:①發(fā)掘目的的有用性,把擷取有實際意義的知識作為一切工作的出發(fā)點和落腳點;②發(fā)掘源頭的廣泛性,重視有序的資源,也要重視無序的隱性的資源;③發(fā)掘手段的綜合性,要充分利用數(shù)據(jù)庫技術(shù)、人工智能、機器學習、神經(jīng)網(wǎng)絡、模式識別、歸納推理、統(tǒng)計分析等現(xiàn)代技術(shù)和手段,同時要利用有效的傳統(tǒng)方法;④發(fā)掘內(nèi)容的知識性,有新的價值提升,與發(fā)掘源頭的信息有質(zhì)的區(qū)別;⑤挖掘價值的潛在性,其價值是隱含、未知的,其表現(xiàn)形式可以是多樣性的;⑥應用方式的具體性,通過具體的人或組織實現(xiàn)其價值,具有個性化的特征。
3 酵論(ferment theOry)――“發(fā)掘什么”的思考
筆者將信息(知識)利用按照不同的層次分為大眾公益型信息利用、專門型信息利用和發(fā)掘型知識利用三個類型,各種類型的主要特征,如表2所示:
從表2中可以得知,知識發(fā)掘的目的全在于應用,能應用的成果一定含有實際價值,而價值主要體現(xiàn)在酵化功能上,經(jīng)過酵化的結(jié)果一定有新的質(zhì)變,這是知識發(fā)掘與一般的信息收集加工最本質(zhì)的區(qū)別。在這個問題上許多專家學者進行了有益的研究,做出了積極的貢獻,如和金生教授提出了知識發(fā)酵理論,建立了知識發(fā)酵模型等。
筆者把知識發(fā)掘出來的具有酵化功能的,能使一定對象信息(知識)結(jié)構(gòu)發(fā)生變化的知識資源稱作“信息酵”(Information Ferment,IF);把作用于一定對象在一定時間內(nèi)所固有的信息量與信息結(jié)構(gòu)的組合狀況稱作“信息基”(Information Base,IB)。這里,對發(fā)掘出來的結(jié)果主要強調(diào)以下要點:
?前提是具有酵化功能。如同做米酒所用的酒曲,它具有讓米飯發(fā)酵的功能。酵化功能主要體現(xiàn)在催化、分解和合成三個方面,其過程往往圍繞某一個具體的“策略”、“計劃”、“方案”集聚和連接。
?具有“專一性”特征。知識發(fā)掘的成果是從外界注入的,只有依托、服務于一定對象才能發(fā)揮功能,而作用于其他對象可能是完全不同的效果。
?產(chǎn)生酵化功能是有條件的。除知識發(fā)掘的成果自身原因外,還取決于一定對象接受“信息酵”的能力,同時還受到時間和場合等因素的限制。
?發(fā)掘知識利用過程實際就是“信息酵”影響“信息基”的過程。筆者將“信息酵”與“信息基”的作用關(guān)系采用以下方程式表示:I(b)+I(f)=K(b+f)。式中I(b)為一定對象的“信息基”;I(f)為注入一定對象的“信息酵”;K(b+f)為一定對象的“信息基”經(jīng)過酵化之后的新的信息(知識)體。
“信息酵”與“信息基”的作用過程如圖2所示:
筆者把以上關(guān)于“信息酵”的理論簡稱為“酵論”(ferment theory),它試圖從理論上回答知識發(fā)掘“發(fā)掘什么”的問題。
4 差論(deviatiOH theory)――“發(fā)掘范式”的思考
一般的產(chǎn)品和服務似乎都按照以滿足社會(用戶)需求為出發(fā)點和落腳點的運作范式展開,但對于知識發(fā)掘的工作范式,筆者認為不能簡單地照此行事。美國營銷學者派拉索拉曼等人在評估服務質(zhì)量上提出了“差距理論”(gap theory),該理論在實際應用中得到了良好的效果,它為研究知識發(fā)掘范式提供了有一定借鑒意義的新的思路。
人們在一定的信息環(huán)境中進行信息交流和利用,通過自己已掌握的知識對外部環(huán)境提供的各種信息進行消化吸收,產(chǎn)生新的認識,最后作出選擇、實施主張、施加影響,都是以符合本人的意愿為前提的。這種“合意”(subjective recognition)是信息利用的過程與結(jié)果,是通過信息利用產(chǎn)生新的認識、做出抉擇、實施行為的基本要件。也就是說,如果信息利用產(chǎn)生的結(jié)果違背了自己的意愿,那么這些決策和行為就暫時或一直不可能出現(xiàn)。因此,它是一種“憑著感覺走”的主觀過程,其工作范式筆者稱之為“信息利用主觀范式”(見圖3)。
但“合意”不是“合適”,“合意”總存在著諸多的客觀不適應,筆者把這種現(xiàn)象稱作“合意差”(infonnationdeviation)。“合意差”是指特定的對象在作出選擇、實施主張、施加影響之時,自己已經(jīng)掌握的信息量、信息結(jié)構(gòu)的狀況與自己所處的相關(guān)信息環(huán)境的真實狀態(tài)存在的差距。而這種實際存在的差距當事人往往不能察覺,特別是在“合意”強盛時視而不見,總習慣于以失真的感覺處理問題!昂弦獠睢本哂忻黠@的實效性,對“合意差”的自我認識總是滯后的,這種現(xiàn)象如果不及時進行調(diào)整,就有可能造成損失。
“合意差”具有客觀性、普遍性,這是由事物認識規(guī)律的實踐性所決定的?s小“合意差”是不能依賴一般的信息加工和利用來完成的,只有通過知識發(fā)掘,提供具有“酵化”的知識資源才能使其原有的信息結(jié)構(gòu)發(fā)生根本的改變?s小“合意差”為知識發(fā)掘指明了發(fā)展方向和工作重點,提供了廣闊的運作空間。從本質(zhì)上看,“發(fā)掘”就是尋找和解決差異,就是尋找和修補一般性環(huán)境之下的信息差異,就是尋找和縮小主觀合意與客觀實際不適的時空差異。
根據(jù)“合意差”定義,急切需要信息的當事人并不清楚自己真正需求的信息(知識),因此不可能按照信息利用主觀范式開展業(yè)務活動。要想求得實效,必須認識特定對象“信息基”,發(fā)現(xiàn)“合意差”,提供有針對性的知識(信息),使其“信息基”活化,形成新的活化體,并影響其行為。即新的路徑出發(fā)點是分析“信息基”,重點是發(fā)現(xiàn)“合意差”,落腳點是提供“信息酵”。筆者將以上理念以及工作重點、方式和途徑稱之為“發(fā)掘知識利用客觀范式”,如圖4所示:
筆者將上述有關(guān)“合意差”的理論簡稱“差論”(Deviation Theory),它對于建立知識發(fā)掘的客觀范式,提高知識發(fā)掘能力和知識利用水平有不可忽視的意義。
5 圈論(circle theory)――“發(fā)掘環(huán)境”的思考
知識發(fā)掘離不開一定的信息環(huán)境,只有發(fā)掘人與知識、信息環(huán)境在形式上達成一致,并且形成有序的循環(huán),才能長期生存發(fā)展下去。即在特定信息空間,由人、知識(信息)、信息環(huán)境彼此之間構(gòu)成一種均衡運動狀態(tài),其表現(xiàn)為人與信息環(huán)境之間以知識(信息)發(fā)掘和利用為紐帶、以共生共進為目標形成的一種對立相容、平衡互動的關(guān)系,是循序不斷、反復無窮的。筆者將這種循環(huán)格局稱為信息生態(tài)循環(huán)圈(circling ring0f information zoology),將其思想稱為“圈論”(circletheory)。信息圈是生態(tài)和社會發(fā)展的必然,也是哲學聯(lián)系和運動的產(chǎn)物,還是思辯和論證的結(jié)果。當今社會的每一個成員,包括所有的社會組織和自然人,都有自己的信息生態(tài)循環(huán)圈,而且這個“圈”的狀況決定著該社會成員的水平高低、能量大小、貢獻多少,決定著其生活方式、生活質(zhì)量和命運、前途。
信息生態(tài)循環(huán)圈具有自身的特點和規(guī)律:①循環(huán)的相關(guān)性。信息生態(tài)循環(huán)總是在一定的信息環(huán)境之中循環(huán),環(huán)境條件之間總是有著必然的和內(nèi)在的聯(lián)系,它們總是處在一定的介質(zhì)和界面上。②循環(huán)的互動性。信息生態(tài)循環(huán)總是處在彼此吸引、相互作用、雙方有利的互動過程中。③循環(huán)的連續(xù)性。信息生態(tài)循環(huán)總是連續(xù)不斷的進行,如果在某一個環(huán)節(jié)上脫節(jié),整個循環(huán)就會受到影響。④循環(huán)的周期性。信息生態(tài)循環(huán)總是按照一定的周期進行。⑤循環(huán)的封閉型。信息生態(tài)循環(huán)對社會來講是開放的,但其實際過程總是落實在具體的個體上,由這些個體的具體循環(huán)構(gòu)成整個社會有序的循環(huán)。
一個持續(xù)穩(wěn)定健康發(fā)展的信息生態(tài)循環(huán)圈必須以 業(yè)務支撐體、利益共同體、和諧關(guān)系體為基本支撐,三者緊密聯(lián)系,缺一不可。
?業(yè)務支撐體。這是信息生態(tài)循環(huán)圈的基礎(chǔ)和主體,它是具體的可操作的業(yè)務工作系統(tǒng),沒有具體業(yè)務支撐的信息循環(huán)是不存在的。知識發(fā)掘需要完整的技術(shù)支撐系統(tǒng),其系統(tǒng)的結(jié)構(gòu)狀況決定了其功能。一般而言,該系統(tǒng)包括三個層次:基于Web服務器的表示層(HTML、JSP)、服務層、數(shù)據(jù)存儲層。該系統(tǒng)必須采用先進的技術(shù),包括移動代理和多本體技術(shù),使其具備良好的語義性和智能性。要熟練地掌握、選擇和運用知識發(fā)掘工具和方法,包括傳統(tǒng)統(tǒng)計方法和模糊集(fuzzy 8et)方法、粗糙集(rough set)方法、決策樹方法、遺傳算法(genetic algorithm)、人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,ANN)方法、最鄰近技術(shù)、聯(lián)機分析處理(Online Analytical Processing,OLAP)、數(shù)據(jù)可視化(data visualization)等。
?利益共同體。它不是一個簡單的利益分配的問題,它是要讓大家看到共同的希望,讓大家為共同的目標盡到自己的職責,貢獻自己的力量;在此基礎(chǔ)上,建立一種利益共享運行機制。利益共同體是信息生態(tài)循環(huán)圈的核心內(nèi)容、本質(zhì)要求,是信息生態(tài)循環(huán)圈高效運行的動力,是檢驗運行結(jié)果的直接標準,是新一輪信息循環(huán)的起動器。共同利益必須建立在長遠利益的基礎(chǔ)上,它不是狹義的物質(zhì)利益。這種利益必須明確在事前,體現(xiàn)在事中,落實在事后,建立在公開透明、合理合法的基礎(chǔ)上。
?和諧關(guān)系體!叭恕笔歉星閯游铮椭C關(guān)系是生產(chǎn)力、是財富,和諧關(guān)系體是信息生態(tài)循環(huán)圈重要組成部分,是有形物質(zhì)的靈魂,建立和諧關(guān)系體符合“以人為本”的現(xiàn)實要求。和諧關(guān)系體貴在和諧,和諧必須建立在相互尊重的基礎(chǔ)之上,特別是提供知識產(chǎn)品和服務的人更要尊重用戶,真正做到“用戶至上”,把用戶視為自己的衣食父母。和諧關(guān)系體建立在誠實守信、交流溝通的基礎(chǔ)上,要講究職業(yè)道德,不斷改進工作態(tài)度及工作方法。
6 結(jié)語
本文從信息(知識)內(nèi)容工作者的角度分析了“知識發(fā)掘”的概念,站在理論的高度分析回答了知識發(fā)掘過程中“發(fā)掘什么”――“信息酵”;“發(fā)掘范式”――分析“信息基”、發(fā)現(xiàn)“合意差”,提供“信息酵”;“發(fā)掘環(huán)境”――建立“信息生態(tài)循環(huán)圈”等問題。以上研究是初步的、不成熟的,筆者希望得到同行和相關(guān)學者專家的幫助和指正,并一起研究相關(guān)問題。
相關(guān)熱詞搜索:理論研究 發(fā)掘 及其相關(guān) 知識發(fā)掘的概念及其相關(guān)理論研究 概念格的知識發(fā)現(xiàn)研究 中醫(yī)醫(yī)案中的知識發(fā)現(xiàn)研究
熱點文章閱讀