系統(tǒng)學(xué)習(xí)機(jī)器學(xué)習(xí)之弱監(jiān)督學(xué)習(xí)(一)--弱監(jiān)督學(xué)習(xí)綜述x
發(fā)布時(shí)間:2020-09-08 來源: 思想?yún)R報(bào) 點(diǎn)擊:
系統(tǒng)學(xué)習(xí)機(jī)器學(xué)習(xí)之弱監(jiān)督學(xué)習(xí)(一)-- 弱監(jiān)督學(xué)習(xí)綜述 摘要:監(jiān)督學(xué)習(xí)技術(shù)通過學(xué)習(xí)大量訓(xùn)練樣本來構(gòu)建預(yù)測(cè)模型,其中每個(gè)訓(xùn)練樣本都有一個(gè)標(biāo)簽標(biāo)明其真值輸出。盡管當(dāng)前的技術(shù)已經(jīng)取得了巨大的成功,但是值得注意的是,由于數(shù)據(jù)標(biāo)注過程的高成本,很多任務(wù)很難獲得如全部真值標(biāo)簽這樣的強(qiáng)監(jiān)督信息。因此,能夠使用弱監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)是可取的。本文綜述了弱監(jiān)督學(xué)習(xí)的一些研究進(jìn)展,主要關(guān)注三種弱監(jiān)督類型:不完全監(jiān)督:只有一部分訓(xùn)練數(shù)據(jù)具備標(biāo)簽;不確切監(jiān)督:訓(xùn)練數(shù)據(jù)只具備粗粒度標(biāo)簽;以及不準(zhǔn)確監(jiān)督:給出的標(biāo)簽并不總是真值。
機(jī)器學(xué)習(xí)在各種任務(wù)中取得了巨大成功,特別是在分類和回歸等監(jiān)督學(xué)習(xí)任務(wù)中。預(yù)測(cè)模型是從包含大量訓(xùn)練樣本的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí),每個(gè)訓(xùn)練樣本對(duì)應(yīng)一個(gè)事件或?qū)ο。?xùn)練樣本由兩部分組成:一個(gè)描述事件/對(duì)象的特征向量(或示例),以及一個(gè)表示真值輸出的標(biāo)簽。在分類任務(wù)中,標(biāo)簽表示訓(xùn)練樣本所屬的類別;在回歸任務(wù)中,標(biāo)簽是一個(gè)與樣本對(duì)應(yīng)的實(shí)數(shù)值。大多數(shù)成功的技術(shù),如深度學(xué)習(xí) [1],都需要含有真值標(biāo)簽的大規(guī)模訓(xùn)練數(shù)據(jù)集,然而,在許多任務(wù)中,由于數(shù)據(jù)標(biāo)注過程的成本極高,很難獲得強(qiáng)監(jiān)督信息。因此,研究者十分希望獲得能夠在弱監(jiān)督前提下工作的機(jī)器學(xué)習(xí)技巧。
通常來說,弱監(jiān)督可以分為三類。第一類是不完全監(jiān)督(incomplete supervision),即,只有訓(xùn)練集的一個(gè)(通常很小的)子集是有標(biāo)簽的,其他數(shù)據(jù)則沒有標(biāo)簽。這種情況發(fā)生在各類任務(wù)中。例如,在圖像分類任務(wù)中,真值標(biāo)簽由人類標(biāo)注者給出的。從互聯(lián)網(wǎng)上獲取巨量圖片很容易,然而考慮到標(biāo)記的人工成本,只有一個(gè)小子集的圖像能夠被標(biāo)注。第二類是不確切監(jiān)督(inexact 即,圖像只有粗粒度的標(biāo)簽。第三種是不準(zhǔn)確的監(jiān)督(inaccurate supervision),模型給出的標(biāo)簽不總是真值。出現(xiàn)這種情況的常見原因有,圖片標(biāo)注者不小心或比較疲倦,或者某些圖片就是難以分類。
弱監(jiān)督學(xué)習(xí)是一個(gè)總括性的術(shù)語,涵蓋了嘗試通過較弱的監(jiān)督來學(xué)習(xí)并構(gòu)建預(yù)測(cè)模型的各種研究。在本文中,我們將討論這一研究領(lǐng)域的一些進(jìn)展,重點(diǎn)放在以不完整、不確切和不準(zhǔn)確的監(jiān)督進(jìn)行學(xué)習(xí)的研究。我們將把不同類型的弱監(jiān)督分開,但值得一提的是,在實(shí)際操作中,幾種弱監(jiān)督經(jīng)常同時(shí)發(fā)生。為簡(jiǎn)單起見,在本文中我們以包含兩個(gè)可交換類 Y 和 N 的二元分類為例。形式化表達(dá)為,在強(qiáng)監(jiān)督學(xué)習(xí)條件下,監(jiān)督學(xué)習(xí)的任務(wù)是從訓(xùn)練數(shù)據(jù)集 D={(X1,y1),...(Xm,ym)}中學(xué)習(xí) f:x->y,其中 x 是特征空間,y={Y,N},xi∈x,以及 yi∈y。
我們假設(shè)(xi,yi)是根據(jù)未知的獨(dú)立同分布 D 生成的;換言之,(xi,yi)是 i.i.d. 樣本。
圖 1 提供了我們將在本文中討論的三種弱監(jiān)督類型的示例。
圖 1:三種典型的弱監(jiān)督類型的示例。長(zhǎng)條表示特征向量; 紅色/藍(lán)色標(biāo)記標(biāo)簽;「?」意味著標(biāo)簽可能不準(zhǔn)確。中間子圖描繪了一些混合類型弱監(jiān)督的情況。
不完全監(jiān)督 不完全監(jiān)督 不完全監(jiān)督考慮那些我們只擁有少量有標(biāo)注數(shù)據(jù)的情況,這些有標(biāo)注數(shù)據(jù)并不足以訓(xùn)練出好的模型,但是我們擁有大量未標(biāo)注數(shù)據(jù)可供使用。形式化表達(dá)為,模型的任務(wù)是從訓(xùn)練數(shù)據(jù)集 D={(X1,y1),...,(Xl,yl),Xl+1,...,Xm}中學(xué)習(xí) f:x->y,其中訓(xùn)練集中有 l 個(gè)有標(biāo)注訓(xùn)練樣本(即給出 yi 的樣本)和 u = m - l 個(gè)未標(biāo)注樣本;其他條件與具有強(qiáng)監(jiān)督的監(jiān)督學(xué)習(xí)相同,如摘要最后的定義。為便于討論,我們也將 l 個(gè)有標(biāo)注示例稱為「標(biāo)注數(shù)據(jù)」,將 u 個(gè)未標(biāo)注示例稱為「未標(biāo)注數(shù)據(jù)」。
能夠?qū)崿F(xiàn)此目標(biāo)的主要兩類技巧,即,主動(dòng)學(xué)習(xí) [2] 和半監(jiān)督學(xué)習(xí) [3-5]。
主動(dòng)學(xué)習(xí)假設(shè)存在一個(gè)「神諭」(oracle),比如一位人類專家,能夠向他查詢選定的未標(biāo)注示例的真值標(biāo)簽。
相比之下,半監(jiān)督式學(xué)習(xí)試圖在有標(biāo)注數(shù)據(jù)之外,自動(dòng)開發(fā)無標(biāo)注數(shù)據(jù)以提高學(xué)習(xí)效果,這個(gè)過程不需要人工干預(yù)。存在一種特殊的半監(jiān)督學(xué)習(xí),稱為直推式學(xué)習(xí)(transductive learning);直推式學(xué)習(xí)和(純)半監(jiān)督學(xué)習(xí)的主要區(qū)別在于,它們對(duì)測(cè)試數(shù)據(jù),即訓(xùn)練過的模型需要進(jìn)行預(yù)測(cè)的數(shù)據(jù),假設(shè)有所不同。直推式學(xué)習(xí)持有「封閉世界」假設(shè),即,測(cè)試數(shù)據(jù)是事先給出的、目標(biāo)是優(yōu)化測(cè)試數(shù)據(jù)的性能;換言之,未標(biāo)注數(shù)據(jù)正是測(cè)試數(shù)據(jù)。純半監(jiān)督式學(xué)習(xí)則持有「開放世界」假設(shè),即,測(cè)試數(shù)據(jù)是未知的,未標(biāo)注數(shù)據(jù)不一定是測(cè)試數(shù)據(jù)。圖 2 直觀地表示了主動(dòng)學(xué)習(xí)、(純)半監(jiān)督學(xué)習(xí)和直推式學(xué)習(xí)之間的差異。
圖 2:主動(dòng)學(xué)習(xí)、(純)半監(jiān)督學(xué)習(xí)和直推式學(xué)習(xí) 不確切監(jiān)督 不確切監(jiān)督 不確切監(jiān)督關(guān)注于給定了監(jiān)督信息,但信息不夠精確的場(chǎng)景。一個(gè)典型的場(chǎng)景是僅有粗粒度的標(biāo)簽信息可用。例如,在藥物活性預(yù)測(cè) [40] 的問題中,其目標(biāo)是建立一個(gè)模型學(xué)習(xí)已知分子的知識(shí),來預(yù)測(cè)一個(gè)新的分子是否適合制造一種特定藥物。一個(gè)分子可以有很多的低能量形狀,而這些分子是否能用于制藥取決于這些分子是否具有某些特殊的形狀。然而即使對(duì)于已知的分子,人類專家也僅知道該分子是否適合制藥,而不知道其中決定性的分子形狀是什么。
形式化表達(dá)為,該任務(wù)是從訓(xùn)練數(shù)據(jù)集 D={(X1,y1),...(Xm,ym)}中學(xué)習(xí) f:x->y,其中 Xi={xil,...,xi,mi}⊆X 被稱為一個(gè)包。xij∈x,是一個(gè)示例,m_i 是示例 X_i 的數(shù)量,yi∈y={Y,N}。
X_i 是一個(gè) positive 包,即 y_i=Y,如果存在 x_ip 是正的,同時(shí) p∈{1,...,mi}是未知的。其目標(biāo)是為未見過的包預(yù)測(cè)標(biāo)簽。該方法被稱為多示例學(xué)習(xí) [40,41]。
已經(jīng)有許多有效的算法被開發(fā)出來并應(yīng)用于多示例學(xué)習(xí)。實(shí)際上,幾乎所有的有監(jiān)督學(xué)習(xí)算法都有對(duì)等的多示例算法。大多數(shù)算法試圖調(diào)整單示例監(jiān)督學(xué)習(xí)算法,使其適配多示例表示,主要是將其關(guān)注點(diǎn)從對(duì)示例的識(shí)別轉(zhuǎn)移到對(duì)包的識(shí)別 [42];一些其他算法試圖通過表示變換,調(diào)整多示例表示使其適配單示例算法 [43,44]。還有一種類型 [45],將算法分為三類:一個(gè)整合了示例級(jí)響應(yīng)的示例空間范式,一個(gè)把 包 視作一個(gè)整體的 包 空間范式,以及一個(gè)在嵌入特征空間中進(jìn)行學(xué)習(xí)的嵌入空間范式中。請(qǐng)注意,這些示例通常被視為 i.i.d. 樣本,然而,[46] 表明,多示
例學(xué)習(xí)中的示例不應(yīng)該被認(rèn)為是獨(dú)立的,盡管這些包可以被視為 i.i.d. 樣本,并且已經(jīng)有一些有效的算法是基于此見解進(jìn)行開發(fā)的 [47]。
多示例學(xué)習(xí)已成功應(yīng)用于各種任務(wù),如圖像分類/檢索/注釋 [48-50],文本分類 [51,52],垃圾郵件檢測(cè) [53],醫(yī)學(xué)診斷 [54],面部/對(duì)象檢測(cè) [55,56],對(duì)象類別發(fā)現(xiàn) [57],對(duì)象跟蹤 [58] 等。在這些任務(wù)中,將真實(shí)對(duì)象(例如一幅圖像或一個(gè)文本文檔)視為一個(gè)包是很自然的。然而,不同于藥物活性預(yù)測(cè)這類包中包含天然示例(分子的各種形狀)的例子,需要為每個(gè)包生成示例。包生成器制定如何生成示例來構(gòu)成包。通常情況下,可以從圖像中提取許多小的圖像塊作為其示例,而章節(jié)/段落甚至句子可以用作文本文檔的示例。盡管包生成器對(duì)學(xué)習(xí)效果有重要影響,但最近才出現(xiàn)關(guān)于圖像包的全面研究 [59],研究揭示了一些簡(jiǎn)單的密集取樣包生成器比一些復(fù)雜的生成器性能更好。圖 5 顯示了兩個(gè)簡(jiǎn)單而有效的圖像包生成器。
圖 5 圖像包生成器。假設(shè)每張圖像的大小為 8×8,每個(gè)小塊的大小為 2×2。單小塊(SB)生成器將每個(gè)由 4 個(gè)小塊組成的圖像塊視為一個(gè)示例,通過不重疊地滑動(dòng)為每張圖像生成 16 個(gè)圖像示例。有鄰近的單小塊生成器(SBN)將由 20 個(gè)小塊組成的圖像塊作為一個(gè)示例,通過有重疊地滑動(dòng)來為圖像生成 9 個(gè)示例 多示例學(xué)習(xí)的初始目標(biāo)是為未見過的包預(yù)測(cè)標(biāo)簽;然而,已有研究嘗試識(shí)別那些之所以讓正包變正的關(guān)鍵示例(key instance)[31,60]。這在諸如沒有細(xì)粒度標(biāo)記訓(xùn)練數(shù)據(jù)的感興趣區(qū)域定位的任務(wù)中特別有用。值得注意的是,標(biāo)準(zhǔn)的多示例學(xué)習(xí) [40] 假定每一個(gè)正包必須包含一個(gè)關(guān)鍵示例,而還有其它研究假定不存在關(guān)鍵示例,每一個(gè)示例都對(duì)包標(biāo)簽有貢獻(xiàn) [61,62];甚至假定存在多個(gè)概念,而僅當(dāng)一個(gè)包包含滿足所有概念的示例時(shí),該包才是正的 [63]?梢栽谖墨I(xiàn) [41] 中找到更多的變體。
早期的理論結(jié)果 [64-66] 表明多示例學(xué)習(xí)對(duì)于包中每個(gè)示例都由不同的規(guī)則分類的異質(zhì)(heterogeneous)案例來說,是很難的,對(duì)于以相同的規(guī)則分類所有示例的同質(zhì)性(homogeneous)案例就是可學(xué)習(xí)的。幸運(yùn)的是,幾乎所有的實(shí)際多示例任務(wù)都屬于同質(zhì)性案例。這些分析假定 bag 中的示例是獨(dú)立的。而不假定示例的獨(dú)立性的分析更具挑戰(zhàn)性,這類研究也出現(xiàn)得較晚,其揭示了在同質(zhì)性類中,至少存在某些可以用包間的任意分布來學(xué)習(xí)的案例 [67]。盡管如此,與其在算法和應(yīng)用上的繁榮發(fā)展相反,多示例學(xué)習(xí)的理論研究成果非常少,因?yàn)榉治龅碾y度太大。
某些在包中任意分布的示例是可學(xué)習(xí)的 [67]。盡管如此,與在算法和應(yīng)用上的繁榮發(fā)展相反,多示例學(xué)習(xí)的理論研究成果非常少,因?yàn)榉治龅碾y度太大。
不準(zhǔn)確監(jiān)督 不準(zhǔn)確監(jiān)督 不準(zhǔn)確監(jiān)督關(guān)注于監(jiān)督信息不總是真值的場(chǎng)景,也就是說,有部分信息會(huì)出現(xiàn)錯(cuò)誤。其形式基本和引言最后部分的表示相同,除了訓(xùn)練數(shù)據(jù)集中的 y_i 可能是不準(zhǔn)確的。
一個(gè)典型的場(chǎng)景是在有標(biāo)簽噪聲的情況下進(jìn)行學(xué)習(xí) [68]。目前已有很多理論研究 [69-71],其中大多數(shù)假定存在隨機(jī)的分類噪聲,即標(biāo)簽受隨機(jī)噪聲影響。在實(shí)踐中,基本的思想是識(shí)別潛在的誤分類樣本 [72],然后嘗試進(jìn)行修正。例如,數(shù)據(jù)編輯(data-editing)方法 [73] 構(gòu)建了相對(duì)鄰域圖(relative neighborhood graph),其中每一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)訓(xùn)練樣本,而連接兩個(gè)不同標(biāo)簽的節(jié)點(diǎn)的邊被稱為切邊(cut edge)。然后,測(cè)量 一個(gè)切邊的權(quán)重統(tǒng)計(jì)量,直覺上,如果一個(gè)示例連接了太多的切邊,則該示例是可疑的?梢傻氖纠幢粍h除,要么被重新標(biāo)記,如圖 6 所示。值得注意的是,這種方法通常依賴于咨詢鄰域信息;由于當(dāng)數(shù)據(jù)很稀疏時(shí),鄰域識(shí)別將變得更不可靠,因此,在高維特征空間中該方法的可靠性將變?nèi)酢?/p>
圖 6:識(shí)別和刪除/重標(biāo)記可疑的數(shù)據(jù)點(diǎn) 近期出現(xiàn)的有趣的不準(zhǔn)確監(jiān)督的場(chǎng)景是眾包模式 [74],這是一種流行的將工作外包給個(gè)人的范式。對(duì)于機(jī)器學(xué)習(xí)來說,用眾包模式為訓(xùn)練數(shù)據(jù)收集標(biāo)簽是一種經(jīng)濟(jì)的方式。具體來說,未標(biāo)記的數(shù)據(jù)被外包給大量的工人來標(biāo)記。在著名的眾包系統(tǒng) Amazon Mechanical Turk 上,用戶可以提交一項(xiàng)任務(wù),例如將圖片標(biāo)注為「樹」或「非樹」,然后職工完成工作以獲取少量報(bào)酬。通常這些工人來自世界各地,每個(gè)人都可以執(zhí)行多個(gè)任務(wù)。這些職工通;ハ嗒(dú)立,報(bào)酬不高,并通過自己的判斷標(biāo)記數(shù)據(jù)。這些職工的標(biāo)記質(zhì)量參差不齊,但標(biāo)記質(zhì)量信息對(duì)于用戶來說是不可見的,因?yàn)楣と说纳矸菔潜C艿。在這些職工中可能存在「垃圾制造者」,幾乎用隨機(jī)的標(biāo)簽來標(biāo)記數(shù)據(jù)(例如,用機(jī)器替代人類賺取報(bào)酬),或「反抗者」,故意給出錯(cuò)誤的標(biāo)簽。此外,某些任務(wù)可能對(duì)一些人來說太難而無法完成。使用眾包返回的不準(zhǔn)確監(jiān)督信息來保證學(xué)習(xí)性能是非常困難的。
很多研究嘗試用眾包標(biāo)簽推斷真值標(biāo)簽。多數(shù)人投票策略得到了集成方法 [35] 的理論支持,在實(shí)踐中得到了廣泛使用并有很好的表現(xiàn) [75,76],因此通常作為基線標(biāo)準(zhǔn)。如果預(yù)期可以對(duì)工人質(zhì)量和任務(wù)難度建模,那么通過為不同的工人在不同的任務(wù)上設(shè)置權(quán)重,則可以獲得更好的效果。為此,一些方法嘗試構(gòu)建概率模型然后使用 EM 算法進(jìn)行評(píng)估 [77,78]。人們也使用了極小極大熵方法 [35]。概率模型可以用于移除垃圾制造者 [79]。近期人們給出了移除低質(zhì)量工人的一般理論條件 [80]。
在機(jī)器學(xué)習(xí)中,眾包通常用于收集標(biāo)簽,在實(shí)踐中,模型的最終性能,而不是這些標(biāo)簽的質(zhì)量,才是更重要的。目前已有很多關(guān)于從低能老師和眾包標(biāo)簽學(xué)習(xí)的研究 [81,82],這和用帶噪聲標(biāo)簽學(xué)習(xí)是很接近的。但其中的區(qū)別在于,對(duì)于眾包設(shè)定而言,人們可以方便地、重復(fù)地對(duì)某個(gè)示例提取眾包標(biāo)簽。因此,在眾包數(shù)據(jù)學(xué)習(xí)中,考慮經(jīng)濟(jì)性和最小化眾包標(biāo)簽的充分?jǐn)?shù)量是很重要的,即有效眾包學(xué)習(xí)的最小代價(jià) [83]。很多研究專注于任務(wù)分配和預(yù)算分配,嘗試在準(zhǔn)確率和標(biāo)注開銷之間取得平衡。為此,非適應(yīng)性的任務(wù)分配機(jī)制(離線分配任務(wù) [84,85])和適應(yīng)性機(jī)制(在線分配任務(wù) [86,87])都得到了在理論支持下的研究。需要注意的是,多數(shù)研究采用了 Dawid–Skene 模型 [88],其假設(shè)不同任務(wù)的潛在成本是相同的,而沒有探索更復(fù)雜的成本設(shè)置。
設(shè)計(jì)一個(gè)有效的眾包協(xié)議也是很重要的。在文獻(xiàn) [89] 中提供了「不確定」選項(xiàng),從而使工人在不確定的時(shí)候不被迫使給出確定的標(biāo)簽。該選項(xiàng)可以幫助標(biāo)記的可靠性獲得有理論支持 [90] 的提升。在文獻(xiàn) [91] 中提出了一種「double or nothing」的激勵(lì)兼容機(jī)制,以確保工人能提供基于其自己的信心的標(biāo)注,誠(chéng)實(shí)地工作。在假定每位工人都希望最大化他們的報(bào)酬的前提下,該協(xié)議被證實(shí)可以避免垃圾制造者的出現(xiàn)。
結(jié)論 結(jié)論
監(jiān)督學(xué)習(xí)技術(shù)在具備強(qiáng)監(jiān)督信息(如大量具備真值標(biāo)簽的訓(xùn)練樣本)的情況中取得了很大成功。然而,在實(shí)際任務(wù)中,收集監(jiān)督信息需要大量成本,因此,使用弱監(jiān)督學(xué)習(xí)通常是更好的方式。
本文主要介紹三種典型的弱監(jiān)督:不完全、不確切和不準(zhǔn)確監(jiān)督。盡管三者可以分開討論,但是實(shí)踐中它們通常同時(shí)出現(xiàn),如圖 1 所示,以往研究中也討論過此類「混合」案例 [52,92,93]。此外,還存在其他類型的弱監(jiān)督。例如,主要通過強(qiáng)化學(xué)習(xí)方法解決 [94] 的延時(shí)監(jiān)督也屬于弱監(jiān)督。由于篇幅限制,本文實(shí)際上扮演了更多文獻(xiàn)索引而非文獻(xiàn)綜述的角色。對(duì)細(xì)節(jié)感興趣的讀者請(qǐng)閱讀對(duì)應(yīng)參考文獻(xiàn)。近期越來越多的研究者關(guān)注弱監(jiān)督學(xué)習(xí),如部分監(jiān)督學(xué)習(xí)主要關(guān)注不完全監(jiān)督學(xué)習(xí) [95],同時(shí)也有很多關(guān)于弱監(jiān)督的其他討論 [96,97]。
為了簡(jiǎn)化討論,本文主要關(guān)注二分類,盡管大部分討論經(jīng)過稍微改動(dòng)就可以擴(kuò)展到多類別或回歸學(xué)習(xí)。注意,多類別任務(wù)中可能會(huì)出現(xiàn)更復(fù)雜的情景 [98]。如果考慮到多標(biāo)簽學(xué)習(xí) [99],即每個(gè)樣本同時(shí)關(guān)聯(lián)到多個(gè)標(biāo)簽的任務(wù),則情況更加復(fù)雜。以不完全監(jiān)督為例,除了標(biāo)注/非標(biāo)注示例以外,多標(biāo)簽任務(wù)可能遇到部分標(biāo)注示例,即訓(xùn)練示例中,只有部分標(biāo)簽是真值 [100]。即使只考慮標(biāo)注/未標(biāo)注數(shù)據(jù),其設(shè)計(jì)選項(xiàng)也比單標(biāo)簽設(shè)置多。如對(duì)于積極學(xué)習(xí)而言,給出一個(gè)非標(biāo)注示例,在多標(biāo)簽任務(wù)中可以要求給出該示例的所有標(biāo)簽 [101]、特定標(biāo)簽 [102],或一對(duì)標(biāo)簽的相關(guān)性排序 [103]。然而,不管是哪種數(shù)據(jù)和任務(wù),弱監(jiān)督學(xué)習(xí)都變得越來越重要。
相關(guān)熱詞搜索:學(xué)習(xí) 監(jiān)督 綜述
熱點(diǎn)文章閱讀