[物體識(shí)別中的視點(diǎn)問(wèn)題] 物體識(shí)別
發(fā)布時(shí)間:2020-03-03 來(lái)源: 感恩親情 點(diǎn)擊:
摘要 視點(diǎn)問(wèn)題是物體識(shí)別研究中的熱點(diǎn)問(wèn)題。文章回顧了兩個(gè)主要的物體識(shí)別理論:結(jié)構(gòu)描述模型和基于圖像的模型,前者認(rèn)為物體識(shí)別是視點(diǎn)獨(dú)立的(viewpoint-invariant),后者認(rèn)為物體識(shí)別是視點(diǎn)依賴的(viewpoint-dependent)。在介紹了物體識(shí)別領(lǐng)域的一些最新研究進(jìn)展和分析了當(dāng)前研究存在的問(wèn)題之后,文章進(jìn)一步探討解決視點(diǎn)爭(zhēng)論的可能的途徑: 完善現(xiàn)存的物體心理表征模型。
關(guān)鍵詞 物體識(shí)別,視點(diǎn),表征。
分類(lèi)號(hào) B842
1 引言
物體識(shí)別是人類(lèi)日常生活中必需的一種能力。人類(lèi)的適應(yīng)性活動(dòng)如尋找食物、繞過(guò)障礙物等等,都要有物體識(shí)別的參與才能正常進(jìn)行。外部世界的三維物體投射到觀察者視網(wǎng)膜上形成二維圖像,由視覺(jué)系統(tǒng)對(duì)其進(jìn)行加工得到物體映像,并將物體映像與記憶中該物體的心理表征進(jìn)行匹配。當(dāng)物體映像能與其心理表征相匹配時(shí),物體識(shí)別就得以實(shí)現(xiàn)。
物體識(shí)別過(guò)程中存在著物體恒常(object constancy)現(xiàn)象[1]:即當(dāng)觀察者的視點(diǎn)(viewpoint)發(fā)生變化時(shí),雖然落在視網(wǎng)膜上的物體的幾何形狀和表面特征會(huì)發(fā)生相應(yīng)的變化,但觀察者仍然能夠識(shí)別出物體。視覺(jué)系統(tǒng)如何適應(yīng)這種視點(diǎn)的變化而實(shí)現(xiàn)物體恒常?這就是所謂的“視點(diǎn)問(wèn)題”。
視點(diǎn)問(wèn)題處于物體識(shí)別這個(gè)功能體系中的核心位置,它的解決,既有助于揭示物體的識(shí)別過(guò)程和學(xué)習(xí)過(guò)程(即在人類(lèi)識(shí)別時(shí),陌生物體逐漸變?yōu)槭煜の矬w的過(guò)程,物體心理表征變化的過(guò)程),又有助于解釋類(lèi)別識(shí)別現(xiàn)象(即物體識(shí)別是分類(lèi)別水平的,人類(lèi)可以從多個(gè)類(lèi)別水平對(duì)物體進(jìn)行識(shí)別。這是物體識(shí)別的又一大熱點(diǎn)問(wèn)題)。
解決視點(diǎn)問(wèn)題的關(guān)鍵在于確定物體的心理表征,研究者們對(duì)其具體形式一直進(jìn)行著激烈爭(zhēng)論[2~9]。研究初期,爭(zhēng)論的焦點(diǎn)集中于物體識(shí)別的坐標(biāo)系[10]。Marr認(rèn)為在物體識(shí)別的初期,視覺(jué)加工形成的物體映像是建立在以觀察者為中心的坐標(biāo)系中的;但在物體識(shí)別的最后階段,物體映像的坐標(biāo)系要轉(zhuǎn)換為以物體為中心的坐標(biāo)系。最后形成的對(duì)物體的描述與視點(diǎn)無(wú)關(guān)[11]。而Ullman認(rèn)為,物體映像是建立在以觀察者為中心的坐標(biāo)系中的[12]。由于用實(shí)驗(yàn)的方法研究坐標(biāo)系問(wèn)題比較困難,后來(lái)爭(zhēng)論的焦點(diǎn)轉(zhuǎn)移到物體識(shí)別是視點(diǎn)獨(dú)立的還是視點(diǎn)依賴的問(wèn)題上[10]。Biederman和Gerhardstein認(rèn)為物體識(shí)別是視點(diǎn)獨(dú)立的,視點(diǎn)變化不會(huì)影響識(shí)別績(jī)效[2]。而Hayward和Tarr認(rèn)為物體識(shí)別是視點(diǎn)依賴的,視點(diǎn)變化會(huì)影響識(shí)別績(jī)效,不同視點(diǎn)的識(shí)別績(jī)效是不同的[9]。
2 物體識(shí)別模型及它們對(duì)視點(diǎn)問(wèn)題的看法
視點(diǎn)問(wèn)題產(chǎn)生爭(zhēng)論的根本原因是研究者對(duì)物體的心理表征有不同的看法。當(dāng)前兩個(gè)主要的物體識(shí)別模型是視點(diǎn)獨(dú)立的結(jié)構(gòu)描述模型(structural description model)和視點(diǎn)依賴的基于圖像的模型(image-based model)。
2.1結(jié)構(gòu)描述模型
結(jié)構(gòu)描述模型認(rèn)為物體識(shí)別的任務(wù)是從二維圖像中重建三維物體描述。
Marr的視覺(jué)計(jì)算理論[11,13]是結(jié)構(gòu)描述模型的基礎(chǔ)。視覺(jué)計(jì)算理論認(rèn)為,物體識(shí)別是一個(gè)從簡(jiǎn)單的局部特征描述到復(fù)雜的三維物體描述的層次加工過(guò)程。物體識(shí)別開(kāi)始于投射在視網(wǎng)膜上的二維圖像。視覺(jué)系統(tǒng)對(duì)圖像中強(qiáng)度不連續(xù)點(diǎn)的強(qiáng)度變化進(jìn)行加工,得到零交叉片斷(zero-crossing segment),進(jìn)而逐步構(gòu)建出線段、輪廓、表面(2D)。Marr假設(shè)從2D到3D的加工過(guò)程中,存在一個(gè)二維半(2.5D)的階段,在這個(gè)階段中形成了由物體可見(jiàn)部分的表面加上局部朝向和深度構(gòu)成的一個(gè)表征,建立在以觀察者為中心的坐標(biāo)系中。視覺(jué)系統(tǒng)加工這個(gè)表征,得到三維物體描述。三維物體描述是由三維基元構(gòu)成的分層次的描述,建立在以物體為中心的坐標(biāo)系中,且在二維圖像變化時(shí)相對(duì)穩(wěn)定[11,13]。
Biederman在Marr視覺(jué)計(jì)算理論的基礎(chǔ)上,提出了部件認(rèn)知理論(Recognition-by-Components,簡(jiǎn)稱(chēng)為“RBC”),認(rèn)為物體由三維部件組成[14]。物體識(shí)別從二維圖像中物體邊界提取開(kāi)始,之后同時(shí)檢測(cè)圖像邊界的基本特征(nonaccidental properties)和從凹狀區(qū)域分割圖像。由被分割區(qū)域的基本特征確定部件,這種組成物體的部件被稱(chēng)為幾何離子(“geometrical ion”,簡(jiǎn)稱(chēng)為“geon”)。視覺(jué)系統(tǒng)根據(jù)幾何離子和它們之間的關(guān)系對(duì)三維物體進(jìn)行描述。決定物體部件的五個(gè)基本特征(彎曲、共線、對(duì)稱(chēng)、平行、連接)在視點(diǎn)變化的情況下保持不變,保證了新異視點(diǎn)下的物體識(shí)別也能正常進(jìn)行[14]。
Biederman和Gerhardstein進(jìn)一步的研究提出了幾何離子結(jié)構(gòu)描述模型(geon structural description,簡(jiǎn)稱(chēng)為“GSD”),認(rèn)為視覺(jué)系統(tǒng)是通過(guò)描述幾何離子和它們之間的關(guān)系來(lái)表征三維物體的[2]。根據(jù)GSD模型,如果滿足以下三個(gè)條件,則物體識(shí)別與視點(diǎn)無(wú)關(guān):
(1)物體可以分解成幾何離子,以便用GSD進(jìn)行描述;
。2)每個(gè)物體的GSD是獨(dú)特的,不同物體的GSD是不同的;
(3)從同一物體的兩個(gè)圖像可以得到相同的GSD[2]。
Biederman和Gerhardstein進(jìn)行了熟悉物體的命名啟動(dòng)實(shí)驗(yàn)、幾何離子的系列匹配實(shí)驗(yàn)和新異物體的異同判斷實(shí)驗(yàn)[2]。實(shí)驗(yàn)結(jié)果支持了視點(diǎn)獨(dú)立的三個(gè)條件。同時(shí)他們認(rèn)為,識(shí)別的視點(diǎn)依賴現(xiàn)象其實(shí)是非識(shí)別系統(tǒng)(nonrecognition systems)產(chǎn)生的[2]。這里的非識(shí)別系統(tǒng)指的是視覺(jué)系統(tǒng)的背側(cè)通路系統(tǒng)(dorsal systems)[2]。
2.2 基于圖像的模型
Tarr和Vuong提出,輸入圖像需先經(jīng)過(guò)標(biāo)準(zhǔn)化(normalize)加工,然后再與心理表征進(jìn)行匹配,標(biāo)準(zhǔn)化機(jī)制可以分為四類(lèi)[15]:Ullman的校正模型( alignment model)[12]、Tarr和Pinker的心理轉(zhuǎn)換模型(mental transformation model)[5]、Bülthoff和Edelman的視圖插值模型(view-interpolation model)[8]以及Perrett等人的證據(jù)累積模型(evidence accumulation model)[16]。校正模型認(rèn)為可以把輸入圖像校正為記憶中的單一典型(canonical)圖像進(jìn)行識(shí)別[12]。Tarr認(rèn)為識(shí)別績(jī)效隨輸入圖像與典型圖像的差距變化而變化[6]。因?yàn)閱我粓D像不能充分描述三維物體,Tarr和Pinker提出多視圖模型(multiple-views-plus-transformation),認(rèn)為物體可以用一系列熟悉視點(diǎn)的圖像(“views”,稱(chēng)為“視圖”)進(jìn)行表征,每個(gè)視圖描述了不同的特殊視點(diǎn)的物體表征[5]。輸入圖像可以直接與這些視圖進(jìn)行匹配;當(dāng)輸入圖像在記憶中沒(méi)有對(duì)應(yīng)的視圖時(shí),通過(guò)心理轉(zhuǎn)換機(jī)制(mental transformation),與最接近的熟悉視圖進(jìn)行匹配[5]。視圖插值模型認(rèn)為通過(guò)視圖插值的方法可以更好地完成輸入圖像與多視圖表征的匹配[8]。Perrett等人認(rèn)為,基于圖像的表征由一些特定視點(diǎn)下的局部圖像特征(顏色、形狀、紋理等)構(gòu)成,物體深度旋轉(zhuǎn)和照明方向等條件的改變會(huì)影響局部特征值而產(chǎn)生不同的圖像描述[16]。物體識(shí)別速度取決于視覺(jué)系統(tǒng)神經(jīng)元活動(dòng)的累計(jì)率(the rate of accumulation):不熟悉視圖激活的神經(jīng)元數(shù)量少,需要更長(zhǎng)的時(shí)間以提供充分的視覺(jué)輸入。當(dāng)神經(jīng)活動(dòng)超過(guò)一個(gè)特定的閾限時(shí),識(shí)別就可以實(shí)現(xiàn),不需要比較視圖間的相似程度,也不需要心理轉(zhuǎn)換機(jī)制的參與[16]。
上面四種基于圖像的物體識(shí)別模型中,Tarr和Pinker的多視圖模型是占主導(dǎo)地位的,并在與Biederman等人的結(jié)構(gòu)描述模型的爭(zhēng)論中得到了發(fā)展。
Tarr和Bülthoff認(rèn)為[7] Biederman和Gerhardstein提出的視點(diǎn)獨(dú)立的識(shí)別機(jī)制[2]缺乏普遍性,只能在有限的視點(diǎn)情況下起作用,不能完整地解釋物體識(shí)別現(xiàn)象;且視點(diǎn)依賴的識(shí)別現(xiàn)象,也不能用非識(shí)別系統(tǒng)進(jìn)行解釋。他們解釋了視點(diǎn)依賴的識(shí)別績(jī)效:當(dāng)輸入圖像與記憶中存儲(chǔ)的視圖不能匹配時(shí),需要轉(zhuǎn)換到最接近的熟悉視點(diǎn)的視圖,識(shí)別時(shí)間和正確率隨著心理轉(zhuǎn)換的程度變化而變化;而當(dāng)輸入圖像與熟悉視點(diǎn)的視圖可以匹配時(shí),物體識(shí)別績(jī)效沒(méi)有差別,與視點(diǎn)無(wú)關(guān)。他們還提到,1981年P(guān)almer等人證明大多數(shù)普通物體都有一個(gè)典型視圖(“canonical” view),識(shí)別績(jī)效在物體處于典型視圖時(shí)最高,并隨著和典型視圖的差距增加而下降。Tarr和Bülthoff認(rèn)為典型視圖現(xiàn)象和多視圖模型是一致的[7]。Tarr的四個(gè)實(shí)驗(yàn)研究[6]支持了上述觀點(diǎn)。
Hayward和Tarr進(jìn)一步的研究[9],在命名實(shí)驗(yàn)和異同判斷實(shí)驗(yàn)中采用類(lèi)似Biederman和Gerhardstein研究中的實(shí)驗(yàn)材料[2](幾何離子狀單組分物體和多組分物體),通過(guò)操縱幾何離子的兩種視點(diǎn)變化――劇烈的質(zhì)的變化(qualitative)和平緩的量的變化(quantitative),發(fā)現(xiàn)質(zhì)的變化的識(shí)別績(jī)效比量的變化下降得更快,在符合Biederman和Gerhardstein提出的視點(diǎn)獨(dú)立三個(gè)條件的情況下,物體識(shí)別仍然表現(xiàn)出視點(diǎn)依賴性。他們認(rèn)為,識(shí)別績(jī)效不僅跟視點(diǎn)變化的角度有關(guān),而且與圖像幾何特征的變化有關(guān);實(shí)驗(yàn)中物體識(shí)別受到影響,是質(zhì)的變化改變了圖像中的特征造成的,而不是GSD變化造成的[9]。
3 物體識(shí)別理論的最新發(fā)展
對(duì)于視點(diǎn)問(wèn)題,研究者一直爭(zhēng)論不休,他們的模型也不斷得到完善發(fā)展,如Wong和Hayward對(duì)視圖整合(view combination)進(jìn)行了研究[17],Ullman和Bart認(rèn)為可以利用延伸性特征實(shí)現(xiàn)視點(diǎn)獨(dú)立的物體識(shí)別[18]。但他們的模型都不能獨(dú)立完整地解釋物體識(shí)別現(xiàn)象。當(dāng)前主要的兩個(gè)模型(結(jié)構(gòu)描述模型和基于圖像的模型)有融合的趨勢(shì)。
Tarr和Bülthoff認(rèn)為結(jié)構(gòu)描述模型和基于圖像的模型各有長(zhǎng)處,但都存在問(wèn)題,未來(lái)的識(shí)別模型應(yīng)該是兩者的整合。未來(lái)的模型必須滿足以下條件:第一,在視點(diǎn)依賴性的問(wèn)題上,必須能同時(shí)解釋視點(diǎn)獨(dú)立和視點(diǎn)依賴的識(shí)別現(xiàn)象;第二,能說(shuō)明物體心理表征是如何支持多類(lèi)別水平識(shí)別的;第三,必須充分靈活,以適應(yīng)不同的物體類(lèi)別經(jīng)驗(yàn);第四,識(shí)別任務(wù)的績(jī)效是以下因素交互影響的結(jié)果:刺激類(lèi)別的同質(zhì)性(homogeneity of the stimulus class)、分類(lèi)水平(categorical level)和經(jīng)驗(yàn)水平(level of expertise),研究必須同時(shí)考慮這些因素[19]。
基于整合兩個(gè)物體識(shí)別模型的考慮,研究者們進(jìn)行了多方面的研究。
結(jié)構(gòu)描述模型使用了物體的3D結(jié)構(gòu)信息,基于圖像的模型使用了特殊視點(diǎn)下的物體表面信息(視圖信息)。多個(gè)研究表明,結(jié)構(gòu)信息和視圖信息在物體識(shí)別中都起作用[20,21]。Foster和Gilson提出的模型整合了結(jié)構(gòu)信息和視圖信息。他們采用一個(gè)整合了結(jié)構(gòu)信息和視圖信息的實(shí)驗(yàn)材料,進(jìn)行同時(shí)匹配實(shí)驗(yàn),發(fā)現(xiàn)結(jié)構(gòu)信息和視圖信息的加工是相互獨(dú)立的。他們認(rèn)為視覺(jué)系統(tǒng)通過(guò)整合這兩種信息完成物體識(shí)別[22]。
Newell等人提出物體部件的形狀信息和位置信息在物體識(shí)別中起重要作用,認(rèn)為視覺(jué)物體加工存在一個(gè)“what+where”表征階段,在這個(gè)階段中物體部件的形狀(what)和位置(where)被聯(lián)合表征[23]。
Tanaka等人研究了顏色在高級(jí)視覺(jué)中的作用,提出顏色與形狀一樣,對(duì)物體識(shí)別有重要作用,并提出形狀加表面(Shape+Surface)的識(shí)別模型[24]。Rossion和Pourtois的研究[25]也支持了這個(gè)模型。
生理機(jī)制方面的研究也支持了兩個(gè)識(shí)別模型整合的構(gòu)想。Vuilleumier等人通過(guò)事件相關(guān)功能磁共振成像技術(shù)(event-related fMRI)研究了人類(lèi)物體識(shí)別的視覺(jué)神經(jīng)機(jī)制,他們認(rèn)為在腹側(cè)視覺(jué)皮層(ventral visual cortex)中同時(shí)存在著視點(diǎn)依賴和視點(diǎn)獨(dú)立的物體表征[26]。
4 視點(diǎn)問(wèn)題研究的不足和前景展望
正如前面提到的,多年來(lái),研究者們?cè)谖矬w識(shí)別領(lǐng)域做了大量卓有成效的工作,他們提出的模型已經(jīng)建構(gòu)了物體識(shí)別的整體框架,并能合理說(shuō)明許多物體識(shí)別現(xiàn)象。但在物體識(shí)別的很多方面,他們的模型都存在異議,且不能完整說(shuō)明物體識(shí)別現(xiàn)象。尤其是其中的視點(diǎn)問(wèn)題,他們的研究結(jié)果存在很大差異,有些甚至是完全相反的。
引起視點(diǎn)問(wèn)題爭(zhēng)論可能有以下幾個(gè)原因:
首先,他們的研究存在差異和爭(zhēng)論的最大原因,可能是提出的識(shí)別模型本身是片面的,不能完整反映物體識(shí)別過(guò)程。多個(gè)研究已表明,結(jié)構(gòu)信息和視圖信息對(duì)物體識(shí)別都起作用,結(jié)構(gòu)描述模型很好地描述了3D結(jié)構(gòu)信息,基于圖像的模型更多地表現(xiàn)了物體視圖信息[20~22]。它們都沒(méi)有全面表現(xiàn)物體信息。已經(jīng)有研究者注意到這個(gè)問(wèn)題,并提出了修正模型。Tarr提出,因?yàn)閷?shí)驗(yàn)任務(wù)和具體情景的不同,物體識(shí)別不能由單一的識(shí)別機(jī)制進(jìn)行解釋?zhuān)瑧?yīng)該有兩個(gè)或更多的識(shí)別機(jī)制同時(shí)存在[6]。物體識(shí)別機(jī)制被假想為一個(gè)連續(xù)體,在連續(xù)體的兩端分別是視點(diǎn)依賴機(jī)制和視點(diǎn)獨(dú)立機(jī)制(如“GSD模型”)。物體識(shí)別根據(jù)不同的任務(wù)和情景,在連續(xù)體中選擇不同的識(shí)別機(jī)制[6]。Tarr的連續(xù)體模型對(duì)物體識(shí)別研究的發(fā)展提出了新的思路。但對(duì)于兩個(gè)機(jī)制對(duì)物體識(shí)別起作用的具體情況,沒(méi)有進(jìn)行詳細(xì)說(shuō)明;對(duì)于兩個(gè)機(jī)制共存時(shí)物體的心理表征形式,也沒(méi)有明確說(shuō)明;趯(duì)模型本身的考慮,我們認(rèn)為,從物體心理表征角度進(jìn)行研究,也許可以更好地說(shuō)明物體識(shí)別現(xiàn)象。視點(diǎn)問(wèn)題之爭(zhēng),就是因?yàn)闋?zhēng)論雙方對(duì)物體心理表征有不同看法,導(dǎo)致了他們提出的識(shí)別模型的不同。所以只有提出一個(gè)合理完善的心理表征,才能建立一個(gè)完整的識(shí)別模型,從而對(duì)物體識(shí)別的心理機(jī)制做出合理解釋。Stankiewicz也認(rèn)為視點(diǎn)問(wèn)題研究遇到困難的原因是,沒(méi)有弄清楚物體的心理表征[27]。
其次,實(shí)驗(yàn)材料的選取不當(dāng),會(huì)對(duì)物體識(shí)別研究產(chǎn)生影響。研究中經(jīng)常會(huì)用到熟悉物和新異物。所謂熟悉物,就是人們?nèi)粘I钪锌梢砸?jiàn)到的物體;所謂新異物,就是日常生活中沒(méi)有的物體,大多是實(shí)驗(yàn)者重新構(gòu)造出來(lái)的。當(dāng)使用熟悉物時(shí),不同被試對(duì)不同物體的熟悉程度是不同的。Biederman和Gerhardstein在1993年的關(guān)鍵文章中[2],采用了熟悉物作為實(shí)驗(yàn)材料。物體的熟悉程度受被試的日常經(jīng)驗(yàn)影響,具有個(gè)體差異;而且它是一個(gè)模糊的,不易精確測(cè)量的概念。熟悉程度會(huì)影響實(shí)驗(yàn)績(jī)效,但在研究中沒(méi)有被精確控制,所以實(shí)驗(yàn)效度必然會(huì)受到影響。他們以此結(jié)果來(lái)說(shuō)明熟悉物體的識(shí)別過(guò)程是不夠嚴(yán)謹(jǐn)?shù)摹.?dāng)使用新異物時(shí),又可以分為兩種情況,一種是由我們?nèi)粘J煜さ膸缀误w組合成的新異物(如Biederman和Gerhardstein的1993年文章中實(shí)驗(yàn)3和實(shí)驗(yàn)5的情況[2]),一種是人造的變形蟲(chóng)狀的物體(amoeba-like)[28]。第一種新異物雖然日常生活中沒(méi)有,但對(duì)其組成部分人們是熟悉的;第二種新異物是完全不熟悉的。這兩種物體的識(shí)別情況應(yīng)該是有差別的,不能混為一談來(lái)說(shuō)明新異物的識(shí)別。在今后的實(shí)驗(yàn)研究中,必須明確分清物體的熟悉情況,并有效操控它,才能準(zhǔn)確說(shuō)明物體識(shí)別心理機(jī)制。
再次,實(shí)驗(yàn)操控問(wèn)題也會(huì)引起爭(zhēng)論。視點(diǎn)研究常用的實(shí)驗(yàn)范式是異同判斷,即首先呈現(xiàn)一幅物體圖像,然后是掩蔽,再呈現(xiàn)一幅物體圖像,最后還是掩蔽,要求被試判斷先后呈現(xiàn)的兩副圖像中的物體是否是同一物體,后面呈現(xiàn)的圖像中的物體通常是前一幅圖像中的物體在深度上旋轉(zhuǎn)一定的角度所產(chǎn)生的。隨著深度上旋轉(zhuǎn),物體圖像會(huì)發(fā)生或多或少的變化,旋轉(zhuǎn)角度與圖像的變化并沒(méi)有直接聯(lián)系。識(shí)別績(jī)效最終是與圖像的變化程度有關(guān)的。所以,完善的實(shí)驗(yàn)研究應(yīng)該分析圖像變化與識(shí)別績(jī)效間的關(guān)系,而不是只停留在旋轉(zhuǎn)角度與識(shí)別績(jī)效的關(guān)系上;且應(yīng)該全面分析因?yàn)樯疃刃D(zhuǎn)而使物體圖像產(chǎn)生的變化趨勢(shì),以及這些變化導(dǎo)致的物體識(shí)別績(jī)效的變化。要探討物體識(shí)別機(jī)制,僅依靠局部的變化情況是不夠的。Biederman和Gerhardstein的1993年文章[2]中實(shí)驗(yàn)4驗(yàn)證了單個(gè)幾何離子的識(shí)別是視點(diǎn)獨(dú)立的。Hayward和Tarr[9] 1997年采用了類(lèi)似Biederman和Gerhardstein研究中的實(shí)驗(yàn)材料――幾何離子[2],將幾何離子的視點(diǎn)變化分為質(zhì)的變化和量的變化進(jìn)行研究。質(zhì)的變化指物體圖像發(fā)生劇烈的變化,量的變化指物體圖像發(fā)生平緩的變化。實(shí)驗(yàn)結(jié)果表明單個(gè)幾何離子的識(shí)別是視點(diǎn)依賴的。他們的實(shí)驗(yàn)結(jié)果出現(xiàn)差異的原因是:Hayward和Tarr的實(shí)驗(yàn)操控結(jié)果與Biederman和Gerhardstein的實(shí)驗(yàn)操控結(jié)果不同,所以被試看到的圖像變化是不同的,會(huì)得出不同的實(shí)驗(yàn)績(jī)效。Hayward和Tarr根據(jù)他們的實(shí)驗(yàn)結(jié)果對(duì)Biederman和Gerhardstein的研究[2]提出質(zhì)疑,是不妥當(dāng)?shù)摹?
最后,被試的日常經(jīng)驗(yàn)難以控制,也會(huì)對(duì)實(shí)驗(yàn)研究造成很大影響。被試的日常經(jīng)驗(yàn)受多個(gè)因素影響:家庭環(huán)境、所受教育、社會(huì)背景等等,難以進(jìn)行有效的控制。被試對(duì)物體的熟悉程度可以分為兩方面描述:熟悉物的不同描述維度和各維度的熟悉程度。研究者通常將實(shí)驗(yàn)材料分為熟悉物和新異物,新異物又可分兩種情況:完全新異[28]和部分新異[2](即整體是新異的,但組成部分是熟悉的)。但這種分類(lèi)并沒(méi)有解決熟悉性問(wèn)題。因?yàn)榧词惯M(jìn)行了實(shí)驗(yàn)材料的分類(lèi),類(lèi)別內(nèi)還是有熟悉性差異的。如部分新異的情況:雖然整體是新異的,但各組成部分是熟悉的;因?yàn)楸辉噷?duì)各組成部分的熟悉程度是不同的,所以實(shí)驗(yàn)績(jī)效也會(huì)不同,以致不能根據(jù)這樣的實(shí)驗(yàn)結(jié)果得出正確結(jié)論。因此,在以后的研究中,對(duì)被試的日常經(jīng)驗(yàn)必須嚴(yán)格控制或平衡,才能保證實(shí)驗(yàn)結(jié)果的有效性。
綜上所述,如果能注重對(duì)識(shí)別模型的完善,并選取合適的實(shí)驗(yàn)材料、實(shí)驗(yàn)范式和被試,就可以增強(qiáng)研究的有效性,并使視點(diǎn)問(wèn)題的研究向正確方向發(fā)展。
參考文獻(xiàn)
[1] Tarr M J. Vision: object recognition. In: L Nadel (ed.), R Goldstone (Section ed.). Encyclopedia of cognitive science. London, UK: Nature Publishing Group/Macmillan Publishers Limited, 2002. 490~494
[2] Biederman I, Gerhardstein P C. Recognizing depth-rotated objects: evidence and conditions for three-dimensional viewpoint invariance. Journal of Experimental Psychology: Human Perception and Performance, 1993, 19(6): 1162~1182
[3] Biederman I, Gerhardstein P C. Viewpoint-dependent mechanisms in visual object recognition: reply to Tarr and Bülthoff (1995). Journal of Experimental Psychology: Human Perception and Performance, 1995, 21(6): 1506~1514
[4] Biederman I, Bar M. One-shot viewpoint invariance in matching novel objects. Vision Research, 1999, 39: 2885~2899
[5] Tarr M J, Pinker S. Mental rotation and orientation-dependence in shape recognition. Cognitive Psychology, 1989, 21(2): 233~282
[6] Tarr M J. Rotating objects to recognition them: a case study of the role of viewpoint dependency in the recognition of three-dimensional objects. Psychonomic Bulletin & Review, 1995, 2(1): 55~82
[7] Tarr M J, Bülthoff H H. Is human object recognition better described by geon-structural-descriptions or by multiple- views? comment on Biederman and Gerhardstein (1993). Journal of Experimental Psychology: Human Perception and Performance, 1995, 21(6): 1494~1505
[8] Bülthoff H H, Edelman S. Psychophysical support for a two-dimensional view interpolation theory of object recognition. Proceedings of the National Academy of Science of the United States of America, 1992, 89: 60~64
[9] Hayward W G, Tarr M J. Testing conditions for viewpoint invariance in object recognition. Journal of Experimental Psychology: Human Perception and Performance, 1997, 23(5): 1511~1521
[10] Bar M. Viewpoint dependency in visual object recognition does not necessarily imply view-centered representation. Journal of Cognitive Neuroscience, 2001, 13(6): 793~799
[11] Marr D. 視覺(jué)計(jì)算理論. 姚國(guó)正等譯. 北京: 科學(xué)出版社, 1988. 282~345
[12] Ullman S. An approach to object recognition: aligning pictorial descriptions. A.I. Memo 931, The Artificial Intelligence Lab., M.I.T., 1986. 1~57
[13] Marr D, Nishihara H K. Representation and recognition of the spatial organization of three dimensional shapes. A.I. Memo 416, The Artificial Intelligence Lab., M.I.T., 1977. 1~33
[14] Biederman I. Recognition-by-Components: a theory of human image understanding. Psychological Review, 1987, 94(2): 115~147
[15] Tarr M J, Vuong Q C. Visual object recognition. In: H Pashler (Series ed.), S Yantis (ed.). Stevens’ handbook of experimental psychology: Vol. 1. sensation and perception (3rd ed., Vol.1). New York, NY: John Wiley & Sons, Inc., 2002. 287~314
[16] Perrett D I, Oram M W, Ashbridge E.Evidence accumulation in cell populations responsive to faces: an account of generalisation of recognition without mental transformations. Cognition, 1998, 67(1, 2): 111~145
[17] Wong A C-N, Hayward W G. Constraints on view combination: effects of self-occlusion and differences among familiar and novel views. Journal of Experimental Psychology: Human Perception and Performance, 2005, 31(1): 110~121
[18] Ullman S, Bart E. Recognition invariance obtained by extended and invariant features. Neural Networks, 2004, 17: 833~848
[19] Tarr M J, Bülthoff H H. Image-based object recognition in man, monkey and machine. Cognition, 1998, 67: 1~20
[20] Stankiewicz B J. Empirical evidence for independent dimensions in the visual representation of three-dimensional shape. Journal of Experimental Psychology: Human Perception and Performance, 2002, 28: 913~932
[21] Wilson K D, Farah M J. When does the visual system use viewpoint-invariant representations during recognition? Cognitive Brain Research, 2003, 16: 399~415
[22] Foster D H, Gilson S J. Recognizing novel three-dimensional objects by summing signals from parts and views. Proceedings of the Royal Society of London, B, 2002, 269: 1939~1947
[23] Newell F N, Sheppard D M, Edelman S, et al. The interaction of shape- and location-based priming in object categorization: evidence for a hybrid “what + where” representation stage. Vision Research, 2005, 45: 2065~2080
[24] Tanaka J, Weiskopf D, Williams P. The role of color in high-level vision. Trends in Cognitive Sciences, 2001, 5(5): 211~215
[25] Rossion B, Pourtois G. Revisiting Snodgrass and Vanderwart’s object pictorial set: the role surface detail in basic-level object recognition. Perception, 2004, 33: 217~236
[26] Vuilleumier P, Henson R N, Driver J, et al. Multiple levels of visual object constancy revealed by event-related fMRI of repetition priming. Nature Neuroscience, 2002, 5(5): 491~499
[27] Stankiewicz B J. Just another view. Trends in Cognitive Sciences, 2003, 7(12): 526
[28] Edelman S, Bülthoff H H. Orientation dependence in the recognition of familiar and novel views of three-dimensional objects. Vision Research, 1992, 32(12): 2385~2400
The Viewpoint Debates in Object Recognition
Chen Peng, Fu Dejiang
(Department of Psychology Behavioral Sciences, Zhejiang University, Hangzhou 310028, China)
Abstract: The viewpoint has been the focus of the debates in many recent object recognition studies. Two major theories about the viewpoint, structural description model and image-based model, and some recent research are reviewed. The shortcomings of the current research are pointed out, and the solution to the debate, which is that improving the object representation model, is discussed in this article.
Key words: object recognition, viewpoint, representation.
收稿日期:2005-04-28
通訊作者:符德江,E-mail: fdj@mail.hz.省略
相關(guān)熱詞搜索:物體 視點(diǎn) 識(shí)別 物體識(shí)別中的視點(diǎn)問(wèn)題 疊加物體摩擦力問(wèn)題 疊放物體的摩擦力分析
熱點(diǎn)文章閱讀