PDF文本翻譯中表格處理的方法比較
發(fā)布時間:2018-07-05 來源: 感恩親情 點擊:
【摘 要】筆者匯總多次表格翻譯時可能使用的工具和方法,通過近期PDF書籍翻譯時遇到的批量表格為例,對從簡單原始操作到利用工具手動編輯繪制(不考慮CAT軟件在表格翻譯上可發(fā)揮的最佳效果)加以說明。筆者希望不負此前在表格翻譯處理上所耗時間,利用該文總結(jié)對比所列方式,以期今后翻譯遇到各式表格時能較快選擇最適方案,使翻譯之外的處理效率最大化。
【關(guān)鍵詞】表格翻譯;PDF文件;轉(zhuǎn)換;排版
中圖分類號:H159 文獻標志碼:A 文章編號:11007-0125(2018)15-0226-02
。ㄒ唬┰囅霟o軟件輔助下會如何解決表格問題?第一,在word內(nèi)新建表格手動錄入數(shù)據(jù);第二,若表格可選且光標滑動有序(圖1),直接在pdf內(nèi)復(fù)制表格選擇性粘貼到word,后利用word“文本轉(zhuǎn)表格”一鍵搞定;第三,word13等版本直接轉(zhuǎn)換打開pdf,后批量替換更改;第四,復(fù)制圖2表格到word,選中“顯示標記”按鈕(各版本word中樣式不一,但均位于“段落”框)得到含格式標記的文本(標記高亮如圖3),識別真空格(如Type和of中間)和制表符(^t,如data和50中間),利用替換功能自填制表符,最后“文本轉(zhuǎn)換為表格”(注意此處選“制表符)得圖4。上述操作處理單張表格時確有優(yōu)點。
以下借助工具批量處理左圖5表格樣式。圖中可知各行列非等距,還應(yīng)照顧頁眉頁腳和表格倒置的版面?紤]到格式特殊性和后續(xù)批量替換翻譯等問題,先將含表格的頁面單獨提取成獨立pdf(避免整體文檔轉(zhuǎn)換時僅表格頁錯亂)。以下為表格處理時可能出現(xiàn)問題的階段及基于各個工具的產(chǎn)出效果:
。ㄒ唬┲苯永肞DF軟件或在線工具實現(xiàn)pdf轉(zhuǎn)excel表格(處理簡單表格時也可直接復(fù)制粘貼后微調(diào))。優(yōu)點:避免復(fù)雜表格轉(zhuǎn)為word時因頁面內(nèi)除表格外因素而造成的紊亂;缺點:需重新制作頁眉、頁腳和角注等要素。
。ǘ┩ㄒ唬⿲崿F(xiàn)pdf轉(zhuǎn)word文檔(優(yōu)缺點與(一)中相反,另可免去下文操作(三))
A.Nitro Pro 9
轉(zhuǎn)為excel識別率高,缺點是無法識別不齊整的表格數(shù)據(jù),如單列有多層的標題欄(下圖6,上下分別為原圖和識別圖)是此次表格處理的難點和特殊性;縱列數(shù)據(jù)偏移。轉(zhuǎn)為word可直接使用(除標題欄稍偏移外)。
B.Adobe Acrobat X Pro
轉(zhuǎn)為excel標題欄效果差。轉(zhuǎn)為word需微調(diào)但不影響直接使用。
C.ABBYYFineReader 12 Corporate,或有每日上傳上限的在線免費版http://ocr.abbyy.cn/
內(nèi)容上無法識別符號如箭頭;i與1之間識別度低;無法識別。轉(zhuǎn)為word時最嚴重的問題還是與下文的DE問題類似,只是反應(yīng)在硬回車上;轉(zhuǎn)為excel時數(shù)據(jù)不齊整、單元格邊框不匹配、遺漏分割等美觀問題。盡管問題不乏,但我們必須熟知ABBYY與眾不同的優(yōu)點:1.處理掃描版格式時,該軟件OCR(光學(xué)字符識別)功能的高識別度不容置疑;2.處理更加復(fù)雜圖表時,可根據(jù)提示的疑似錯誤字符直接以對照模式修改,方便直觀;3.可自動按照識別類型(表格、文本、背景圖片等)手動調(diào)整識別區(qū)域,提高生成率。
D.cloudconvert(免費)
僅支持轉(zhuǎn)為word,識別準確率和結(jié)構(gòu)上都較為匹配,但識別規(guī)則可能僅依從源表的排列模式,對于需合并但分行的信息之間仍存在軟回車,這對后續(xù)批量替換翻譯極為不利。
E、smallpdf(免費)
轉(zhuǎn)為excel時按照表格數(shù)量會自動生成多個工作簿,增加了合并工作簿的操作(使用VBA功能或第三方工具);轉(zhuǎn)為word時頁面效果優(yōu)于cloudconvert,但存在相同問題。
F.桌面出版(DTP)軟件Adobe Illustrator
打開翻譯pdf的表格所在頁,利用直接編輯功能(Nitro和acrobat也可不同程度直接編輯)和無法編輯部分重新制作的優(yōu)勢,變更和繪制(注意pdf待譯和譯出字體的間距傾斜加粗等系列問題),完成后保存為EPS(Encapsulated PostScript)格式,便可直接插入word中使用。缺點顯然易見,即處理的精細度與批量的沖突,一次只可編輯一張表格,所以僅在表格極為復(fù)雜且格式非單一時可考慮使用。按此流程處理則不再僅限于文本翻譯,可歸為本地化。
(三)表格翻譯在excel中完成后插入word
少量表格時,復(fù)制粘貼需要注意空格會以方框樣式呈現(xiàn),手動一次性替換即可;或可將excel另存為網(wǎng)頁格式,后打開方式選word即可。
(四)與表格翻譯相關(guān)含分節(jié)符或分欄符的格式文本
分節(jié)符本是為了強制中斷前文格式而改成所需格式,該優(yōu)點在處理文檔翻譯時卻搖身成了麻煩。所以此類格式文本的問題是各欄文本間距可調(diào)以及底部文本連續(xù)性,如照此也利用分節(jié)符或分欄符,可能又需要更改適應(yīng)的中文字體、行距等,且任何更改可謂牽一發(fā)而動全身(使用頻率最高的是“下一頁”分節(jié)符)。而我建議重新創(chuàng)建表格,利用表格約束文本布局,使其錯落有致。
鑒于筆者遇到表格翻譯的次數(shù)及樣式種類有限,以上總結(jié)均非具普遍性,僅作自身和其他譯員的參考,期望得到指正與建議。此外,仍有未嘗試的各類方法待筆者學(xué)習(xí),如Kutools for Excel對于重新排列直接粘貼性表格數(shù)據(jù)的作用,其他含OCR功能的軟件如onenote等。更者,CAT工具處理各類表格的能力及為此所需做的導(dǎo)入前表格處理準備。筆者在此愿翻譯市場上優(yōu)秀軟件的完善和興起,更望譯者不止于翻譯,能為自己營建更高效的翻譯環(huán)境。
參考文獻:
[1]陳永杰,邢寶山,張祥合,李桃.利用Adobe Acrobat7.0實現(xiàn)PDF格式文件的轉(zhuǎn)換[J].編輯學(xué)報,2006.
[2]于曉燕.把PDF文檔應(yīng)用于電子排版領(lǐng)域[J].自動化技術(shù)與應(yīng)用,2005.
[3]田玲. Word表格文件轉(zhuǎn)換成Excel表格文件中的“選擇性粘貼”命令應(yīng)用研究[J].計算機光盤軟件與應(yīng)用,2014.
熱點文章閱讀