Word 繁簡轉換之問題

許多人都知道,Microsoft Word 有一項繁簡轉換的功能,能夠將文字在簡體中文及繁體中文之間互相轉換。雖然這確實是很方便的功能,但如果真的將這項功能應用在工作實務上,則很快就會意識到,它的轉換結果存在著一些問題。

 

儘管我們大概都明白,對於中文繁簡轉換,很難有完美的系統性解決方案(看看現今中文維基百科的繁簡亂象就知道了),因而轉換後的結果勢必都還要再做人工校正,以保障其正確性。然而 Word 的繁簡轉換功能卻存在著一些理應可以修復、卻一直沒有處理的 Bug(包含目前最新的 Word 2016 在內)。因此,本文接下來的內容會說明這些問題,讓有意使用 Word 繁簡轉換功能的人士可以留意到當中的地雷。

 

關於【使用台港澳等地字元】這個選項,目前並無已知的問題,若停用會出現諸如簡體的「并」字無法轉換成繁體「並」字的狀況,反之若啟用該選項則沒有負面效果。因此在做繁簡轉換時,這個選項應是必選且無害的。

 

至於【轉換常用詞彙】這個選項,則無論啟用與否都會有一些相應的問題。儘管啟用這個選項看似能夠帶來正確性更高的文字轉換結果,但實則上卻是啟動了一顆更難以預測的地雷。

 

舉例而言,在啟用該選項的情況下,若轉換以下文字:

  • 一份餐厅菜单

會得到以下結果:

  • 一份餐廳菜單

 

但只要改一個字:

  • 一个餐厅菜单

轉換結果就會變成:

  • 一個餐廳功能表

 

此處所突顯的問題或許並不算是 Bug,但也顯示出【轉換常用詞彙】的判斷機制不夠嚴謹。若啟用此選項,就有可能會在一些情況下造成非常錯誤的結果,且不一定能夠察覺出來。因此,鑒於其中的風險性,一般而言,DR 會建議停用這個選項。不過雖然停用此選項會讓狀況單純一些,但也會因此出現一些怪異的 Bug 需要處理。首先是掉字的問題,若停用此選項,則已知諸如「属于」、「游标」等字詞,在轉換後其「於」字及「游」字都會變成一個 Unicode 的 U+FFFF 字元。

 

除此之外,停用【轉換常用詞彙】選項實際上並不會停止所有的詞彙轉換機制,例如在停用的情況下,仍會轉換「面包」為「麵包」。而問題在於,其中的某些判斷邏輯比啟用【轉換常用詞彙】時更詭異。

 

舉例來說,若轉換以下文字:

  • 综观全局

會變成:

  • 綜觀全域

 

但若改成理應更應該做詞彙轉換的文字:

  • 全局变量

轉換結果卻反而是無動於衷:

  • 全局變量

 

儘管有著前述問題,但整體來說,DR 仍認為停用【轉換常用詞彙】比啟用它還來得安全,因為停用後所產生的問題通常是比較容易察覺的。最後,對於本文所提及的各項狀況,DR 總結了一支測試程式:word_converter_test.py,以及它的輸出報告:output.txt,可作為參考。

 

Tags: