我的簡繁轉換苦水
既然發起了「我們來做一個真正堪用的簡繁轉換系統吧!」這個活動,我就先來說說自己的故事。
我從2015年開始創辦同人誌《東方文化學刊》,至今出了10期加一個特輯,來稿的大部份是大陸地區的朋友,而我堅持用繁體字印刷出版,並且我非常討厭轉碼錯誤,所以我每期收到簡體字的稿件,都要花特別多精力來校對。
我有向書友、作者群發一篇「撰稿指南」,是一個Word文檔,這文檔就是已經調好格式的文章模板,如果你直接用這個文檔來寫稿,你就可以看到你文章排好版印出來以後大概是怎樣,而我做總編的也可以省一點工。話雖如此,直到現在,沒有幾個人聽我的,照這樣排好再把稿子給我發來,我也不強求了。為什麼呢?
一因為我不是大爺,你能把文章寫好我就很感謝了;再就是,簡繁體的Word系統還是有一點差異(例如字體的檔名),我排版還有很多微調的工作要做,而且我不相信你能把轉碼錯誤也抓完,所以還不如你就原樣給我,我來抓。就這樣,我繼續忍受著Word簡繁轉換的各種弱智。也不是沒有找過別的校對工具,但文字貼過去轉完又貼回來還會跑版,最後效率還不如我手工抓。
除了一般的簡繁轉換問題,我的稿件裡經常會出現日文,而我發現,只要一段文字裡含有日文,Word簡繁轉換就會自動跳過該段,整個不轉,我想這是將日文漢字和中文區隔開來的設計。在這種情況下,令人崩潰的是,就算我把要轉的句子選取出來叫它轉,它也不轉;我把日文的部份先搬到別的地方再叫它轉,它還是不轉;我把要轉的部份複製貼上到另一個檔案去轉,它依然不轉。必須在貼上的時候指定「去除格式」,把系統埋在它裡面的信息去掉,它才終於聽話。
我認為開發文書處理程式、轉碼系統的人,應該要做一些開關選項來對應這些問題,而不是大包大攬、自作聰明。
再來談談問題多多的「常用詞彙轉換」。大概因為開發、維護這些系統的人是工程師,所以常用詞彙轉換表裡最多的,是IT術語,而這些術語又經常和常用詞重複,就引發很多討厭的問題。
例如Program,台灣叫「程式」,大陸叫「程序」,這兩個詞都有其他用場,如「京劇表演程式」和「司法程序」,你AI如何判定什麼時候該轉、什麼時候不該轉?除非你能像人一樣理解整篇文章,否則大概都只能很笨地加上各種條件去逼近。
況且,雖然我出書是印繁體,但既然文章作者是大陸人,面對的讀者也多是大陸的朋友,那在這些常用詞上,我就應該保持原樣。當然這點可以把「轉換常用詞彙」勾掉來解決。
問題比較小的是「資訊」與「信息」,這種算是兩可,然而我不是一般的編輯,我是學過朱邦復先生「漢字基因」理論以及正宗的文字學,會把每個字拆開來看字首字身,斟酌選用最適合的字詞的那種人,「資訊」與「信息」雖然相通、差不多,但讀起來的感覺或許會有細微的不同,而我就會憑這些細微的感覺來修改,儘管文章作者大概都沒有想到那麼多。
總之我是盡力了,雖然還是不免百密一疏,出書後被讀者發現或者自己再看到就很幹。而在身為讀者的時候,看各個新聞、小說網站,還有打遊戲(轉碼錯誤的重災區,那些做繁體版的絕大部分都是直接把簡體轉過來就上了),看到抓也抓不完的錯誤,我的心靈逐漸學會麻木;偶爾也會想,我自己還在堅持些什麼?文化的品味(大陸不知為何都把這詞寫成「品位」,而這和閻步克老師中國古代官職研究的「品位與職位」重複了)和文明的使命感嗎?這年頭,這些高尚的概念,大抵也都是不堪一擊的了。所以如果你再問我,我寧願回答「不爽」或「堵爛」。
而這世上的事情,往往也不是你不出錯就不會有問題的。
去年底我接了個案子,給我們同人圈裡的現場表演組織「東方LiveParty」填寫今年LiveParty主題曲的歌詞;我很重視這項工作,費了多日的心力把它填好,總算在南京的跨年活動搶先演出了,還在正式錄音之前,當時我很期待正式版。這首歌叫〈重光〉,正式發表是在1月26日年初二,我們圈子的賀年節目〈東方華燈宴〉上,這回出錯了:
歌詞裡有一句「交換著殷勤的片語」,從〈何日君再來〉的「殷勤頻致語,牢牢撫君懷」化過來的。結果到這正式版,歌詞變成了「交換著殷勤的詞組」。
不問可知,是LiveParty這邊的朋友Woogie,把我交過去的Word文檔轉成了簡體給歌手和相關人員,這就把「片語」變成了「詞組」──另一個IT術語phrase的兩岸之別。我小時候看過不少電腦書,所以我知道「片語」在程式設計上也算常用詞。
那段歌詞原稿是:「熙攘的市集/融匯著恬靜日常的氣息/交換著殷勤的片語/勉勵出不畏變故悠長的情誼」,是主押ㄧ韻(yi),而用通押的ㄩ韻(yu)在可押可不押的第三句;這段曲子我感覺應該每句都押,於是如此安排。結果變成「詞組」,不押韻了,唱起來氣息也堵了。
明明我在交稿的時候,和Woogie反覆確認、修改過歌詞的,人家也應該是看過正確版本的,應該是抓得出轉碼錯誤也聽得出不對的,但錄音和製作影片的時候,就是沒人抓出來。
Woogie也是個認真的人,不應該出這種狀況,然而有一點工作經驗的人應該都知道,就是常有這種在最後關頭稍微疏忽一下,然後出錯,然後所有人都莫名其妙地沒察覺的事。
所幸網上發布的東西還可以修改,Woogie也承諾過完年有空就重錄替換上去,然而又碰到疫情,很多交通和活動都被截斷了,不知還要過多久才能訂正過來,讓我不用再忍受這錯誤。
這件事情,大概可以算是讓我下定決心來改良簡繁轉換工具的最後一擊。
新一期《東方文化學刊》正在編,我又有好幾萬字的稿子要校對,雖然大概趕不及立刻用上,但希望下半年可以用到。我再也不想忍耐了。
我理想的轉碼方式
有一些字是轉碼錯誤的重災區,如「里」在很多情況下不該轉成「裡」或「裏」。目前我是這樣處理的:
Word有「取代」指令。轉完碼後,我用「取代」尋找所有的「裡」,指定取代為「里」,然後按「尋找下一筆」,一個個看,要轉回「里」的,我就按鍵盤R鍵取代;不該轉的,我就按F繼續找下一個。
我理想的轉碼校對方式,就是把所有可能的分歧都這樣處理:讓我按鍵盤做選擇題,一個個選過去。
這並不會很慢,反正我做編輯也需要把文章從頭到尾一句句看下來。
二十年來,我想要的,我需要的,就只是這麼簡單的一個東西。
不用講什麼智能算法、機器學習,也不需要任何進一步的社群經營、商業規畫。或許這裡哪位會寫程式或Word巨集的朋友發發善心,一兩天就能做出來了。
這幾天有不少朋友和我介紹了一些提供簡繁轉換的網頁,像是「校書郎」,我自己也找了一些,像是「書韻」。試用了一下,基本的替換、校對,還有進階一點的詞語解釋是都有,但它們還是缺少了我最重視的一項功能:
它們不能用鍵盤操作。
在這些網頁編輯器校對,我都還得把滑鼠游標移到要替換的字詞上,點下去,再移到正確的選項,點下去。這樣的操作既繁瑣又傷手,而且這不是遊戲,一點都不好玩。為什麼那麼多五湖四海的工程師朋友,開發這些工具來幫助我們,卻都沒有想到把鍵盤操作做進去?
答案是什麼已經不重要了,重要的是我今年一定要想辦法弄出一個能用鍵盤的出來。Farmer學長的團隊已經做過校對程式,會自動把有分歧的字詞用不同顏色標出來;只要再把「用鍵盤做選擇題」的校對方式做進去,我個人就沒有更多要求了。
Facebook上也有朋友留言跟我說:不用重複發明輪子,Google已經在做這個,頗有進步,讓它去做就好了,過去很多低能錯誤都已經消失,再過幾年很多剩下的低能錯誤就會消失了。我就回說:
我想要和需要的並不是電腦幫我搞定一切。我只要電腦幫到80%,剩下20%我自己來。但現在這些弱智的程式往往幫倒忙,我還要再多付出50%心力去抓它的錯。我搞不懂為什麼幾乎每個搞科技的都堅持要AI,堅持要等它進步,就不願意先給我一個笨一點但是實用的過渡方案。我受夠了,我也不想問為什麼了,我來做我想要的就是了。
這如果要繼續講下去,我還可以講到哲學的層次上去,但我覺得我們不必扯那麼多。
差不多也是二十年前,我讀到南方朔的一篇文章或相關報導,說他寫稿也學過倉頡、大易輸入法(忘了是哪個),但用了一陣子後,他發現他會無意識地傾向只用他會拼的、好打的字,而放棄腦子裡的原案。他認為這對文章這檔事有大害,所以他就放下電腦,回去用紙筆爬格子了。
我對此印象深刻,因為從小就開始用電腦的我完全無此問題。我打字是用注音(要選字的傳統注音)為主、倉頡為輔,一時打不出來的,用相近的字音、字形去比照,總能打得出來,一次打出來,知道這字在輸入法裡面怎麼拼以後,我就會打了。有網路以後,用搜尋引擎去逼近,更為簡便,即便要打生僻字也不在話下。
雖然輸入法問題和轉碼問題是兩回事,但這裡我們大概還是可以看到一些處理問題的不同態度。南方朔先生算是比較極端的「科技不對勁就放棄科技」,這種老一輩的做法已然淡出這個時代了。勸我等Google、等AI進步的朋友可能是「科技不夠用就繼續發展科技」,然而這對我目前的日常工作沒有幫助。我的態度則是求平衡,讓科技做它目前能夠做到的就好,剩下我自己來。對十萬字規模以下的工作來說,這樣其實就已經夠了。
要說還有什麼不足之處,大概就是這種沒什麼野心也沒什麼技術含量的土方法,沒有什麼能在商業市場上說故事的前景,也沒什麼在技術領域出彩的價值,所以沒有人來做吧。要講前景,就還是要來個大數據、機器學習,整理出一個多麼廣泛的應用場景。啊,如果可以的話,我也願意一起來說啦,但我現在真的只想先要到一個趁手的輔助工具就好了。