美佛慧訊 第五十七期如何成就無盡虛空藏略述網路漢文電子佛典之近況及遠景MAHA網際網路是一種全新的資訊管道,只要一些基本的電腦軟硬體配備,每個人都可以悠遊其中。您準備好了嗎?我們上路吧! 【上網逛逛】針對「漢文電子佛典」這個主題,剛在網路上巡迴一週,逛了以下十個站台: 佛教經典系列 【看到什麼】哇!厲害吧!輸入計畫、經文檔案、經目查詢,作業技術、缺字處理、檢索系統。說實在的,這幾年投注在這方面的人力是很可觀的,值得我們衷心讚嘆再三。好吃、好用、好消化的部份,敬請好好享受;筆者打混,在此略過不提。那麼,網路漢文佛典這檔事絕非一蹴可及,在看似豐富的外表下,它實際上存在著什麼困難呢? 【三大困難】一、 作業技術 漢文佛典資料量大,論字數,絕不只百萬、千萬,而是幾億、幾十億。那麼如何在輸 入、校對上創造最大效率,這 是要用心研究的。若不用心, 還在一字一字敲、一字一字瞧,功德無量是沒錯啦,但耗損人力資源也是鐵定事實。 大家可以參考「中華電子佛典協會」在這方面的發展,他們在掃瞄辨識及檔案比對方面的技術是很善巧的;相信他們往後所陸續完成的經文,不但出版時程迅速,也將會是正確率最高的資料來源。 二、 缺字處理 礙於電腦作業系統所提供漢字不足,形成佛教經文缺字重重的現象。以前是打個「●」來表示缺字,但那太粗糙了。後來是大家都玩造字檔,於是我的電腦裡就有好幾個佛教造字檔,造成使用困難以及資訊混亂(同碼不同形)的情形。吃了苦頭,就有人想努力完成佛教統一造字檔;但也還是吃了苦頭,佛教界是很難大一統的,更何況區區五千多個造字空間根本無法滿足各單位所提出的千奇百怪缺字。 這方面,「中研院資訊所」的中文字形資料庫,以及「巨石數位藏經閣」的漢字庫,都是很大的突破,期待他們在這方面的應用技術能夠早日成熟。 三、 全文檢索 上網讀經?別開玩笑了。上網抓檔、進行檢索,這才是比較務實的做法。要玩檢索嘛,可以先上「佛教經典系列」,給它一個單純的搜尋字串,它會告訴你出現這個字串的檔案及前後文。再上「多國語文佛經檢索系統」,這下子你可以進行較複雜的字串查詢。玩到「巨石數位藏經閣」,不但可以進行多條件查詢,而且速度奇快,所得結果還告訴你是在某書某頁某欄哦,是不是很神奇呢! 那麼「巨石數位藏經閣」的全文檢索資料庫是不是已經夠好了呢?一個成熟的全文檢索資料庫,除了複雜檢索條件及速度上的要求外,大概總得兼備以下三個條件──大而完整的量、絕低的錯字率、更精細的標記,「巨石」在這三方面還有很大的發展空間哦。 【誰當老大】談這個就有點傷感情了。幾個較有企圖心的網站,是不是坐在家裡面想像著美好未來? 強勁的檢索引擎,內含大而完整的量、絕低的錯字率、更精細的標記,所有缺字之輸入、輸出、檢索都迎刃而解,再加上各類線上辭典以及校勘、註解、全新分段標點,這樣應該可以穩坐世界第一…。止止!想歸想啦,誰有全副能耐一手包辦這些最佳狀況! 【攜手合作】既然大家都有那麼一些能耐,與其勞民傷財各搞各的,何不就彼此所長來尋求可能的合作空間?「中華電子佛典協會」專門生產高度精確的經文,但它需要各界提供已有的經文檔以便利檔案比對。「佛教電腦資訊庫功德會」及「妙雲今文佛典小組」專注於佛典現代化,那麼可從「中華電子佛典協會」直接提供原始而精確的資料。而中研院、巨石、Christian Wittern在標記上有很大的功力,正可以來處理一批批現代化而精確的資料。缺字處理及全文檢索引擎方面,則交由中研院及巨石來發展。 當然,這些漂亮話是筆者擱在心底的一個理想。理想這回事,破滅的機率有九成九。但因為還有1%的實現率,所以還是希望未來三、五年內,這個理想能夠因緣得濟,屆時幾個合作單位再來成立一個共同網站或什麼的。這樣,大家都是老大,而受益的將是無盡虛空裡的無盡眾生。 Last updated: 5/22/99 |