「沒事不要欠人家人情」-雖然我一直將這句話奉為圭臬,但上個月看著小雨妹妹幾天下來一直在做著我認為無聊的手工業,於是不小心出口跟他說該怎麼做比較省事,而她男友為了感謝,於是我這幾次抓藥不用錢,因而種下因果。唉!我笨!沒事幹麻找事做咧!
至於小雨小妹妹到底做了什麼事情而讓我看不下去咧?
事情起因於小雨小妹妹的BF要將他老師發的考題講義SCAN到電腦去,原先我以為他們只是要讓SCAN進去的文件只留下題目,答案拿掉。所以小雨小妹妹就手工用修正帶、修正液或白紙貼在想遮掉的地方。那我就想說簡單啊!如果只是要掃描進去存成電子檔,那同樣都是要SCAN,那乾脆就SCAN進去後,再另外用簡單的影像處理軟體去覆蓋掉那些不想留的區域就好。嗯,我想的就是這麼簡單,也照我的意思跟小雨小妹妹講。於是小雨小妹妹夥同她的BF就請我幫忙,我也想說不難,只是耗工耗時間,所以就答應了。但先天溝通不良,事後發現原來還要將那些轉換成可編輯的文字檔,哇咧!代誌大條了,我手頭上可沒有什麼文件辨識軟體啊!而且就我十年前使用這種軟體的經驗就是不怎麼好,辨識率不良。唉!自找罪受啦!這下可好,得再另外去尋找可用的辨識軟體才行。不過,都過了十年了耶!怎麼國內專攻這方面的廠商仍然只有文新的丹青呢?後來,好不容易下載了一版測試版的回來,卻發現試用版將儲存的功能鎖住了。哇!這可真寶!這不就是告訴我無論如何都得找到正式版的嗎?正好這時也在忙著搬家的事,於是找軟體這件事情就暫且擱下。直到昨天,新房間打掃的有點成形了,這才將柯老大(小雨的BF)寄來很久的EPSON SCANNER接上我的電腦,測試操作。結果,又是一大打擊!
這台SCANNER僅文件直接經由掃描來做光學辨識的動作,並儲存。它沒有額外提供軟體,可以讓你直接讀取現有的圖檔,將它做辨識來轉換成文字檔,這個功能,沒有,唉!頭痛!難怪柯老大要請小雨幫他做這些手工業。唉呀呀~真的很讓人頭痛!於是乎,我只好又回到google盡我所能輸入一堆的關鍵字搜索看能不能運氣好,找到正式版的下載。沒想到,這時候,善心人士出現了,網路上真的有人提供下載點,振奮極了。當下二話不說,馬上下載看看。
下載回來安裝後的試用結果,我只能說「滿意」。最新版本的文字辨識度和十年前的相比,簡直是天壤之別,好的讓我沒話說。百分之九十幾乎都可以被正確無誤地辨識出來,剩下的百分之時無法被正確辨識出的原因就只能歸咎於原稿的清晰度或編排,真的很好。
工具全部備妥,下一部自然而然就是開始work。首先,用掃描器的SCAN TO OCR功能試掃兩張被分為兩欄的橫式A4文件,辨識結果出現的是一堆亂七八糟的字,橫式文件直接OCR會出現問題。但即使是直式文件,如果原稿本身有圖形或髒污,OCR的結果也不是很滿意,也難怪小雨妹妹得做那些手工作業。既然直接SCAN TO OCR不通,於是我改試SCAN TO FILE,只是進入這裡後,沒有任何的設定畫面,我無法在此圈選我要掃描的範圍,也不知道原廠是如何設定這個功能的,掃描出來的原稿有部分會被裁掉。我想或許原廠的美意是要讓掃描器能自動裁掉空白邊,可是未必試試如意。它的自動裁切功能真的帶給我不少困擾,有些原稿部分文字被裁掉,經過光學辨識軟體辨識出來的結果就比較差,得花更多時間去修正。過了幾天後,不死心,再次按下SCAN TO OCR的功能,這下子才發現這台掃描器的TWAIN功能竟然是被放在這個畫面中不甚起眼的位置。皇天不負苦心人,運氣開始轉好,掃描的選擇範圍、解析度、彩度、亮度通通都可以在這裡完成,而且這裡的掃描結果也可以存成影像檔。有了影像檔,我就可以事後透過光學辨識軟體去辨識。
下列整理SCAN TO OCR 和 SCAN TO FILE這兩項功能的差異:
一、SCAN TO OCR:一定要經過掃描的程序,才能轉OCR。且文件在掃描前,必須先修飾過。不提供讀取影像檔,再OCR。
二、SCAN TO FILE:無法設定掃描選擇範圍。掃描器會自動裁掉空白,但如果原稿的文字內容是歪的,部分內容可能會被裁切掉。
所以,我的結論是掃描器原廠設定的很多貼心功能未必都能符合你的需要,如上面講到的這兩樣。若遇到這種情況,就要睜大眼努力去找看看哪裡有TWAIN可以作手動進階設定,如此掃描出來的結果才會是你所要的。
說到這,原稿被存成影像檔之後的工作,那當然就是辨識軟體上場的時候了。其實原先我擔心我得多經一道手續--就是利用影像編輯軟體修飾掉污點或不必要的部分,可是這部分,這個辨識軟體辦到了,你可以在編輯之前,用它工具列上的橡皮擦將這些地方擦掉,再做辨識。辨識完之後,難免有些字是錯誤的,雖然你可以直接在這邊做修正,不過,我覺得並不是很方便。比較理想的做法是,先將辨識結果儲存成檔案,如果是文字,那最好存成最簡單的TXT檔,再開啟記事本之類的工具做校稿的動作,這樣會比較好。
留言列表