OCR: Difference between revisions

From LemonWiki共筆
Jump to navigation Jump to search
Line 5: Line 5:
* {{Gd}} [https://docs.google.com/ Google DOCs]: 上傳文件後,檔案名稱點選右鍵,「選擇開啟工具」 --> 「Google 文件」<ref>[http://docs.google.com/support/bin/answer.py?answer=176692&hl=en Uploading and exporting: Uploading image files with text to Google Docs]、[https://support.google.com/drive/answer/176692?hl=zh-Hant&visit_id=1-636534874969716350-2978233269&rd=1 將 PDF 和相片檔案轉換為文字 - 電腦 - Google 雲端硬碟說明]</ref> 英文可以順利辨識、簡體中文遇到問題。
* {{Gd}} [https://docs.google.com/ Google DOCs]: 上傳文件後,檔案名稱點選右鍵,「選擇開啟工具」 --> 「Google 文件」<ref>[http://docs.google.com/support/bin/answer.py?answer=176692&hl=en Uploading and exporting: Uploading image files with text to Google Docs]、[https://support.google.com/drive/answer/176692?hl=zh-Hant&visit_id=1-636534874969716350-2978233269&rd=1 將 PDF 和相片檔案轉換為文字 - 電腦 - Google 雲端硬碟說明]</ref> 英文可以順利辨識、簡體中文遇到問題。
** 教學: [https://buzzorange.com/techorange/2019/12/09/convert-picture-into-word/ 不要浪費時間 key 資料啦!拍照上傳 Google 雲端,按個右鍵就自動幫你轉文字 | TechOrange]
** 教學: [https://buzzorange.com/techorange/2019/12/09/convert-picture-into-word/ 不要浪費時間 key 資料啦!拍照上傳 Google 雲端,按個右鍵就自動幫你轉文字 | TechOrange]


* {{Gd}} [https://line.me/zh-hant/ 免費通話、免費傳訊的應用程式「LINE」]
* {{Gd}} [https://line.me/zh-hant/ 免費通話、免費傳訊的應用程式「LINE」]
Line 30: Line 29:
* ''$'' [https://cloud.google.com/vision/?hl=zh-tw Vision AI | 透過機器學習技術取得圖片的深入分析結果  |  Cloud Vision API  |  Google Cloud]
* ''$'' [https://cloud.google.com/vision/?hl=zh-tw Vision AI | 透過機器學習技術取得圖片的深入分析結果  |  Cloud Vision API  |  Google Cloud]


因為線上服務免費版會限制 PDF 檔案頁數,可使用切割軟體 [[PDF split and merge tools]]
: [[Image:Owl icon.jpg]] 講個秘訣:因為線上服務免費版會限制 PDF 檔案頁數,可使用切割軟體 [[PDF split and merge tools]]
 
== OCR scripts ==
* [https://github.com/thiagoalessio/tesseract-ocr-for-php thiagoalessio/tesseract-ocr-for-php: A wrapper to work with Tesseract OCR inside PHP.] 繁體中文辨識結果不佳。{{access | date=2022-04-20}}
* [https://github.com/ocropus/ocropy ocropus/ocropy: Python-based tools for document analysis and OCR]


== 常用文件的解析度設定 ==
== 常用文件的解析度設定 ==

Revision as of 11:07, 20 April 2022

OCR (optical character recognition), 光學字元辨識


OCR tools

  • MS Office 2003 需額外安裝的Office 工具: Microsoft Office Document Imaging (你也可以輕鬆做文字辨識(OCR))
    1. (.pdf檔案轉為.mdi) PDF列印到 MS Office 2003 Document Imaging
    2. (.mdi檔案轉為word檔) MS Office 2003 Document Imaging(.mdi) -> 使用OCR辨識/傳送文字到Word
Owl icon.jpg 講個秘訣:因為線上服務免費版會限制 PDF 檔案頁數,可使用切割軟體 PDF split and merge tools

OCR scripts

常用文件的解析度設定

常用用途的解析度設定

  • 文字辨識 75~150 dpi
  • 圖文交雜 100~150 dpi
  • 圖檔(螢幕上觀看) 150~250 dpi Icon_exclaim.gif 個人經驗: 簡報掃描的圖檔,如果是小字 300 dpi 可以辨識,但建議調整到 600 dpi。
  • 圖檔(有列印需求) 300 dpi以上
  • 名片 150~200 dpi

出處:PCHome 2005/8

References

相關文章