Anonim

Một trong những điều thường làm tôi thất vọng là không thể dễ dàng sao chép văn bản ra khỏi hình ảnh và một số tệp PDF nhất định (ví dụ: những tệp có thể được tạo từ các tài liệu được quét). Rất may, các giải pháp phần mềm theo thời gian đã được phát triển để giải quyết vấn đề này, cho phép tiết kiệm đáng kể thời gian có thể được sử dụng để sao chép thủ công và nhập lại văn bản. Trong mẹo hôm nay, tôi sẽ nói về một công cụ phần mềm miễn phí có tên Capture2Text sử dụng thuật toán nhận dạng ký tự quang học (OCR) cho phép bạn chụp văn bản từ các tệp hình ảnh và PDF.

Cài đặt và cài đặt

Để bắt đầu, hãy truy cập trang SourceForge của dự án và tải xuống phiên bản Capture2Text mới nhất. Phần mềm này là một kho lưu trữ zip và tại thời điểm đó không bao gồm một trình cài đặt chuyên dụng. Sau khi tải xuống, giải nén tệp lưu trữ và khởi chạy tệp Capture2Text.exe. Việc này sẽ khởi chạy phần mềm và đặt biểu tượng xuống khay hệ thống:

Đầu tiên, những gì bạn sẽ muốn làm là thiết lập tùy chọn của phần mềm, cụ thể là sử dụng phím nóng (hoặc phím tắt) nào để bắt đầu và dừng chụp:

Trong trường hợp của tôi, tôi đã chọn sử dụng các phím Windows Windows + q Điên để bắt đầu và phím Enter Enter để ngăn chặn nó. Bạn có thể điều chỉnh các tùy chọn này để phù hợp nhất với bạn. Hãy nhớ rằng khóa Windows Windows + s thường được sử dụng để chụp màn hình (ví dụ: bởi các chương trình như Microsoft One Note).

Trên tab tiếp theo, các tùy chọn OCR có thể được cấu hình bao gồm ngôn ngữ đầu vào (hiện có bảy ngôn ngữ được hỗ trợ) và có nên sử dụng tiền xử lý OCR để cải thiện độ chính xác (rất khuyến khích). Cuối cùng, trên tab đầu ra, trong số các tùy chọn khác, người ta có thể chọn chỉ lưu văn bản đã chụp vào bảng tạm hoặc có khởi chạy một cửa sổ bật lên riêng biệt hay không.

Sử dụng phần mềm

Sau khi phần mềm được cài đặt và định cấu hình, bạn có thể bắt đầu sử dụng phần mềm thông qua việc bắt đầu kết hợp phím nóng. Sử dụng chuột của bạn, chọn khu vực trên hình ảnh bao gồm văn bản bạn muốn chụp. Để dừng chụp, chỉ cần nhấn phím nóng bạn đã chọn để dừng chụp. Sau đó, văn bản sẽ được sao chép vào bảng tạm, cửa sổ bật lên đầu ra hoặc cả hai. Một ví dụ có thể được nhìn thấy dưới đây.

Từ thử nghiệm nhanh chóng của tôi về công cụ với hình ảnh, tôi đã thấy độ chính xác của nó là khá. Rõ ràng, có những hạn chế đối với các công cụ như thế này và OCR nói chung. Ví dụ, văn bản được sửa đổi nhiều (rất khó hiểu, in nghiêng hoặc hiện đại) có thể không hoạt động tốt và đôi khi không hoàn toàn. Ngoài ra, trong một số trường hợp, nó sẽ giúp điều chỉnh kích thước của hộp chụp một chút hoặc phát với thu phóng trên chính hình ảnh để có kết quả chính xác hơn.

Khi chụp văn bản từ các tài liệu PDF được quét, độ chính xác là ổn, với một vài sửa đổi cuối cùng thường vẫn cần thiết trên đầu ra được chụp (tùy thuộc vào chất lượng quét ban đầu). Ngoài ra, tôi nhận thấy rằng phần mềm có thể mất vài giây để xử lý, đặc biệt là khi được yêu cầu chuyển đổi số lượng lớn văn bản.

Nói chung, tôi nghĩ công cụ này hoạt động rất tốt, đặc biệt là vì nó có sẵn miễn phí - tôi khuyến khích bạn dùng thử.

Phụ lục 16/11/2015:

Như một tùy chọn khác, đối với những người có tài khoản Google, cũng có thể sử dụng các khả năng OCR của Google bằng cách tải tệp lên Google Drive của bạn (có thể tìm thêm thông tin chi tiết tại đây). Hơn nữa, cũng có một plugin OCR có sẵn cho người dùng Google Chrome được gọi là Copyfish mà bạn có thể muốn kiểm tra.

Cách chụp văn bản từ hình ảnh bằng phần mềm ocr