<图像识别

图像识别

概述

图像识别包含光学字符识别(以下简称 OCR)及图片描述两个部分。

OCR 可以从图片中提取文字内容,从而实现朗读图片中文字的目的。例如,读屏无法获取信息的窗口,一份扫描版的PDF文档,视频中内嵌的字幕,或需要获取文字的一张图片,都可以尝试使用OCR进行识别朗读。

图片描述可用于简单描述照片上的内容。从描述结果中可以对照片上的人物、环境、物体等信息有一个大致的了解。

争渡读屏提供了多个图像识别引擎,其中大部分引擎需要连接网络使用。同时也支持第三方开发的识别引擎插件。每个引擎的识别类型和识别结果会有一定的差异,您可以根据使用场景灵活选用。按 alt+小键盘7和9可切换识别引擎,按 alt+小键盘8切换当前引擎支持的识别类型,长按切换到第一个识别类型。

OCR 识别

为了尽可能的让OCR识别功能更有价值和实用性,争渡读屏结合日常的不同使用场景,提供了多种OCR识别模式。

使用OCR 辅助操作

在操作过程中,当遇到使用读屏各种导航方式都无法朗读的窗口时,可按下 Alt +小键盘星号,对整个窗口进行OCR识别。

如果窗口中大部分内容可以正常朗读,当遇到无法朗读的内容时可以使用 Alt+小键盘斜杠进行局部识别。局部识别提供了两种识别方式,分别为识别当前操作对象和识别鼠标所在区域。

当使用光标键, tab 键或小键盘浏览到图片或没有标签的元素等内容时,按下 alt+小键盘斜杠识别当前操作的对象。

使用像素浏览到要识别的位置,按下 alt+小键盘斜杠,即可识别鼠标所在的区块。区块大小可在争渡读屏设置-OCR设置中调整。

识别完成后,结果会自动读出。若要对窗口或局部识别结果进行操作,可使用下列快捷键:

  • Alt+小键盘4,识别结果的前一项;
  • alt+小键盘6,识别结果的后一项
  • alt+小键盘1,识别结果的前一个字(部分识别引擎不支持)
  • alt+小键盘3,识别结果的后一个字(部分识别引擎不支持)
  • alt+小键盘点,可重复听读识别结果

在切换过程中,鼠标会自动跟随,找到要操作的项目后,可以直接使用单机、双击、右击等操作。

如果识别结果错误太多,或找不到要操作的内容,可尝试 Alt+小键盘7或9切换识别引擎。一些引擎支持高精度识别,可按 Alt+小键盘8切换识别类型到高精度。切换完成后需要重新识别。

注: OCR识别结果的准确性受到很多客观条件限制,比如窗口背景颜色的干扰、自绘控件的特殊字体字形、不规则的排版等,都可能影响识别结果,因此对于OCR识别的内容完整性和准确性需要用户在实际使用中仔细鉴别,甚至有时候需要反复尝试多次,才能获得有效的信息;对于识别结果的操作,鼠标指针跟随位置也有可能出现一定偏差,因此有时候可能需要我们使用像素浏览进行辅助。

若操作软件能够设置字体大小,可以尝试适当调大字体,有助于提高识别率。

本地或剪贴板文件快速识别

Alt 加小回车可以对剪贴板内的图片数据或图片文件进行识别,若剪贴板非图片,则会弹出文件选择对话框,您可以浏览到需要识别的文件打开。

若选择的文件为图片文件,软件会直接进行识别,若选择的是PDF文件,则会启动PDF转换器。

图片识别成功后读屏会自动读出结果,同时也可以使用上述查看快捷键进行逐项或逐字浏览。

字幕识别

字幕识别用于识别视频中的内嵌字幕,如果视频中提供了外挂字幕则不推荐使用识别功能。

要打开字幕识别,一般情况下需要先定位到视频播放器控件,例如在网页中可尝试按O或光标键定位,在普通窗口尝试用小键盘定位。如果无法定位,则直接针对整个窗口进行识别。

定位完成后,按 win+shift+小键盘斜杠打开字幕识别,长按关闭字幕识别。

注:字幕识别仅支持百度离线OCR引擎,不支持引擎切换。

图像描述

目前提供QQ和百度两个图片识别引擎,图片的提交方法与OCR文本识别保持一致,如需进行图像描述,可案 Alt 加小键盘7或9切换到对应引擎后, Alt 加小键盘8选择相应的识别类型。