图像识别 - 争渡读屏 - 追求卓越，每天都有进步！

概述

图像识别包含光学字符识别（以下简称 OCR）及图片描述两个部分。

OCR 可以从图片中提取文字内容，从而实现朗读图片中文字的目的。例如，读屏无法获取信息的窗口，一份扫描版的PDF文档，视频中内嵌的字幕，或需要获取文字的一张图片，都可以尝试使用OCR进行识别朗读。

图片描述可用于简单描述照片上的内容。从描述结果中可以对照片上的人物、环境、物体等信息有一个大致的了解。

争渡读屏提供了多个图像识别引擎，其中大部分引擎需要连接网络使用。同时也支持第三方开发的识别引擎插件。每个引擎的识别类型和识别结果会有一定的差异，您可以根据使用场景灵活选用。按 alt+小键盘7和9可切换识别引擎，按 alt+小键盘8切换当前引擎支持的识别类型，长按切换到第一个识别类型。

OCR 识别

为了尽可能的让OCR识别功能更有价值和实用性，争渡读屏结合日常的不同使用场景，提供了多种OCR识别模式。

使用OCR 辅助操作

在操作过程中，当遇到使用读屏各种导航方式都无法朗读的窗口时，可按下 Alt +小键盘星号，对整个窗口进行OCR识别。

如果窗口中大部分内容可以正常朗读，当遇到无法朗读的内容时可以使用 Alt+小键盘斜杠进行局部识别。局部识别提供了两种识别方式，分别为识别当前操作对象和识别鼠标所在区域。

当使用光标键， tab 键或小键盘浏览到图片或没有标签的元素等内容时，按下 alt+小键盘斜杠识别当前操作的对象。

使用像素浏览到要识别的位置，按下 alt+小键盘斜杠，即可识别鼠标所在的区块。区块大小可在争渡读屏设置-OCR设置中调整。

识别完成后，结果会自动读出。若要对窗口或局部识别结果进行操作，可使用下列快捷键：

Alt+小键盘4，识别结果的前一项；
alt+小键盘6，识别结果的后一项
alt+小键盘1，识别结果的前一个字（部分识别引擎不支持）
alt+小键盘3，识别结果的后一个字（部分识别引擎不支持）
alt+小键盘点，可重复听读识别结果

在切换过程中，鼠标会自动跟随，找到要操作的项目后，可以直接使用单机、双击、右击等操作。

如果识别结果错误太多，或找不到要操作的内容，可尝试 Alt+小键盘7或9切换识别引擎。一些引擎支持高精度识别，可按 Alt+小键盘8切换识别类型到高精度。切换完成后需要重新识别。

注： OCR识别结果的准确性受到很多客观条件限制，比如窗口背景颜色的干扰、自绘控件的特殊字体字形、不规则的排版等，都可能影响识别结果，因此对于OCR识别的内容完整性和准确性需要用户在实际使用中仔细鉴别，甚至有时候需要反复尝试多次，才能获得有效的信息；对于识别结果的操作，鼠标指针跟随位置也有可能出现一定偏差，因此有时候可能需要我们使用像素浏览进行辅助。

若操作软件能够设置字体大小,可以尝试适当调大字体,有助于提高识别率。

本地或剪贴板文件快速识别

Alt 加小回车可以对剪贴板内的图片数据或图片文件进行识别，若剪贴板非图片，则会弹出文件选择对话框，您可以浏览到需要识别的文件打开。

若选择的文件为图片文件，软件会直接进行识别，若选择的是PDF文件，则会启动PDF转换器。

图片识别成功后读屏会自动读出结果，同时也可以使用上述查看快捷键进行逐项或逐字浏览。

字幕识别

字幕识别用于识别视频中的内嵌字幕，如果视频中提供了外挂字幕则不推荐使用识别功能。

要打开字幕识别，一般情况下需要先定位到视频播放器控件，例如在网页中可尝试按O或光标键定位，在普通窗口尝试用小键盘定位。如果无法定位，则直接针对整个窗口进行识别。

定位完成后，按 win+shift+小键盘斜杠打开字幕识别，长按关闭字幕识别。

注：字幕识别仅支持百度离线OCR引擎，不支持引擎切换。

AI大模型图像描述

基于vivo提供的蓝心大模型AI能力，争渡读屏还支持图片描述功能。图片描述的的提交方法与OCR文本识别保持一致，如需进行图像描述，可案 Alt 加小键盘7或9切换到vivo引擎后， Alt 加小键盘8选择相应的识别类型，目前vivo的识别引擎除了OCR识别之外，还提供了如下几种类型：

表格识别，提取图片中的表格内容，并可以输出包含表格格式信息的完整文本内容。
一句话描述，可以简单的对图片信息进行描述，速度快，但是信息量有限。
AI图片描述，使用生动的语言详细的描述图片上的内容，如需进一步追问，可以按Alt加小键盘点长按。
AI图片对话，基于当前图片内容可以与AI大模型进行对话，追问图片的更多信息。

验证码识别

验证码识别支持“滑块验证(拼图、纯滑块和旋转）”和“文字验证”。

具体安排如下：按 Alt 加加号，触发功能，然后按光标键浏览识别类型，按回车或空格键执行。

当按下快捷键，听到“请选择验证码类型”提示时，您也可以直接按对应类型的快捷键快速进行识别。

S 滑块验证码
D 特殊模式滑块验证码(在普通模式下始终无法成功时尝试)
G 文字验证码(需光标键或Tab键找到验证码图片或者验证码输入框)
按其他任意键退出