当前位置: 首页 > news >正文

Android 文本识别:MLKIT + PreviewView

在这里插入图片描述
随着移动设备的普及和摄像头的高像素化,利用相机进行文本识别成为了一种流行的方式。MLKit 是 Google 提供的一款机器学习工具包,其中包含了丰富的图像和语言处理功能,包括文本识别。PreviewView 是 Android Jetpack 的一部分,它提供了一个方便的预览相机图像的视图组件。结合 MLKit 和 PreviewView,我们可以轻松构建出一个功能强大的文本识别应用程序。

添加依赖

为了使用 MLKit 和 PreviewView,我们需要在项目的 build.gradle 文件中添加相应的依赖项。以下是所需的依赖项:

// camera
def camerax_version = "1.2.1"
implementation "androidx.camera:camera-core:${camerax_version}"
implementation "androidx.camera:camera-camera2:${camerax_version}"
implementation "androidx.camera:camera-lifecycle:${camerax_version}"
implementation "androidx.camera:camera-video:${camerax_version}"
implementation "androidx.camera:camera-view:${camerax_version}"
implementation "androidx.camera:camera-extensions:${camerax_version}"// To recognize Chinese script
implementation 'com.google.mlkit:text-recognition-chinese:16.0.0'

以上依赖项包含了与相机操作和中文文本识别相关的库。

XML 布局

在布局文件中,我们需要添加一个 PreviewView(相机预览视图),一个按钮用于开始/停止文本识别,以及一个用于显示识别结果的 TextView。以下是布局文件的示例代码:

<?xml version="1.0" encoding="utf-8"?>
<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"xmlns:tools="http://schemas.android.com/tools"android:layout_width="match_parent"android:layout_height="match_parent"android:orientation="vertical"tools:context=".MainActivity"><androidx.camera.view.PreviewViewandroid:id="@+id/pre_view"android:layout_width="match_parent"android:layout_height="0dp"android:layout_weight="1" /><Buttonandroid:id="@+id/btn_operation"android:layout_width="match_parent"android:layout_height="wrap_content"android:text="点击停止文本识别"android:layout_marginHorizontal="16dp" /><TextViewandroid:id="@+id/tv_content"android:layout_width="match_parent"android:layout_height="0dp"android:layout_weight="1"android:padding="6dp" /></LinearLayout>

上述布局文件包含了一个垂直排列的 LinearLayout,其中包含了一个 PreviewView、一个按钮和一个用于显示识别结果的 TextView。

代码实现

在代码实现部分,首先检查相机权限

<manifest xmlns:android="http://schemas.android.com/apk/res/android"><uses-permission android:name="android.permission.CAMERA"/>
</manifest>

在权限被授予时初始化相机,进行文本识别。我们设置按钮的点击事件监听器,根据当前相机的状态执行相应的操作。当按钮被点击时,我们会根据相机的状态开始或停止文本识别,默认处于识别状态中。

class MainActivity : AppCompatActivity() {private lateinit var binding: ActivityMainBindingprivate var cameraProvider: ProcessCameraProvider? = nulloverride fun onCreate(savedInstanceState: Bundle?) {super.onCreate(savedInstanceState)binding = ActivityMainBinding.inflate(layoutInflater)setContentView(binding.root)requestPermission()binding.btnOperation.setOnClickListener {cameraProvider?.let {binding.btnOperation.text = "点击开始文本识别"cameraProvider?.unbindAll()cameraProvider = null} ?: run {binding.btnOperation.text = "点击停止文本识别"setupCamera()}}}// 其他方法和实现代码...}

onCreate() 方法中,我们设置了按钮的点击事件监听器。当按钮被点击时,我们根据当前的相机状态执行相应的操作。如果相机已经初始化并正在运行,我们会停止文本识别并释放相机资源。如果相机未初始化或已停止,我们将开始文本识别并设置相机。

接下来,我们实现了请求相机权限的方法 requestPermission(),并在 onCreate() 方法中调用它。在 onRequestPermissionsResult() 方法中,我们检查相机权限的授权结果。如果权限被授予,我们将调用 setupCamera() 方法初始化相机。如果权限被拒绝,我们将显示一个简短的提示消息。

/**
* 申请相机权限
*/
private fun requestPermission() {if (ContextCompat.checkSelfPermission(this, Manifest.permission.CAMERA) != PackageManager.PERMISSION_GRANTED) {ActivityCompat.requestPermissions(this, arrayOf(Manifest.permission.CAMERA), CAMERA_PERMISSION_CODE)} else {setupCamera()}
}override fun onRequestPermissionsResult(requestCode: Int, permissions: Array<out String>, grantResults: IntArray) {super.onRequestPermissionsResult(requestCode, permissions, grantResults)if (requestCode == CAMERA_PERMISSION_CODE) {if (grantResults.isNotEmpty() && grantResults[0] == PackageManager.PERMISSION_GRANTED) {setupCamera()} else {Toast.makeText(this, "权限被拒绝", Toast.LENGTH_SHORT).show()}}
}

requestPermission() 方法中,我们检查相机权限并请求授权。如果权限已被授予,我们将调用 setupCamera() 方法初始化相机。

/**
* 设置相机
*/
private fun setupCamera() {val cameraProviderFuture = ProcessCameraProvider.getInstance(this)cameraProviderFuture.addListener({val cameraProvider = cameraProviderFuture.get()bindPreview(cameraProvider)}, ContextCompat.getMainExecutor(this))
}

setupCamera() 方法中,我们使用 ProcessCameraProvider 获取相机实例,并通过 bindPreview() 方法将相机与 PreviewView 绑定。

/**
* 绑定 preview
*/
private fun bindPreview(cameraProvider: ProcessCameraProvider) {this.cameraProvider = cameraProviderval preview = Preview.Builder().build()val cameraSelector = CameraSelector.DEFAULT_BACK_CAMERApreview.setSurfaceProvider(binding.preView.surfaceProvider)val analysis = ImageAnalysis.Builder().setOutputImageFormat(ImageAnalysis.OUTPUT_IMAGE_FORMAT_YUV_420_888).setBackpressureStrategy(ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST).build()analysis.setAnalyzer(Executors.newSingleThreadExecutor(), this::analyzeImage)cameraProvider.bindToLifecycle(this, cameraSelector, preview, analysis)
}

bindPreview() 方法中,我们创建了一个 Preview 实例,并将其与默认后置摄像头绑定。然后,我们设置 PreviewView 的 SurfaceProvider,并创建一个 ImageAnalysis 实例用于图像分析。通过设置图像分析器的回调方法,我们可以在每帧图像上执行文本识别。

/**
* 解析文本
*/
@SuppressLint("UnsafeOptInUsageError")
private fun analyzeImage(imageProxy: ImageProxy) {val image = imageProxy.image ?: returnval inputImage = InputImage.fromMediaImage(image, imageProxy.imageInfo.rotationDegrees)val recognizer = TextRecognition.getClient(ChineseTextRecognizerOptions.Builder().build())recognizer.process(inputImage).addOnSuccessListener { result ->binding.tvContent.text = result.text}.addOnCompleteListener {// 释放ImageProxy对象 imageProxy.close()}.addOnFailureListener {// 处理识别过程中的错误it.printStackTrace()imageProxy.close()}
}

通过实现了 analyzeImage() 方法,用于分析图像并执行文本识别。在该方法中,我们首先将 ImageProxy 转换为 InputImage,然后创建一个中文文本识别器。接下来,我们使用识别器对图像进行处理,并在成功完成时更新 TextView 的内容。无论成功与否,最后都会关闭 ImageProxy。这里如果我们想识别图片(Bitmap)中的文字可以调用 InputImage.fromBitmap 方法即可。

演示

Ok,到这里我们文本识别的功能 demo 就实现了, 看看效果吧:

textreconition.gif

总结

通过结合 MLKit 和 PreviewView,我们可以轻松实现 Android 应用程序中的文本识别功能。在本篇文章中,我们详细讲解了如何使用 MLKit 和 PreviewView 实现文本识别。感兴趣的小伙伴可参考 Demo 地址:TextRecognition

相关文章:

Android 文本识别:MLKIT + PreviewView

随着移动设备的普及和摄像头的高像素化&#xff0c;利用相机进行文本识别成为了一种流行的方式。MLKit 是 Google 提供的一款机器学习工具包&#xff0c;其中包含了丰富的图像和语言处理功能&#xff0c;包括文本识别。PreviewView 是 Android Jetpack 的一部分&#xff0c;它提…...

刮泥机的分类有哪些及组成部分

刮泥机的分类有哪些及组成部分 刮泥机的分类&#xff1a; 刮泥机主要包括&#xff1a;周边传动刮泥机、中心传动浓缩刮泥机。 1、中心传动浓缩刮泥机&#xff1a;主要由溢流装置、大梁及拦杆、进口管、传动装置、电器箱、稳流筒、主轴、浮渣耙板、刮集装置、水下轴承、小刮刀、…...

Qt编程基础 | 第六章-窗体 | 6.2、VS导入资源文件

一、VS导入资源文件 1.1、导入资源文件 步骤一&#xff1a; 将所有图片放到各自文件夹下&#xff0c;并将文件夹拷贝到资源文件&#xff08;.qrc文件&#xff09;的同级目录下&#xff0c;如下&#xff1a; 步骤二&#xff1a; 新建VS项目的时候&#xff0c;系统会自动建好一…...

NET框架程序设计-第4章类型基础

4.1 所有类型的基类型&#xff1a;System.Object CLR 要求每个类型最终都要继承自 System.Object 类型。 两种类型定义&#xff1a; 1&#xff09;隐式继承 //隐式继承 Object class Employee{}2&#xff09;显式继承 class Employee:System.Object{}System.Object 主要的公…...

Java设计模式-备忘录模式

简介 在软件开发中&#xff0c;设计模式是为了解决常见问题而提出的一种经过验证的解决方案。备忘录模式&#xff08;Memento Pattern&#xff09;是一种行为型设计模式&#xff0c;它允许我们在不破坏封装性的前提下&#xff0c;捕获和恢复对象的内部状态。 备忘录模式是一种…...

Zookeeper集群 + Kafka集群

Zookeeper 概述 Zookeeper 定义 Zookeeper是一个开源的分布式的&#xff0c;为分布式框架提供协调服务的Apache项目。 Zookeeper 工作机制 Zookeeper从设计模式角度来理解&#xff1a;是一个基于观察者模式设计的分布式服务管理框架&#xff0c;它负责存储和管理大家都关心的数…...

“邮件营销新趋势,这个平台让你收获颇丰!

随着各媒体平台的迅速发展&#xff0c;2023年大家更专注于视频营销、网红营销、直播营销等营销方式。可以见得&#xff0c;数字媒介手段的发展&#xff0c;对于营销方式也产生了巨大的影响。但是&#xff0c;企业在拥抱新兴的营销方式的同时&#xff0c;也不要忽视传统的营销方…...

Python列表推导

列表推导式 列表推导式创建列表的方式更简洁。常见的用法为&#xff0c;对序列或可迭代对象中的每个元素应用某种操作&#xff0c;用生成的结果创建新的列表&#xff1b;或用满足特定条件的元素创建子序列。 例如&#xff0c;创建平方值的列表&#xff1a; squares [] for …...

git使用查看分支、创建分支、合并分支

一、查看分支 查看的git命令如下&#xff1a; git branch 列出本地已经存在的分支&#xff0c;并且当前分支会用*标记 git branch -r 查看远程版本库的分支列表 git branch -a 查看所有分支列表&#xff08;包括本地和远程&#xff0c;remotes/开头的表示远程分支&#xff09;…...

vue3.0与vue2.0

一、生命周期的变化 1.vue2.响应式架构 2.vue3.0 响应式架构图 Vue3.0响应式框架在设计上&#xff0c;将视图渲染和数据响应式完全分离开来。将响应式核心方法effect从原有的Watcher中抽离。这样&#xff0c;当我们只需要监听数据响应某种逻辑回调(例如监听某个text属性的变化…...

HTML 中的常用标签用法

HTML是构建Web页面的基础语言&#xff0c;其中包含许多不同类型的标签。这些标签由尖括号包围&#xff0c;以指示浏览器如何呈现文本。下面是HTML中的一些常用标签以及它们的使用方法&#xff1a; 标题标签&#xff08;h1-h6&#xff09; 标题标签用于标识页面内容的标题&…...

【C++】指针 - 定义和使用,所占内存空间,空指针,野指针,const 修饰指针,指针和数组,指针和函数

文章目录 1. 定义和使用2. 所占内存空间3. 空指针4. 野指针5. const 修饰指针6. 指针和数组7. 指针和函数 1. 定义和使用 数据类型 * 变量名; 指针的作用是&#xff0c;可以通过指针间接访问内存。 内存编号是从 0 开始记录的&#xff0c;一般用十六进制数字表示。可以利用指…...

新规之下产业园区如何合理收费水电费用

一、政策背景 2018年3月30日&#xff0c;国家发改委发布《国家发展改革委关于降低一般工商业电价有关事项的通知》。明确提出进一步规范和降低电网环节收费&#xff0c;一是提高两部制电价的灵活性&#xff1b;二是全面清理规范电网企业在输配电价之外的收费项目&#xff0c;重…...

1011. 在 D 天内送达包裹的能力

传送带上的包裹必须在 days 天内从一个港口运送到另一个港口。 传送带上的第 i 个包裹的重量为 weights[i]。每一天&#xff0c;我们都会按给出重量&#xff08;weights&#xff09;的顺序往传送带上装载包裹。我们装载的重量不会超过船的最大运载重量。 返回能在 days 天内将…...

基于SpringBoot养老院管理系统

目录 一、项目介绍 二. 运行环境 三、项目技术 四、部署项目 五、项目运行 六、项目展示 五、项目下载 一、项目介绍 基于springboot的养老院管理系统拥有多种角色账号&#xff1a;管理员和用户 管理员&#xff1a;管理员管理、用户管理、健康管理、病例方案管理、药品…...

1.3 eBPF的工作原理初探

写在前面 上一节提到过,eBPF程序是面向BPF体系结构指令集编写的,它并不直接运行在Linux内核中,我们可以理解为它是运行在eBPF虚拟机,由eBPF虚拟机来执行eBPF字节码,就像java运行在jvm一样。 我们用一张原理图来看下eBPF程序的编译,加载,验证,钩子,映射等结点。 如上是…...

【CH32】| 02——常用外设 | GPIO

系列文章目录 【CH32】| 00——开发环境搭建 【CH32】| 01——新建工程 | 下载 | 运行 |调试 【CH32】| 02——常用外设 | GPIO 失败了也挺可爱&#xff0c;成功了就超帅。 文章目录 前言1. GPIO简介2. IO口的内部结构框图保护二极管上下拉电阻施密特触发器两个MOS管输出寄存器…...

第四章 测试用例编

本科程目标 1.什么是测试用例 2.测试用例的重要性 3.测试用例的八大要素&#xff08;重点&#xff09; 4.测试用例的评审 一、什么叫软件测试用例 测试用例&#xff08;TestCase&#xff09;是为项目需求而编制的一组测试输入、执行条件以及预期结果&#xff0c;以便测试…...

解决dpdk reserve的内存返回的虚拟地址和iova地址一样的问题

1. 背景: 在ubuntu20.04上用dpdk API: rte_memzone_reserve_aligned("L1L2_PCIE_MEMORY", 1.5*1024*1024*1024, rte_socket_id(), RTE_MEMZONE_1GB|RTE_MEMZONE_IOVA_CONTIG, RTE_CACHE_LINE_SIZE); 分配1.5…...

JQuery实现小项目

博主简介&#xff1a;想进大厂的打工人博主主页&#xff1a;xyk:所属专栏: JavaEE初阶 目录 文章目录 一、JQuery是什么 二、JQuery项目 2.1 猜数字 2.2 表白墙 2.3 聚合搜索 2.4 计算器 一、JQuery是什么 jQuery是一个快速、简洁的JavaScript框架&#xff0c;是继Prototype之…...

如何获取VMware Workstation Pro 17免费许可证密钥:完整实践指南

如何获取VMware Workstation Pro 17免费许可证密钥&#xff1a;完整实践指南 【免费下载链接】VMware-Workstation-Pro-17-Licence-Keys Free VMware Workstation Pro 17 full license keys. Weve meticulously organized thousands of keys, catering to all major versions o…...

5分钟快速上手:E7Helper第七史诗智能挂机助手完整使用指南

5分钟快速上手&#xff1a;E7Helper第七史诗智能挂机助手完整使用指南 【免费下载链接】e7Helper 【Epic Seven Auto Bot】第七史诗多功能覆盖脚本(刷书签&#x1f343;&#xff0c;挂讨伐、后记、祭坛✌️&#xff0c;挂JJC等&#x1f4db;&#xff0c;多服务器支持&#x1f4…...

RFSoC在C波段加速器LLRF系统中的创新应用

1. C波段加速器与RFSoC LLRF系统概述在粒子加速器领域&#xff0c;射频&#xff08;RF&#xff09;控制系统的精度直接决定了束流品质。传统低电平射频&#xff08;LLRF&#xff09;控制系统采用模拟混频架构&#xff0c;需要大量本地振荡器、混频器和滤波器&#xff0c;导致系…...

探索 IwaraDownloadTool:从手动下载到智能嗅探的实践路径

探索 IwaraDownloadTool&#xff1a;从手动下载到智能嗅探的实践路径 【免费下载链接】IwaraDownloadTool Iwara 下载工具 | Iwara Downloader 项目地址: https://gitcode.com/gh_mirrors/iw/IwaraDownloadTool 你是否曾花费数小时在Iwara平台上一一保存心仪的视频内容&…...

LPCM框架:芯片设计自动化的机器学习新范式

1. LPCM框架概述&#xff1a;芯片设计自动化的新范式在半导体行业持续面临"摩尔定律"放缓的背景下&#xff0c;LPCM&#xff08;Large Processor Chip Model&#xff09;框架代表了一种突破性的芯片设计方法论。这个框架本质上是一个融合了多模态机器学习与强化学习的…...

Transformer模型推理性能实测:PyTorch+A10 GPU与MLX+Apple Silicon对比

1. 项目概述与背景最近在部署几个基于Transformer的NLP服务时&#xff0c;遇到了一个经典的选择题&#xff1a;是继续沿用我们团队熟悉的PyTorch NVIDIA GPU方案&#xff0c;还是尝试拥抱苹果生态&#xff0c;用MLX框架在Mac上跑推理&#xff1f;这个问题在团队内部引发了不小…...

序数回归实战:从KNN阈值优化到神经网络模型全解析

1. 项目概述&#xff1a;当回归遇上“有序”世界在机器学习的工具箱里&#xff0c;回归和分类是两大基石。回归预测连续值&#xff0c;比如房价、温度&#xff1b;分类预测离散标签&#xff0c;比如猫、狗、汽车。但现实世界并非总是非黑即白&#xff0c;有一种特殊的数据类型常…...

国密滑块登录实战:SM2+SM4密码链路全解析

1. 这不是“加个密”那么简单&#xff1a;滑块登录里藏着的国密链路真相你有没有试过&#xff0c;在某个政务类App或银行类Web端拖动滑块完成登录后&#xff0c;页面瞬间跳转&#xff0c;但控制台Network面板里却找不到任何明文密码字段&#xff1f;甚至抓包发现&#xff0c;提…...

离线的银河麒麟系统部署ollama

一、概述 在离线的银河麒麟系统进行开发工作&#xff0c;总会遇到一些简单琐碎的问题&#xff0c;并且一些算法或者需要导入或者需要手敲&#xff0c;是一件很折磨的事。因此在服务器本地部署大模型&#xff0c;十分有必要。 二、部署方案 采用 docker ollama qwen2.5-code…...

未来趋势洞察:后端开发技术的前沿动态与发展方向

在数字化浪潮席卷全球的今天&#xff0c;后端开发作为支撑各类应用的核心力量&#xff0c;正经历着前所未有的变革。随着云计算、人工智能、物联网等新兴技术的迅猛发展&#xff0c;后端开发技术也在不断演进&#xff0c;呈现出一系列新的趋势和方向。本文将深入探讨未来后端开…...