Android 9能在文本中精准检测地址和号码,是这样做到的

  • 时间:
  • 浏览:1

8月10日消息,据国外媒体报道,谷歌本周发布了最新版的移动操作系统AndroidPie,其中的亮点功能之一全都Smart Linkify。这是兩个 多进程编程接口,可在文本中检测到地址、电话号码和全都累似 信息并调用可点击链接。虽然 这听起来很炫酷,但事实上一切删改都是人工智能在身前作用的结果。

“在文本中识别出电话号码和地址往往是兩个 多问题报告 ,”谷歌人工智能软件工程师卢卡斯齐卡(Lukas Zilka)在一篇博客文章中写道。“这不仅是可能性他们在编写文本时有全都变化,否则文本中的组合代表哪些样的信息也总爱 是模棱两可(累似 :’确认号码:857-555-3556’并删改都是兩个 多电话号码,即使它采用了累似 于电话号码的形式)。”

齐卡解释说,Smart Linkify是对现有Android Linkify API的改进,其底层由兩个 多紧凑的、低延迟的前馈神经网络组成——由称为节点的简单处理单元层组成的机器学习算法——其中借用了前版移动操作系统Android Oreo的智能文本选折 功能。

你这兩个 多神经网络都依赖第兩个 多模型生成的数据。该模型从网络中提取电话号码、地址、产品、地点和商业名称,并随机加上“文本上下文”和短语(累似 “确认号码”和“ID”)。谷歌人工智能团队针对拉丁文字语言(英语、德语、波兰语和捷克语)使用三种算法,而针对日语、韩语、泰语、阿拉伯语和俄语等语种分别使用了删改不同的算法。

整个处理过程是从前的:要分析的文本被拆分为单词,否则从哪些单词中生成所有可能性的最大长度子序列。否则,系统中的第兩个 多神经网络为每个子序列分配兩个 多值(在0到1之间),表示它对我本人的身份(累似 给定的一串数字是密码还是电话号码)的置信度。

得分最低的子序列从列表中删除,否则第兩个 神经网络介入,按类型对子序列进行分类——即电话号码、地址或非实体信息。

“(网络)时需知道实体付进 的上下文(除了实体三种的文本字符串之外)。在机器学习中,这是通过将哪些每段表示为单独的行态来实现的。”齐卡表示,“实际上输入文本被拆分成几每段,分别馈送到神经网络。”

为此,单词被转加上n-gram模型(有时也称为N元模子,是大词汇连续语音识别中常用的三种语言模型),你你这个 技术“将(词汇)表示为一定长度的所有字符子序列的集合”。而兩个 多神经网络辨识哪些单词与否以大写字母开头——这是邮政地址的兩个 多显著行态。

在实践中,假设语录“约翰应该在周二打电话1- 4000-9444-9494”这句话,Smart Linkify首先会将“John应该拨打”与“1- 4000-9444-9494”分开,否则将“John应该拨打”和“1-4000-944-9494”分类为非实体电话号码和电话号码,最后在网络浏览器或进程中通过你你这个 电话号码创建兩个 多可点击的链接。

在智能手机硬件的限制下,你你这个 工作对人工智能团队来说是兩个 多额外的挑战。他们通过量化(三种将连续范围的值转换为有限范围离散值的压缩技术)以及在系统兩个 多神经网络之间共享全都数值表示等全都技术来处理你你这个 问题报告 。

在不久的将来,你你这个 团队希望为日期和时间创建机器学习模型——尤其是识别文本中的非正式短语,如“下周四”或“三周后”。

“他们相信你你这个 架构可不时需扩展到全都设备上的文本注释问题报告 ,他们期待看了新的用例,”齐卡写道。