登录 / 注册
IT168服务器频道
IT168首页 > 服务器 > 服务器资讯 > 正文

人工智能语音识别漫漫长路 任重而道远

2018-03-07 13:38    it168网站原创  作者: 李佳惠 编辑: 李佳惠

  【IT168 资讯】语音识别已经走过了很长的路,但这只是一个开始。我们需要了解它是如何工作的,一些最好的语音识别技术是什么,等等。

  今天,随着新技术的出现,通信发生了变化。对于所谓的大型企业,一个“物理人”是从来不会回应我们的。相反,自动录音会回答并指示你按下按钮以浏览内置菜单。许多移动应用程序开发公司提出的想法不仅仅是按下按钮,客户只需说一些词就可以解决他们的疑问。

  这怎么可能?

  这完全归功于通过声学和语言建模使用算法的语音识别程序。声学建模表示语言单位的语音和音频信号之间的联系,并且语言建模将声音与单词序列相匹配以区分发音相似的单词。

  该软件可用于家庭和企业,使用户能够通过文字处理和语音识别与电脑交谈并将文字转换为文本。你可以访问功能命令,如设置闹钟、打开文件,在你最喜爱的餐厅预订等等。另一方面,一些移动应用程序可以用于精确的业务设置,例如医疗或法律转录。

  阻止语音识别成为主导的是它的不可靠性。有时候,口音或言语障碍不能被文字识别平台所理解。因为,仅仅识别声音是不够的,软件还必须识别新的单词和专有名词。

  这项技术是如何工作的

  世界充斥着智能手机、智能汽车和智能家电,但我们并不总是考虑语音在这些设备中扮演的角色。语音识别非常复杂。例如,想象一下孩子如何学习一门语言。从孩子出生的那一天起,声音就围绕着他们。虽然很小的孩子不理解这些单词,但它们吸收了所有的提示和发音,而且他们的大脑根据父母的交流方式形成了模式和联系。

  语音识别技术的工作原理基本相同:

  ·用户通过在移动应用上调用语音识别来说出一些词语。

  ·说出的单词由识别软件处理并转换为文本。

  ·然后将转换后的文本作为输入提供给搜索机制,从而返回结果。

  Google的机器学习算法现在已经为英语达到了95%的字词准确率。

  基于语音的移动应用的优势

  更简单、更快速:最初,提供命令的唯一选择是使用键盘。现在我们可以通过语音识别,这样,与设备的通信变得更快、更自然。

  精确地工作:可以避免错误,用户可以专注于他们正在做的事情,而不是看他们的手机

  提高生产力:基于语音的移动应用程序提供简化操作,可提高运营效率。

  安全性改进:语音技术可以快速安全地解释和遵循,并且需要较少的训练。

  多种用途:通过移动设备进行的基于声音的订单有助于执行任务。

  为什么这很重要

  通过将语音识别技术集成到你的移动应用程序中,你可以不必通过使用手机的键盘来做更多的事情。当发短信给某人时,输入较长的语句可能会导致错误,并且始终单调乏味,但通过语音功能,你可以拥有免提通信体验。

  借助语音技术,移动应用程序开发人员可以增加用户交互和用户体验,因为移动应用程序命令提供解决用户体验问题的独特方式。由此,语音助可以说是最简单的解决方案。

  集成语音功能时面临的挑战

  由于语音集成是一项相对较新的技术,因此挑战必然会出现。

  实时响应行为:实时响应取决于设备的网络功能:网络连接和麦克风。当用户提供语音命令时,移动应用必须与服务器交互以将语音数据转换为文本。一旦文本被转换并发送回设备,它就是可执行的动作。发送和接收应用程序行为的过程称为实时响应行为。如果定义的操作要搜索,则设备会向服务器发送另一个请求以获取结果。在这种情况下,网络延迟可能是最具挑战性的事情。为了克服这一点,开发人员必须确保应用程序的源代码得到了适当的优化。此外,他们可以将语音识别和搜索功能移到服务器端。

  语言和口音:每种软件都不支持所有语言,开发人员需要确定目标受众的区域,以便在识别语言或口音时作出战略决策。口音是语言的问题,因为难以定位和识别每个口音以及与之相关的语言。Google的API支持不同的口音,并且是让你的移动应用程序支持大量不同口音的最佳方式。

  标点符号:这是基于语音的软件面临的最大挑战之一。不幸的是,即使是最好的改进和算法也可能不起作用,因为在现实生活中有无尽的句子和不同的标点符号。

  一些最佳的语音识别技术

  百度:来自中国的一项技术,百度专注于互联网相关服务和人工智能。这种语音识别技术是深度学习、计算机视觉、语音识别和合成、自然语言理解、数据挖掘和BI的融合。它依赖于深度学习算法,包括对多层神经元虚拟网络的训练,以识别庞大数据的模式。百度移动应用程序使用户能够使用语音进行搜索,并附带名为Duer的语音助理。语音查询在中国更受欢迎,因为输入文字比较费时,而且有些人不知道如何使用拼音。

  Siri:“Hey Siri”功能使用户能够调用免提模式的通信。 Siri在iOS7中的工作比早期版本更好。它的反应更快、理解更多、说话更自然。如果你看一个网页或应用程序,你可以说,“提醒我这个,”Siri就会知道你在看什么,并添加提醒。你甚至可以添加时间或地点,不再需要复制/粘贴某个东西或者准确描述你想要的东西。

  微软 Cortana:Cortana是微软为多款产品创建的虚拟助手。这是一个免费的数字助理,可以发送提醒、保留笔记和列表、处理任务,并帮助你管理日历。这个应用程序可以提供基于位置的通知、安排会议、附加照片提醒等等。

  当使用Office 365或Outlook时,Cortana可以提醒你电子邮件中列出的待办事项。与其他智能手机助理类似,Cortana会为你搜索查询,找到一个快速答案,甚至可以帮助你找到你喜欢的餐厅,并提供其他合适的建议。

  1.   亚马逊Alexa:使用Alexa就像询问一个问题一样简单。只要求播放音乐、调整光线或阅读食谱,无需任何屏幕或任何手动激活,即可立即回答。无论你是在家还是在旅途中,Alexa的设计都让你的声音控制你的世界,让生活更轻松。你与Alexa交谈的越多,它采用的语音模式、发音和个人喜好就越多。利用Alexa应用程序,只需连接家中的Wi-Fi网络,即可致电或发送任何信息。一旦你习惯了使用Alexa,它可能会比与Siri这样的基于电话的语音助理交谈更自然也更有反应。而且达成的结果是,当你在家时,你会发现自己使用手机的频率较低。 

  结论

  语音识别技术确实走过了漫长的道路,随着移动应用开发公司之间的激烈竞争,语音识别技术进步的发展在我们面前迈出了漫长的道路。

标签: 人工智能
相关文章
  • IT168企业级IT168企业级
  • IT168文库IT168文库

扫码送文库金币

编辑推荐
系统架构师大会
系统架构师大会
点击或扫描关注
IT168企业级微信关注送礼
IT168企业级微信关注送礼
扫描关注
首页 评论 返回顶部