多模流程视觉感知算法的演进算法迭代视觉识别的流程-4747i站长资讯

今天的内容主要分为4个部分来介绍多模态搜索技术：

01多模式搜索：从移动开始，在5G+智能时代蓬勃发展

1. 多模态搜索的概念

多模式搜索包括视觉搜索和语音搜索两种形式。百度app下方，语音按钮部分是语音搜索的入口。搜索框右侧的摄像头按钮是视觉搜索的入口。语音搜索可以很好地替代文字搜索，视觉搜索可以帮助用户轻松找到图片背后的信息。

2.百度为何在2015年开始积累多模态搜索技术

3. 5G新时代多模搜索的变化

02语音搜索：听清楚+懂+满足

1. 语音搜索的三个目标：听清楚、听懂、满意

2. 技术解决方案

这三个阶段的总体技术框架如下：

03 视觉搜索：所见即所得

1. 目标

视觉搜索要做的就是所见即所得。无论是用户通过手机拍摄的东西，还是通过摄像头实时看到的东西，我们都可以给出它背后的内容。大约有三个挑战。

2. 成就

经过几年的努力中文搜索引擎的比较研究，百度取得了比较好的技术积累中文搜索引擎的比较研究，实现了世界领先的视觉感知和搜索引擎。从交互的角度来看，它基本上可以在 100 毫秒左右给用户在手机上很好的感知反馈。同时，它涵盖了60多个场景，索引了超过8000万个实体和数十亿种商品。有超过 1000 亿张图片。

3. 视觉科技

整个视觉搜索技术大致分为三个层次。

4. 视觉感知过程

将视觉感知构建为基于视频流的感知计算和MR交互的框架。这个框架是完全在端计算的，主要包括六个过程。

视觉感知算法的演进

算法迭代

5. 视觉识别检索过程

基本流程是：基于sift或cnn提取的特征，然后使用ANN进行检索。

我们大致经历了三个进化阶段：

监督方法的问题

无监督方法的选择和演化

04《破圈》：无限可能

有无限可能打破这个循环。未来多模搜索的技术和产品形态将向何处发展？读小小App就是答案之一。

度笑笑是2020年百度世界大会上首次发布的全新多模搜索产品。从技术上看，它是语音、视觉和文本三个技术领域的交汇点，汇集了语音识别，图像识别。，以及智能搜索、NLU和多轮对话技术，而且它本身就拥有一个头像，里面有丰富的语音合成技术，带有多种情感。其背后是百度各种技术手段和产品的整合，包括信息和服务搜索，以及互动娱乐板块。

未来，将通过更集成的多模态搜索技术，创造更多无限可能。

文章来源:http://www.toutiao.com/a7012834399876219424/

------本页内容已结束，喜欢请分享------

感谢您的来访，获取更多精彩文章请收藏本站。

© 版权声明 1、本网站名称：4747i站长资讯
2、本站永久网址：https://4747i.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

编程技术
# 语音搜索 # 视觉识别