多模流程视觉感知算法的演进算法迭代视觉识别的流程

今天的内容主要分为4个部分来介绍多模态搜索技术:

01多模式搜索:从移动开始,在5G+智能时代蓬勃发展

1. 多模态搜索的概念

多模式搜索包括视觉搜索和语音搜索两种形式。百度app下方,语音按钮部分是语音搜索的入口。搜索框右侧的摄像头按钮是视觉搜索的入口。语音搜索可以很好地替代文字搜索,视觉搜索可以帮助用户轻松找到图片背后的信息。

2.百度为何在2015年开始积累多模态搜索技术

3. 5G新时代多模搜索的变化

02语音搜索:听清楚+懂+满足

1. 语音搜索的三个目标:听清楚、听懂、满意

2. 技术解决方案

这三个阶段的总体技术框架如下:

03 视觉搜索:所见即所得

1. 目标

视觉搜索要做的就是所见即所得。无论是用户通过手机拍摄的东西,还是通过摄像头实时看到的东西,我们都可以给出它背后的内容。大约有三个挑战。

2. 成就

经过几年的努力中文搜索引擎的比较研究,百度取得了比较好的技术积累中文搜索引擎的比较研究,实现了世界领先的视觉感知和搜索引擎。从交互的角度来看,它基本上可以在 100 毫秒左右给用户在手机上很好的感知反馈。同时,它涵盖了60多个场景,索引了超过8000万个实体和数十亿种商品。有超过 1000 亿张图片。

3. 视觉科技

整个视觉搜索技术大致分为三个层次。

4. 视觉感知过程

将视觉感知构建为基于视频流的感知计算和MR交互的框架。这个框架是完全在端计算的,主要包括六个过程。

视觉感知算法的演进

算法迭代

5. 视觉识别检索过程

基本流程是:基于sift或cnn提取的特征,然后使用ANN进行检索。

我们大致经历了三个进化阶段:

监督方法的问题

无监督方法的选择和演化

04《破圈》:无限可能

有无限可能打破这个循环。未来多模搜索的技术和产品形态将向何处发展?读小小App就是答案之一。

度笑笑是2020年百度世界大会上首次发布的全新多模搜索产品。从技术上看,它是语音、视觉和文本三个技术领域的交汇点,汇集了语音识别,图像识别。,以及智能搜索、NLU和多轮对话技术,而且它本身就拥有一个头像,里面有丰富的语音合成技术,带有多种情感。其背后是百度各种技术手段和产品的整合,包括信息和服务搜索,以及互动娱乐板块。

未来,将通过更集成的多模态搜索技术,创造更多无限可能。

文章来源:http://www.toutiao.com/a7012834399876219424/

------本页内容已结束,喜欢请分享------

感谢您的来访,获取更多精彩文章请收藏本站。

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享