今天的内容主要分为4个部分来介绍多模态搜索技术:
01多模式搜索:从移动开始,在5G+智能时代蓬勃发展
1. 多模态搜索的概念
多模式搜索包括视觉搜索和语音搜索两种形式。百度app下方,语音按钮部分是语音搜索的入口。搜索框右侧的摄像头按钮是视觉搜索的入口。语音搜索可以很好地替代文字搜索,视觉搜索可以帮助用户轻松找到图片背后的信息。
2.百度为何在2015年开始积累多模态搜索技术
3. 5G新时代多模搜索的变化
02语音搜索:听清楚+懂+满足
1. 语音搜索的三个目标:听清楚、听懂、满意
2. 技术解决方案
这三个阶段的总体技术框架如下:
03 视觉搜索:所见即所得
1. 目标
视觉搜索要做的就是所见即所得。无论是用户通过手机拍摄的东西,还是通过摄像头实时看到的东西,我们都可以给出它背后的内容。大约有三个挑战。
2. 成就
经过几年的努力中文搜索引擎的比较研究,百度取得了比较好的技术积累中文搜索引擎的比较研究,实现了世界领先的视觉感知和搜索引擎。从交互的角度来看,它基本上可以在 100 毫秒左右给用户在手机上很好的感知反馈。同时,它涵盖了60多个场景,索引了超过8000万个实体和数十亿种商品。有超过 1000 亿张图片。
3. 视觉科技
整个视觉搜索技术大致分为三个层次。
4. 视觉感知过程
将视觉感知构建为基于视频流的感知计算和MR交互的框架。这个框架是完全在端计算的,主要包括六个过程。
视觉感知算法的演进
算法迭代
5. 视觉识别检索过程
基本流程是:基于sift或cnn提取的特征,然后使用ANN进行检索。
我们大致经历了三个进化阶段:
监督方法的问题
无监督方法的选择和演化
04《破圈》:无限可能
有无限可能打破这个循环。未来多模搜索的技术和产品形态将向何处发展?读小小App就是答案之一。
度笑笑是2020年百度世界大会上首次发布的全新多模搜索产品。从技术上看,它是语音、视觉和文本三个技术领域的交汇点,汇集了语音识别,图像识别。,以及智能搜索、NLU和多轮对话技术,而且它本身就拥有一个头像,里面有丰富的语音合成技术,带有多种情感。其背后是百度各种技术手段和产品的整合,包括信息和服务搜索,以及互动娱乐板块。
未来,将通过更集成的多模态搜索技术,创造更多无限可能。
文章来源:http://www.toutiao.com/a7012834399876219424/