近两年来AI产业已然成为新的焦点和风口,各互联网巨头都在布局人工智能,不少互联网产品经理也开始考虑转型AI产品经理,本文作者也同样在转型中。本篇文章是通过一段时间的学习归纳总结整理而成,力图通过这篇文章给各位考虑转型的产品经理们一个对AI的全局概括了解。本文分为上下两篇,此为上篇。
全文思维导图如下:
目录:
AI通识
AI应用领域
AI技术
小结
一、AI通识
1.1 AI产业结构
AI发展至今大致按照在产业结构上的分工不同产生了三种类型的公司,我们在转型时最好要先明确自己的优势及兴趣,来判断自己适合着眼于哪个层面的工作,从而进行针对性的学习和提升。
(1)行业+AI
这类公司重在“行业”,本身有着一定的行业积累,给用户提供AI赋能后的产品或服务。例如:智能家居、智能车载等。这类公司对产品经理的要求重点在对行业的理解上,以及需要对行业趋势有一定的insight。
目前此类公司的战略趋势是会越来越细分到具体的垂直场景上,所以这也对产品经理的场景分析能力有较高要求。
(2)AI+行业
这类公司重在“AI”,是由AI催生出来的行业,客户可以通过使用这类公司提供的服务或解决方案来完善自己的产品,从而快速提升自身产品的价值,例如:智能客服、智能外呼等。
此类公司商业模式主要以to B为主,所以需要产品经理具有较强的沟通能力,能快速挖掘理解客户的真实需求,并对项目具有一定的把控管理能力。
(3)基础平台
这类公司旨在提供基础AI技术平台,包括一些计算平台、算法平台,或者提供各场景的一手数据,从而帮助企业快速对接AI技术,大幅缩短客户在人工智能研发上的投入成本和周期。此类公司对产品经理的要求更侧重于对底层技术框架的理解。如果你曾经从事过研发工作,那么在该类公司工作会比较有优势。
1.2 AI产品经理的分类
AI产品经理,是直接应用或间接涉及了AI技术,进而完成相关AI产品的设计、研发、推广、产品生命周期管理等工作的产品经理。
引用@hanniman的观点,AI产品经理可以从狭义和广义来分类:
(1)狭义AI产品经理
1)定义
直接应用了语义、语音、计算机视觉和机器学习这4个领域的AI技术,进而完成相关AI产品的设计、研发、推广、产品生命周期管理等工作的产品经理。因为语义、语音、计算机视觉和机器学习这四个领域近几年的落地情况具有如下4个特点:
直到近些年才逐渐“可商用”(这4项AI技术,其实很多年前就有了,但一直不够完善);
可以应用到新产品形态/品类,比如:实体服务机器人、智能音箱、虚拟机器人等;
很可能应用了新的交互方式,比如:对话/语音/多模态等;
慢慢形成新职位,比如:TTS产品经理。
2)分类:
语义类AI产品经理:对话PM(可再细分为聊天、垂类等)、知识图谱PM、机器翻译PM、搜索PM等
语音类AI产品经理:ASR PM、TTS PM
视觉类AI产品经理:人脸识别PM、车辆识别PM、智能视频分析PM(涵盖了人脸、车辆、多目标等等)、图像检索PM
机器学习类AI产品经理:在出行、推荐、大数据等各种领域应用了机器学习技术的PM
终端应用类AI产品经理:还有一些PM,通过各种终端载体形式,也直接应用了以上4种AI技术中的1种或多种,比如:实体机器人PM、虚拟机器人PM、智能车载PM、智能家居PM(含智能音箱PM)、穿戴式设备PM(含VR、AR、MR、手表、手环、耳机等)、其他互联网产品形态的PM(公众号、QQ群、web页面、App等)
(2)广义AI产品经理
1)定义
间接涉及了语义、语音、计算机视觉和机器学习这4个领域的AI技术、或直接应用了其他还不够成熟的细分领域AI技术(比如:脑机接口、量子计算等),进而完成相关AI产品的设计、研发、推广、产品生命周期管理等工作的产品经理。
广义AI产品经理具有如下特点:
“间接涉及”的意思是,不直接掌握这4种AI技术,也能做当前的本质工作;特别的,这类职位,很可能在2015年前已经存在了。
至于“直接应用了其他还不够成熟的细分领域AI技术”,这类领域由于过于超前,AI技术还需要重大突破、市场还没有成熟,产品经理的产品设计职责不像互联网产品经理这么“重”。所以很可能由技术人员或公司创始人兼任,并会承担较多的项目经理工作职责——相应的,这类产品经理的数量,目前还非常少。
当然,未来,广义AI产品经理也会慢慢向狭义AI产品经理演变、融合。
2)分类
终端应用类产品经理(非狭义AI):在前文提及的实体机器人、虚拟机器人、智能车载、智能家居、穿戴式设备、其他互联网产品形态等各种终端载体上,没有直接应用(但间接涉及了)语义、语音、计算机视觉和机器学习这4种AI技术的PM。
策略类产品经理(非狭义AI):在出行、推荐、大数据等领域,没有直接应用(但间接涉及了)机器学习技术的PM
非成熟AI技术类:脑机接口、量子计算等。
1.3 AI产品经理的能力模型
每个行业的发展都要经过重技术、重产品、重运营这3个阶段,现如今AI行业已经步入第二个阶段即产品的优先性要高于技术和运营。在这种背景下,除了要具备通用产品思维外,行业还对AI产品经理在如下方面提出了更高的要求:
(1)找准商业变现模式和闭环
资本寒冬里,整个市场都在重新洗牌,这种情况下找准自己产品的商业模式就显得格外重要。陆奇曾说过,人工智能落地最关键的是找到场景和商业模式,做出极致体验,并快速迭代。
目前AI市场实现商业变现主要有两种方式:
一种是AI直接产出价值,通过AI来取代部分人力,提高生产效率并节省人力成本,例如智能客服系统等;
另一种则是AI赋能人类,为人类决策提供支持,例如AI在医疗领域的应用,辅助医生诊疗,AI都是作为助手的角色来帮助人类。
不管是哪种变现方式,要想把AI技术跟垂直行业结合,都要求AI产品经理真实地参与到业务的整个过程中,对行业有足够纵深的理解。从而从当前行业痛点入手,寻找具有商业价值并足够细分的垂直场景分析透彻,提炼出场景中可以帮助产品建立优势的关键点,评估投入产出比,调研用户若使用我们的产品解决当前问题愿意支付的价格,之后制定合适的商业推广策略和产品定价包装策略,最终实现产品变现。
目前商业化程度做的较好的行业有安防、金融、互联网服务、企业服务:
安防领域,在“雪亮工程”的政策推动下,针对人像数据、车辆数据的智能摄像机、后台分析系统等产品落地速度快。
在民用市场,人脸闸机成为民用市场的明星产品。
金融领域,智能风控和量化投资的技术应用商业化程度较高,作为“离钱最近”的行业,金融业原本积累的海量数据,使得人工智能在金融领域快速落地。
互联网服务领域,以翻译、P图、智能推荐、语音转写等服务为主,这些服务以智能手机为主要入口,与公众工作和生活的关系较紧密。
企业服务领域,智能营销和智能客服是两大主要落地的应用,前者重点基于人群大数据、通过数据挖掘技术实现精准营销,后者基于知识图谱和语音交互技术而正在被广泛应用于各行业。
(2)把控产品需求
找准产品的商业变现模式之后,就要深挖产品需求。首先要对公司整体产品架构有比较清晰的认识,在这个框架体系里评估当前需求是否符合公司整体战略规划,之后在这个战略方向上做MVP,验证成功则可以继续打磨细节持续优化,验证失败则再探索下一个方向。
业内通常认为人工智能的发展离不开三大要素:数据、算法、计算力,但人工智能落地的应用场景同样是一款产品能否取得成功的关键。
AI产品经理最核心的技能也在于此,即通过人工智能技术去重新定义场景和需求,提供一套可行的人工智能解决方案。在明确了具体的需求场景后,需要考虑清楚我们产品的客户会在当前流程里的哪个环节使用它,以及现有的方案是什么,我们的产品解决方案比现有方案好在哪里。AI
产品经理对产品的需求把控能力比传统互联网经理要求高不少,而且需要快速验证,在瞬息万变的AI领域迅速落地能解决痛点问题的产品。
现阶段的行业通识是选准一个足够细分的垂直领域去构建商业和技术壁垒,而不是与谷歌或百度竞争通用AI技术。目前to B的场景主要从提升人工效率、降低人力成本、帮助决策的方向考虑,to C的场景则更侧重于提高便利性。
(3)与技术互相推动,互相成就
作为AI产品经理,首先要认识到用户只在乎购买的产品帮他解决了什么问题,以及为此支付的价格是否值得,并不在乎产品使用了多复杂多前沿的技术。产品设计应当从商业盈利以及切实解决用户痛点的角度出发而非技术出发,所以AI产品经理在这个意义上可以根据商业及产品需要倒逼技术优化。
在实际的产品设计的过程中,AI产品经理必须理解技术实现过程,找到用户需求和AI技术的交叉点,设计的产品要和团队现有数据、算法、计算能力匹配。做到准确传达产品需求,帮助研发工程师快速实现产品目标,缩短研发工程师找到最佳技术方案的时间。并能使用非技术语言,将研发过程中的技术原理及出现的问题及时与leader和客户沟通,来获得支持和认可。
此外,AI产品经理还需要拓宽自己的认知极限,了解技术边界,多跟团队里的AI工程师交流,平时也要随时关注AI行业最新动态和变革,阅读前沿paper。
(4)获取用户信任
随着AI技术的发展,AI涉及到的伦理和道德及法律风险也越来越引起大众的关注。美国很多人工智能公司已经成立了伦理审查委员会来检查人工智能产品的设计方案是否符合道德,并确保用户的安全和权益收到保护。
作为AI产品经理,设计的产品可能会承担着更高的法律和道德风险。目前很多公司已经意识到AI对人类在道德伦理上的影响并做出举措,在今年的谷歌开发者大会上谷歌就为Google Assistant加入了针对儿童的Pretty please功能,鼓励小孩对进行礼貌提问。
在技术发展的过程中,不可避免会引发一些问题造成用户的不信任。2016年3月,Twitter上线了一款聊天机器人Tay,但是仅在一天的时间里,Tay就在与网民互动过程中学习成为了一个集性别歧视、种族歧视等于一身的“不良少女”。
类似的,虽然淘宝基于大数据的个性化推荐十分精准,但是因为可解释性较差导致很多用户对如此精准的推荐感到十分不安,并认为这种个性化推荐可能侵犯了他们的隐私权。
AI 未来的发展方向可能更应该将更多的决策过程展示出来,让用户理解和明白为什么要做这样的决策,而不应该仅仅是一个黑盒。
二、AI应用领域
AI目前主要的应用领域有3个方向,包括:计算机视觉、语音交互、自然语言处理。
2.1 计算机视觉(CV)
计算机视觉是一门研究如何使机器“看”的科学,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉的应用,是使用计算机及相关设备对生物视觉的一种模拟,对采集的图片或视频进行处理从而获得相应场景的三维信息,让计算机具有对周围世界的空间物体进行传感、抽象、判断的能力。
计算机视觉在现实场景中应用价值主要体现在可以利用计算机对图像和视频的识别能力,替代部分人力工作,节省人力成本并提升工作效率。传统的计算机视觉基本遵循图像预处理、提取特征、建模、输出的流程,不过利用深度学习,很多问题可以直接采用端到端,从输入到输出一气呵成。
(1)研究内容
实际应用中采集到的图像的质量通常都没有实验室数据那么理想,光照条件不理想,采集图像模糊等都是实际应用中常见的问题。所以首先需要校正成像过程中,系统引进的光度学和几何学的畸变,抑制和去除成像过程中引进的噪声,这些统称为图像的恢复。
对输入的原始图像进行预处理,这一过程利用了大量的图像处理技术和算法,如:图像滤波、图像增强、边缘检测等,以便从图像中抽取诸如角点、边缘、线条、边界以及色彩等关于场景的基本特征;这一过程还包含了各种图像变换(如:校正)、图像纹理检测、图像运动检测等。
根据抽取的特征信息把反映三维客体的各个图象基元,如:轮廓、线条、纹理、边缘、边界、物体的各个面等从图象中分离出来,并且建立起各个基元之间的拓朴学上的和几何学上的关系——称之基元的分割和关系的确定。
计算机根据事先存贮在数据库中的预知识模型,识别出各个基元或某些基元组合所代表的客观世界中的某些实体——称之为模型匹配,以及根据图象中各基元之间的关系,在预知识的指导下得出图象所代表的实际景物的含义,得出图象的解释或描述。
(2)应用场景
计算机视觉的应用场景非常广,例如:无人驾驶、无人安防、人脸识别、光学字符识别、物体追踪、车辆车牌识别、以图搜图、医学图像分析等。最近B站新上线的弹幕防挡脸功能,即在播放视频时弹幕经过人脸则自动隐藏,也是应用了CV,这个小功能对B站核心价值之一的弹幕进行了进一步优化,大大提升了用户体验。
(3)瓶颈
目前在实际应用中采集到的数据还是不够理想,光照条件、物体表面光泽、摄像机和空间位置变化都会影响数据质量,虽然可以利用算法弥补,但是很多情况下信息缺失无法利用算法来解决。
在一幅或多幅平面图像中提取深度信息或表面倾斜信息并不是件容易的事,尤其是在灰度失真、几何失真还有干扰的情况下求取多幅图像之间的对应特征更是一个难点。除了得到物体的三维信息外,在现实世界里,物体间相互遮挡,自身各部位间的遮挡使得图像分拆更加复杂。
预知识设置的不同也使得同样的图像也会产生不同的识别结果,预知识在视觉系统中起着相当重要的作用。在预知识库中存放着各种实际可能遇到的物体的知识模型,和实际景物中各种物体之间的约束关系。计算机的作用是根据被分析的图象中的各基元及其关系,利用预知识作为指导,通过匹配、搜索和推理等手段,最终得到对图象的描述。在整个过程中预知识时刻提供处理的样板和证据,每一步的处理结果随时同预知识进行对比,所以预知识设置会对图像识别结果产生极大影响。
(4)提供相关方案的企业
旷视face++人工智能开放平台(提供人脸识别、人体识别、文字识别等技术方案) :https://www.faceplusplus.com.cn/
商汤科技(提供人脸和人体分析、通用与专业图像分析、视频处理等技术以及提供智慧安防、智能终端、智能金融等解决方案):https://www.sensetime.com/core
腾讯优图AI开放平台(提供人脸及人体识别、图像识别、文字识别等技术及天眼安防、天眼交通等解决方案):https://open.youtu.qq.com/#/open
百度AI开放平台(提供人脸及人体识别、图像识别、文字识别、图像审核等):http://ai.baidu.com/tech/imagerecognition
阿里云(提供人脸识别、图像识别、图像搜索、视频识别等):https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
图普科技(提供图像内容审核、人脸和人体识别、文字识别、图像场景识别等技术方案):https://www.tuputech.com/
格灵深瞳(人眼摄像机、视图大数据分析平台、人脸识别系统等):http://www.deepglint.com/
2.2 语音交互
语音交互也是非常热门的方向之一,其实语音交互整个流程里包含语音识别、自然语言处理和语音合成。自然语言处理很多时候是作为单独的一个领域来研究的,本文也将单独介绍自然语言处理,所以此处只介绍语音识别和语音合成。
语音交互的最佳应用场景便是眼睛不方便看,或者手不方便操作的时候。“不方便看”比较典型的场景便是智能车载,“不方便操作”比较典型的场景便是智能音箱,这也是目前比较火的两个细分方向。
一个完整的语音交互基本遵循下图的流程:
(1)语音识别(ASR)
1)研究内容
语音识别的输入是声音,属于计算机无法直接处理的模拟信号,所以需要将声音转化成计算机能处理的文字信息。传统的识别方式需要通过编码将其转变为数字信号,并提取其中的特征进行处理。
传统方式的声学模型一般采用隐马尔可夫模型(HMM),处理流程是语音输入——编码(特征提取)——解码——输出。
还有一种“端到端”的识别方式,一般采用深度神经网络(DNN),这种方式的声学模型的输入通常可以使用更原始的信号特征(减少了编码阶段的工作),输出也不再必须经过音素等底层元素,可以直接是字母或者汉字。
在计算资源与模型的训练数据充足的情况下,“端到端”方式往往能达到更好的效果。目前的语音识别技术主要是通过DNN实现的。语音识别的效果一般用“识别率”,即识别文字与标准文字相匹配的字数与标准文字总字数的比例来衡量。目前中文通用语音连续识别的识别率最高可以达到97%。
2)衍生研究内容
麦克风阵列:在家庭、会议室、户外、商场等各种环境下,语音识别会有噪音、混响、人声干扰、回声等各种问题。在这种需求背景下可以采用麦克风阵列来解决。麦克风阵列由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统,可以实现语音增强、声源定位、去混响、声源信号提取/分离。麦克风阵列又分为:2麦克风阵列、4麦克风阵列、6麦克风阵列、6+1麦克风阵列。随着麦克风数量的增多,拾音的距离,噪声抑制,声源定位的角度,以及价格都会不同,所以要贴合实际应用场景来找到最佳方案。
远场语音识别:解决远场语音识别需要结合前后端共同完成。前端使用麦克风阵列硬件,解决噪声、混响、回声等带来的问题,后端则利用近场远场的声学规律不同构建适合远场环境的声学模型,前后端共同解决远场识别的问题。
语音唤醒:通过关键词唤醒语音设备,通常都是3个音节以上的关键词。例如:嘿Siri、和亚马逊echo的Alexa。语音唤醒基本是在本地进行的,必须在设备终端运行,不能切入云平台。因为一个7×24小时监听的设备要保护用户隐私,只能做本地处理,而不能将音频流联网进行云端处理。 语音唤醒对唤醒响应时间、功耗、唤醒效果都有要求。
语音激活检测:判断外界是否有有效语音,在低信噪比的远场尤为重要。
(2)语音合成(TTS)
1)研究内容
是将文字转化为语音(朗读出来)的过程,目前有两种实现方法,分别是:拼接法和参数法。
拼接法是把事先录制的大量语音切碎成基本单元存储起来,再根据需要选取拼接而成。这种方法输出语音质量较高,但是数据库要求过大。
参数法是通过语音提取参数再转化为波形,从而输出语音。这种方法的数据库要求小,但是声音不可避免会有机械感。
DeepMind早前发布了一个机器学习语音生成模型WaveNet,直接生成原始音频波形,可以对任意声音建模,不依赖任何发音理论模型,能够在文本转语音和常规的音频生成上得到出色的结果。
2)瓶颈
个性化TTS数据需求量大,在用户预期比较高的时候难满足。需要AI产品经理选择用户预期不苛刻的场景,或者在设计时管理好用户预期。
(3)提供相关方案的企业
讯飞开放平台(提供语音识别、语音合成、语音扩展等技术方案及智能硬件以及多种行业解决方案):https://www.xfyun.cn/
图灵机器人(提供多场景的聊天机器人解决方案):http://www.tuling123.com/
腾讯AI开放平台(提供语音识别、语音合成等技术):https://ai.qq.com/
百度AI开放平台(提供语音识别、语音合成等技术):http://ai.baidu.com/tech/speech
阿里云(提供语音识别、语音合成、录音文件识别等):https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
追一科技(提供智能外呼、及智能机器人在多行业的解决方案):https://zhuiyi.ai/
2.3 自然语言理解(NLP)
(1)研究内容
自然语言处理是一门让计算机理解、分析以及生成自然语言的学科,是理解和处理文字的过程,相当于人类的大脑。NLP是目前AI发展的核心瓶颈。
NLP大概的研究过程是:研制出可以表示语言能力的模型——提出各种方法来不断提高语言模型的能力——根据语言模型来设计各种应用系统——不断地完善语言模型。自然语言理解和自然语言生成都属于自然语言理解的概念范畴。
自然语言理解(NLU)模块,着重解决的问题是单句的语义理解,对用户的问题在句子级别进行分类,明确意图识别(Intent Classification);同时在词级别找出用户问题中的关键实体,进行实体槽填充(Slot Filling)。
一个简单的例子,用户问“我想吃冰激凌”,NLU模块就可以识别出用户的意图是“寻找甜品店或超市”,而关键实体是“冰激淋”。有了意图和关键实体,就方便了后面对话管理模块进行后端数据库的查询或是有缺失信息而来继续多轮对话补全其它缺失的实体槽。
自然语言生成(NLG)模块是机器与用户交互的最后一公里路,目前自然语言生成大部分使用的方法仍然是基于规则的模板填充,有点像实体槽提取的反向操作,将最终查询的结果嵌入到模板中生成回复。手动生成模板之余,也有用深度学习的生成模型通过数据自主学习生成带有实体槽的模板。
(2)应用场景
自然语言处理作为CUI(Conversational User Interface,对话式交互)中非常重要的一部分,只要是CUI的应用场景都需要自然语言处理发挥作用。除此之外,机器翻译、文本分类也都是自然语言处理的重要应用领域。
(3)瓶颈
1)词语实体边界界定
自然语言是多轮的,一个句子不能孤立的看,要么有上下文,要么有前后轮对话,而正确划分、界定不同词语实体是正确理解语言的基础。目前的深度学习技术,在建模多轮和上下文的时候,难度远远超过了如语音识别、图像识别的一输入一输出的问题。所以语音识别或图像识别做的好的企业,不一定能做好自然语言处理。
2)词义消歧
词义消歧包括多义词消歧和指代消歧。多义词是自然语言中非常普遍的现象,指代消歧是指正确理解代词所代表的⼈或事物。例如:在复杂交谈环境中,“他”到底指代谁。词义消歧还需要对文本上下文、交谈环境和背景信息等有正确的理解,目前还无法对此进行清晰的建模。
3)个性化识别
自然语言处理要面对个性化问题,自然语言常常会出现模凌两可的句子,而且同样一句话,不同的人使用时可能会有不同的说法和不同的表达。这种个性化、多样化的问题非常难以解决。