机器人中最大的一支就是自动驾驶汽车,通常
2024/10/14 来源:不详北京中科白癜风医院优惠活动 http://www.bdfyy999.com/bdf/m/100007.html
引言
机器人中最大的一支就是自动驾驶汽车,因为这个产业太大,通常大家把它专门拿出来研究。不算自动驾驶汽车和无人机的机器人市场到底有多大?IDC研究报告预计,到年全球机器人市场规模将达到亿美元,年全球机器人支出为亿美元,并将以17%的年复合增长率增长。
这个市场主要包括三个类型:装配线机器人、(与人)合作型机器人、自主型机器人。装配线机器人的特点是动作程式化,并且不需要判断。根据工业装配线的事先设计要求给机器人输入指令后,机器人一直做重复性的动作。合作型机器人主要是和人一起完成生产线上的任务,由人来做复杂和需要判断的事情,由机器做辛苦但重复性强的工作。合作型机器人和装配线机器人类似,但是因为和人近距离在一起操作,所以需要有紧急保护装置,以防伤人。
人工智能影响最大的是自主型机器人,这类机器人目前主要是做服务型工作,例如商场导购、酒店门厅接待、医院送器械和药、小区巡逻、家庭卫生、食品制作等。目前最成熟的是扫地机器人,每年能卖出上千万台,其他的都还不成熟。原因之一在于每一个服务项目的感知、判断和行动决策都很复杂,与自动驾驶类似,如果成本太高,就没有经济价值。服务型机器人的第二个问题是如何和现有流程配合。例如小区巡逻,如果机器人无法一次取代保安的所有复杂工作,那么机器人如何和小区保安分工协调?故障和维修如何解决?
自主型机器人未来的主要市场仍然是工业生产线。目前高产值重型装配,例如汽车,已经越来越多地使用机器人,但许多低产值的轻型装配还需要使用大量人工。随着机器人成本的降低,这类生产线也将逐渐配备机器人。另一类是非装配型的生产线,例如食品加工、禽畜屠宰、货物分拣等。这些工作在理论上都能逐渐被机器人取代,前提是一台机器人的成本低于一个生产工人的1~2年的工资福利。在技术上要求这类机器人有一定的视觉感知,较快的处理速度。最重要的是机器人大脑软件必须适应性极强,能够在现场设置匹配各种不同的生产过程或者能够学习新技能,而不必为每个生产流程专门制作软件。
这要求开发出一款通用机器人大脑软件,包括通用的感知、判断和控制,并且能够方便地设置成不同的应用场景。可以预见,能开发出这种软件的公司将有巨大的商业前景。与此同时,一个能够装在大批中低端自主型机器人上的将感知、控制、通信都集成到一起的低成本芯片也会很有商业前景。打通巴别塔——黑天鹅杀手级应用当所有人对AI的注意力都集中在诸如自动驾驶、人脸识别等“低垂果实”上时,一场最深刻的革命很可能发生在自然语言翻译和理解领域。
这场革命可能改变自几十万年前智人发出第一声有意义的“哼哼”以来的人类文明史。人类有可能第一次无障碍地协同盖起一座“巴别塔”。一旦语言的隔离被打破,文化的隔阂也将在几代人之间被冲破。笔者年在巴西自驾旅行时须臾不可离的就是手机里的谷歌翻译应用。巴西能讲英语的人不多,不论是租车还是住店,笔者都要掏出手机给谷歌翻译说一通英语让手机翻译成葡萄牙语,然后拿着手机给对方播放,再让对方对着手机说一通葡萄牙语,翻译后对着自己播放。
由于翻译得不准确,加上现场的噪声,来回让双方对着手机麦克风等,使用体验非常差,但比没有要强很多。这里面有很多技术问题需要解决,能够使翻译体验流畅的最低要求有以下几点。不需要拿着手机来回对着双方。理想化的器件是一个挂在脖子上的小项链,或者是一个远小于手机的可以放在对话双方之间的小盒子,里面有像亚马逊智能音箱Echo那样的扬声器和多声道麦克风可以聚焦讲话者的声音,滤除现场噪音。
不需要每说一句话都要按一次“翻译”或“播放”。翻译机和活人翻译一样,只要检测到说话者的停顿或一段完整意思的结束,马上就开始播放翻译。必须能够离线。当手机没有联网信号时,手机里的存储内容和计算能力足够一些常用的翻译。翻译准确率达到99%。自从年初谷歌将翻译后台从传统的统计方法改为神经网络翻译后,准确率大大提高。随着翻译量的增多,相信以目前的神经网络和计算能力,已足够应对日常生活(例如旅行)的翻译。但是要进行专业或和历史文化深刻联系的翻译,还需要一定的努力。
以上只是对一个翻译机最低的要求,进一步的要求是这个翻译机在生活中“隐去”,成为日常穿戴的一部分。例如做成极小的像助听器那样的器件,通过手机和网络相连,可以做到无缝的“同声传译”,并在同声传译时可以抵消对方发出的原声,即“原声抵消”,做到听者只能听到翻译而不被原声干扰。要做到以上无缝、流畅的翻译,基础的技术都已经成熟或接近成熟。主要的技术难点有以下几个。微型多声道抗噪远场声音检测技术。
目前亚马逊的Echo已经具备了多声道抗噪音和说话者方向聚焦功能,但这些功能还需要进一步改进。包括能够识别不同的人,不必每次喊“Alexa”(亚马逊语音助理),能在更嘈杂的环境下识别语音,最重要的是进一步微型化。语义理解。神经网络在短短的几年内大大提高了语音识别的准确率,但是语义理解仍然是瓶颈。对着机器翻译说一大段话,机器翻译会晕的。学习“主人”的背景和个性,以便更透彻地理解每一句话。
机器翻译的进一步发展是在文化背景方面远超人类。例如一个英文翻译如果不是在美国长大,即使阅读量很大,也有文化背景的隔阂。例如当大家谈论起几十年前的一个电影镜头,或某场棒球比赛的一个击打,或者一个南部地区的生僻俚语时,翻译就不懂了。一个没在中国生活过的汉语翻译也存在同样的问题。而像海绵一样大量吸收背景知识恰恰是机器学习的强项。可以预见未来的机器翻译就像一个同时在两个国家长大的孩子一样熟悉双方的历史和文化。
机器翻译未来还会增加一项人类做不到的功能,就是提前熟悉对方的背景。当人类进行一次重要会见或谈判时,都会事先做功课了解对方。人类花几天做的事,机器可以一秒做完。根据目前人工智能芯片和算法的发展,随身翻译可以在5~10年内实现,能超越人的翻译可以在20年左右实现。一旦无缝、流畅的同声翻译实现了,对世界的影响就是巨大的。目前虽然交通和通信将物理距离缩短,增加了人类的交流和分工合作,但是语言隔阂仍然是最主要的障碍。
中国目前有上亿人出国旅游,大部分是跟团游,如果有了无缝、流畅的翻译,到外国和到中国一个省的感觉一样,那么很多人会选择自助游。商业的交流成本也会大幅降低,到任何其他国家工作都没有语言障碍。这种无缝、流畅的同声翻译冲击最大的是文化和身份认同。今天世界民族主义回潮,民族国家的界限主要以语言和文化进行划分,当这层墙被拆掉后,今天的民族国家是否还会存在?年10月Google发布了一款与智能手机配套的智能耳机,在谷歌语音技术、翻译技术的支持下,这款小小的耳机可以实现40种语言实时翻译功能,虽然不是非常准确,但是基本的旅游度假还是可以保证的。
结语
无缝、流畅的同声翻译最终会导致全球文化多样性的消失吗?不会。原因是每个人讲的和听的仍然是自己的母语。人类将生活在一种“双层社会”中:一层是“世界大同层”,大家各自说着自己的母语,但是规则和习惯逐渐融合;另一层是“本土家乡层”,各自的习俗仍然不同。只要没有超级规模的人类大迁徙和混合,各种母语文化仍然会继续生长。这并不奇怪,其实今天人类在世界范围内的商业活动已经是使用和遵循共同的规则了。