翻页电子书制作,电子书制作,电子杂志制作

云展网——上百万用户在此分享了PDF文档。上传您的PDF转换为3D翻页电子书,自动生成链接和二维码(独立电子书),支持分享到微信及网站!

机器人与智能系统杂志2019第二期—翻页版预览

上传者:9271 上传时间:2019-06-03 16:57:36 分享阅读:
9271 上传于 2019-06-03 16:57:36

机器人与智能系统杂志2019第二期

49

对话

AKM 系列伺服同步电机

做行业内最专业的企业 率密度与平稳性,配合科尔摩根 AKD 伺服驱动器可实现即插
即用。
作为一家百年企业,多少有一丝别人羡慕的硬气——它
们经受住了时间的打磨,有着时间赐予的口碑,众人在谈及行 作为科尔摩根推出的核心产品之一,目前累计销售已超
业发展历史的时候,或轻描淡写、或浓墨重彩,总要提上它们, 100 万台。
因为它们就是行业发展史的一部分,避不开、绕不过。
“为满足新的市场需求,AKM 推出了二代产品,这代产
所以时间长远就更出众么?不全是,但大抵确实如此。 品的功率密度在原有基础上提升了 30%”刘伟峰表示,这意
足够的时间长度让企业在行业内有着足够的深度、对自身 味着新一代产品占用空间更小、转矩更大、运行速度更快、能
从事的事业有着足够的理解。正如科尔摩根在运控领域数十年 耗更低。
的耕耘后,科尔摩根人可以很自豪地说出:“运动控制领域只
要不违反物理原理的需求,我们都能做到”。 把行业做深做专自然离不开对技术的掌控,现阶段的科
而提及科尔摩根的发展史与专业度,除去军工起家以外, 尔摩根在美国与瑞典、德国等地都有着研发中心,全球 1300
还有几个关键词。 左右的员工中研发人员占了数百。
其一,“泰坦尼克号” “太空探索”
泰坦尼克号上的爱情是很浪漫,但背后的深海探索工作却 定制为客户带来价值
颇为艰难。要探索位于海平面 3800 米下的泰坦尼克号,对深
海探测器中的伺服系统有着高性能要求,科尔摩根是采用平衡 产品的技术先进是企业成功的一部分,但不是全部,好
压力技术为水下探测器的推进装置提供伺服方案。 的产品还要配合好的应用,而自动化行业的多变,往往要求上
此外,美国登陆火星的飞船也在用着科尔摩根定制打造的 游产业链企业有着良好的定制能力。“定制就是我们的标准”
电机。科尔摩根的电机、驱动器及控制器被广泛应用在这些高 刘伟峰表示,这也是企业最优秀的品质。
精尖的科技领域,同时也被广泛应用在机器人、印刷、包装、
医疗和机床等行业。 科尔摩根凭借其突出的定制能力,满足不同客户的个性
其二,“100 万台”“30%” 化要求。以 AKM、AKD 系列产品为例,基于原有产品科尔摩
AKM 系列伺服同步电机——全系列的标准产品和研发定 根能够演变出 200 多万种应用方案。
制产品,可以满足多样化的应用需求,它具有多样化卓越的功
而这份“定制既标准”的背后是科尔摩根“为客户带来
价值”的理念,刘伟峰说到:“与我们合作的客户,往往因为
我们产品附加值比较高,不只看价格,产品差异化能够给客户
带来价值。”

50

对话

随着行业的发展,竞争也越发激烈——在科尔摩根看来, 如中国的 AGV 行业,兴起不过短短十来年——而 1996
实现自身发展的根本是满足客户的需求,以更高效的解决方案、 年科尔摩根 NDC 将激光导航 ADV 带入中国市场,乘着上行
更可控的成本解决客户的问题,为客户带来价值。正是这一为 之风,他们与中国主流 AGV 厂商、新兴电商及传统叉车巨头
客户带来价值、共同发展的理念让科尔摩根实现 2018 年的增 都有着密切合作——其中不乏《大国重器》中的企业。再如机
长速率是市场增长速率的两到三倍。 器人行业,专门为之研发的 RGM 机器人关节模组,广泛应用
于近些年兴起的协作机器人行业,“我们五六年前就已经开始
全球平台,本土化布局 与客户共同开发了,慢慢孕育这个市场”刘总表示。

科尔摩根依托全球化平台,深入本土化布局,从而为客户 而实现对趋势的准确把握,根本的原因便是对客户与行业
提供更贴切与高效的服务。现今科尔摩根在美国、瑞典、意大利、 的深入了解。
德国、土耳其、日本等地都有着网络分布,当其他地区提出需
求的时候,全球生产中心便能快速响应,为客户提供服务。“从 百年品牌的心得
客户提出需求,到我们样机生产 , 4- 6 周的时间便能完成”。
2019 年的中国经济走势,众说纷纭。国家调低 GDP 增
刘伟峰还表示,以中国为例,为了更好地服务中国本土, 长预期、新能源补贴减弱、中美贸易谈判还在进行……扑朔迷
实现快速响应、专业服务,科尔摩根在中国北京、上海、武汉、 离的变局下,企业唯有做好自己、扎实基本功才能实现发展。
深圳、东莞、香港、台湾都设有销售办事处。
除去对行业的理解、更加贴近客户需求,科尔摩根还有着
在 2019 年 3 月 28 日,科尔摩根新工厂在天津正式开业, 不少心得。
工厂总建筑面积达 8000 平方米,总生产面积为 5600 平方
米。主要生产 AKM 伺服电机、AKD 驱动器、DDL 直线电机、 其一,助力创新者。客户选择科尔摩根的时候,科尔摩根
RGM 关键模组等科尔摩根核心产品——这将更快的响应客户 也在肯定客户,“助力创新者共建美好世界”是科尔摩根的愿
需求。 景也是原则。“客户要有自己的想法,体现明显的差异化,我
们的产品也就能为他们提供价值”刘伟峰不担心客户的想法得
“工厂从选址到开业仅仅半年时间,这就是中国速度”刘 不到满足,企业的专业给了他足够信心。
伟峰自豪的表示,通过细致的市场发掘,科尔摩根发现国内客
户有着强烈的速度要求,从开发产品到市场接轨相较于其他地 其二,以客户的客户需求为出发点。朴实的说来,谁能拒
区有着明显区别,并将此称之为“中国速度”——融合本土文 绝自己客户的合理需求?以客户的客户需求为出发点推出相关
化,这是科尔摩根对本土化定义的内容之一。 产品,让科尔摩根收获颇丰,AGV 行业合作有不少便是如此。

“我们将本土开发分成 1.0 到 4.0 多个步骤,1.0 是在该 其三,注重人才培养与团队建设。科尔摩根有着“从零开始”
区域有代理商,2.0 则是有自己的销售团队,3.0 有自己的工厂, 的习惯,即员工从学校毕业便开始培养,前总裁便是从毕业便
4.0 则是有自己的研发团队,现阶段的中国市场就处于 3.0 向 开始进入科尔摩根,一直到退休,全球运营副总裁亦是如此。
着 4.0 发展的阶段,我们要做到真正的本土化,真正的理解中
国市场。” 不断地总结着自身,推陈出新,科尔摩根这家百年企业正
如人生青春,正在大迈步向前。
未来是可以被预测的

全面的定制化服务能力结合中国本土化定义,科尔摩根在
中国市场被越来越多的客户了解、认可,“如果要说别人对我
们企业的认知,打个比方,就如汽车中的法拉利,性能好、产
品附加值相对较高”。

科尔摩根在历史的长河中,找到了自己的定位,并围绕着
自己的业务展开了一系列的行业探索,并因此多次摸清行业发
展的趋势,成为部分新兴行业的顶尖技术引导者。

51

对话

安扬:为高端工业设备行业
提供专业电缆解决方案

——访东莞市安扬实业有限公司总经理杨吉开

中国作为亚洲最大也是最重要的市场之一,近年来随着经济发展,电线电缆行业取得了长足的发展。然而,国内电线电缆行业以
中小企业为主,初步估计 97% 以上的产能集中在低端产品上,企业平均研发投入经费不足销售额的 1%,高端产品依然严重依赖进口。
东莞安扬实业有限公司(下文简称安扬),以德日等电气制造和安装技术标准来开发生产各种高端电线电缆,助力提高中国工业装备
水平,为实现“中国梦”而努力奋斗。

文 / 王博文

杨吉开 总经理 名企业占有大部分的市场份额——相较于欧美等发达国家,前
四五家企业占据 40% 以上的市场份额,中国电线电缆行业集
东莞市安扬实业有限公司 中度极为低下,上万家企业中大型企业数量屈指可数,这些企
业市场占有率也不过 20%。
近些年来,中国工业设备需求增多,相关市场发展迅速。
作为产业链的上游,电线电缆也得到了一定的发展,但是高端 低集中度、约 97% 以上的中小企业、占营业额 1% 不到
领域依赖进口,中低端市场竞争趋于恶化,利润极其微薄的问 的研发经费,让我们不得不面对国内电线电缆行业存在的几大
题突显。 问题:技术基础薄弱、核心竞争力不足、产品中低端化、同质
化严重,从而导致低价竞争、利润率低等。
安扬作为一家专业从事工业特种电线电缆研发、生产、销
售的高新技术企业,致力于为企业提供电线电缆安装使用解决 为此,安杨总经理杨吉开先生有自己的想法,“今年不打
方案。“以科学思维谋发展,以工匠精神创品牌,媲美外来进 算赚钱,将全部用于技术的研发与市场的开拓”。
口品牌电线电缆,以质量与服务取得成功”总经理杨吉开表示,
安扬斩获了电线电缆市场一批客户的长期信赖,并赢得了不俗 作为一个年营业额超过亿元的电线电缆企业,安扬没有止
口碑。 步于现有的成绩,而是清楚地意识到,企业要生存、要发展,
必须形成自己的技术底蕴,而一旦拥有技术底蕴,未来随着市
多样化优势下获得亿元市场 场的快速成长企业也必定能收获更多。

从行业来看,成熟市场的标志就是“集中度高”,少数知 其实,安扬的研发人员占比高达 10%、有着自己的研发
实验室,而相关工程人员均为哈工大、哈理工毕业,企业在技
术上本身就很不错。现阶段公司拥有 22 项新型实用专利以及
6 项研发发明专利——技术本身就是安扬实业的优势之一。

除了技术优势,安扬实业还有着诸多优势。
其一,国内外市场并举的良好架构。
相对于大多数电线电缆企业,安扬是为数不多能走出国门
的企业——自己直接展开海外合作;与客户合作后,客户产品
出口海外;海外客户进入中国市场选择安扬等等。70% 的国

52

对话

内市场、30% 国外市场的业务构成占比,在证明安扬实业能 其四,针对行业,互相成就。
够满足国外一系列标准的同时,也让企业掌握着国外的技术趋 以工业电线电缆为例,最早并没有机器人电缆、伺服电缆、
势、市场方向。 传感器用电缆这类细分,安扬率先做出思考——不同行业有着
不同需求,应该做到细分行业专用。为此安扬针对细分行业,
其二,领先的生产设备与工艺。 提出相关概念,目前安扬已经拥有伺服电缆、传感器电缆、柔
技术重要,制造工艺同样也不可忽略,生产工艺不行,生 性拖链电缆、机器人电缆、屏蔽线缆、新能源汽车电缆、硅胶
产出来的产品质量不过关。 高温线等特殊场合用工业特种线缆。
安扬积极引入海外设备,提升生产效率与制造工艺—— “我们将一个行业内的大多数企业使用线缆性能标准推广
在东莞虎门镇一万余平方米的厂房内,有着四个现代化生产车 开来,这样就能够辅助服务的行业形成统一的用线标准,某种
间。“20 多条生产线,年产值能达 2.5 亿元,而且质量过关” 程度上,我们参与标准化建设。”在越来越多的细分行业应用
杨吉开先生颇为自豪的说道,目前安扬产品已顺利通过国家的 经验下,安扬实业找到了合作双赢的方式。
CCC 权威认证和美国 UL758 系列认证,并已得到中国质量监
督局备案。 淘汰或成功,安扬无惧未来竞争
其三,提供解决方案、一站式服务。
技术到位,质量可靠,安扬抓紧对行业的耕耘,提供线缆 多样优势集合之下,安扬实业一路高歌猛进,以远超市场
解决方案,为客户提供一站式服务。以日本某 SCARA 品牌为例, 增速的速度发展。然而发展的路途上杨吉开先生并没有大意,
安扬针对客户需求,定制化生产出将数条线缆集成于一体的电 针对国内现状,他有着自己的业务布局。
线电缆解决方案,该方案有效地提升了线缆抗干扰能力,并让
机器人布线变得简单起来,同时很好的满足了机器人对更小体 “就整体电缆行业而言,行业规范性还有待提高,部分企
积的追求。 业在没有测试是否达标的情况下,即将产品投入市场。”杨吉
安扬长时间沉浸电线电缆行业,已具备客户提出要求,十 开先生表示,线缆成本对于客户总成本占比而言不算太大,如
天左右提供一整套解决方案的能力,可以做到为客户提供一站 果不达标产品被市场使用,一旦出了问题后,客户也将不再信
式服务。“而生产出来的产品可以做到模块化,即客户告诉我 任国产,直接选择国外品牌。
们对接头在哪里,我们直接插上即可使用,快捷高效、简单易用。”
同时,行业同质化太严重,逐利之下电线电缆企业蜂拥至
一个行业内,导致恶性、低价竞争不断。产品图片几乎一个样,
甚至连产品宣传册都抄,杨吉开先生愤怒之余也有了自己的规
划。

在全国区域布局的情况下,杨吉开先生将公司业务以项目
组的方式进行布局,每个项目组深耕不同行业,从而保证企业
对行业的专业性。未来,安扬将继续深耕行业、顺应趋势,深
挖技术,精心打磨产品质量,这或许便是企业的成功之道。



54

热点资讯

国内

全国首个“5G 智慧工厂”亮相,应用模式可复制,生产提效至少 30%

由湖北移动公司与中国信科集团联合打造的全国首条 5G 智能制造生产线在武汉光谷启动。该生产
线属于中国信科集团旗下虹信公司“5G 智慧工厂”项目,位于武汉藏龙岛。改造前,是华中地区规
模最大的无线通信产品制造基地,也是 5G 大规模天线(massive MIMO)全自动化生产基地。
目前,该工厂已上线虹信生产管理中心、产品交付、高清视频等一系列具体应用,可实现设备点对
点通信、设备数据上云、横向多工厂协同、纵向供应链互联,打造设备全生命周期在线管理、运营
数据监控与决策、订单全程追溯的透明交付,形成了有共性、可推广的智慧工厂解决方案。

四大家之一“发那科” 协作机器人企业“节卡机器
超级智能工厂将登陆上海,预计总投资 15 亿元 人”获亿元级 B 轮融资,用
以技术研发与市场开拓布局
4 月 4 日发那科(FANUC)正式宣布,其继日本之外的全球最大机器人生产基地即将登
陆上海,该项目总投资约 15 亿元人民币。上述新项目被命名为发那科“超级智能工厂”。 4 月 8 日 消 息, 协 作 机 器 人 公 司 上 海 节
新项目占地 431 亩,相当于 40 个足球场大小,建筑面积 30 万平方米,总投资约 15 亿 卡  机 器 人 科 技 有 限 公 司 已 完 成 亿 元 级 B
轮融资,本轮融资由赛富投资领投,华兴
元人民币,将充分利用日本发那科强大的工程 Alpha 担任本轮融资的独家财务顾问。节卡
集成及技术服务能力,利用发那科 IoT、AI 等 创始人、董事长李明洋表示,本轮融资将主
智能制造技术,建成集生产、研发、展示、销 要用于技术的研发迭代,以及国内市场的经
售和系统集成中心及服务总部,打造一座中国 一部拓展,并计划拓展国外分销机构。
最大、最先进、最具柔性的机器人超级智能工 节卡成立于 2014 年,孵化自上海交通大学,
厂,建成一个继日本之外,全球最大的机器人 主要业务为机器人本体、智能装备、数字
生产基地,预计实现年产值达 100 亿元。 化工厂。在上海紫竹科技园设有研发中心,
江苏常州设有生产基地。

视觉自主机器人公司灵动科技完成 B 轮 1 亿元融资

视觉自主机器人公司“灵动科技”(ForwardX)已完成 1 亿元 B 轮融资,本轮由湖畔里
程领投,交银国际、九弦资本跟投;A 轮投资方鼎晖投资、钟鼎资本继续跟投。灵动科技
创始人兼 CEO 齐欧表示,本轮融资将用于物流和消费机器人的量产出货。
“灵动科技”创立于 2016 年 5 月,注册于中美两地,是一家拥有视觉认知技术及深度
学习技术的移动机器人公司;公司旗下自主机器人包括大件仓 BX350  和电商小件 3C 仓
BX100  两款仓储协作机器人,以及无人叉车等基于视觉方案的机器人; to C 方面,灵动
科技推出了 Ovis 智能侧跟登机箱,这款产品也获得了 2019 CES 大会的 16 项大奖、2018
上格奖全球时尚创客大赛获得最高奖项。

55

热点资讯

国内

哈工程获批“海洋机器人”专业

日前,教育部公布《2018 年度普通高等学校本科专业设置备案和审批结果》,哈尔滨工程大学船舶学院成功获批“海洋机器人”专业,专业
代码 081904T,这是我国首个也是当前唯一一个海洋机器人专业。
新增设的“海洋机器人”专业,在推进教育部“关于推荐新工科研究与实践”工作的同时,结合哈工程“三海一核”特色,依托水下机器人技
术重点实验室等优势平台,旨在培养实践能力强、创新能力强、具备国际竞争力的高素质复合型新工科人才。

河 北: 到 2020 年, 全 省 机 器 人 机器人技术与产业孵化平台
产业产值将超 70 亿元 “国辰机器人”完成 1 亿元 A 轮融资

日前,河北省制造强省建设领导小组办公室印发《河 机器人技术与产业孵化平台“国辰机器人”宣布,近日已完成 1 亿元 A 轮融资,
北省支持机器人产业发展和应用的若干意见》提出, 由盈实基金领投,洪城资本跟投。资金将主要用于人才引进、技术与产品研发投
以创新驱动为主题,推动产业集聚,做大特种机器 入、扩大国际合作等。国辰机器人成立于 2015 年,有自有机器人产品研发销售、
人产业,做精工业机器人产业,做强核心零部件产 内部企业孵化、外部投资整合等三块核心业务。官方资料显示,其目前已累计投
业,培育服务机器人产业,开展“机器人 +”行动 资孵化 12 家公司,估值合计超过 10 亿元。
计划,以应用促发展,加速工业转型提质增效。
意见明确了河北省机器人产业发展目标:到 2020 工业富联营收破 4000 亿“熄灯工厂”减少人工见成效
年,产业初具规模,创新能力明显增强,关键技术、
核心零部件取得突破,质量效益明显提升,推广应 3 月 29 日晚间,全球代工巨头富士康在 A 股的上市公司工业富联发布 2018
用初见成效,工业机器人密度达 100 台 / 万人,全 年年报,全年实现营业总收入 4153.78 亿元,同比增长 17.16%;实现净利润
省机器人产业产值超过 70 亿元,形成“核心带动、 169.02 亿元,同比增长 6.52%。
多点发力”的产业布局。到 2022 年,高端机器人 工业富联 2018 年通信网络设备销售收入为 2591.54 亿元,同比增长 20.82%,
性 能、 精 度、 可 靠 性 达 到 国 外 同 类 产 品 水 平, 关 占 公 司 主 营 业 务 收 入 比 例 62.76%。 公 司 2018 年 云 服 务 设 备 销 售 收 入 为
键技术、核心零部件配套水平大幅提升;工业机器 1532.24 亿元,同比增长 27.27%。
人和特种机器人推广成效明显,工业机器人密度达 2018 年,工业富联累计研发投入 89.99 亿元,同比增长 13.43%。其核心研发
150 台 / 万人;全省机器人产业产值超过 100 亿元, 投向主要包括工业人工智能、工业大数据以及精密工具等智能制造领域。
研发强度达 3% 以上。

饮料巨头娃哈哈跨界做智能机器人,注资 4000 万元,
宗庆后任董事长

4 月 1 日消息,企查查资料显示,娃哈哈商业股份有限公司新成立一家浙江娃哈哈智能机器人有
限公司。
企查查信息显示,浙江娃哈哈智能机器人有限公司成立于 2019 年 3 月 27 日,注册资本 4000 万
元人民币。公司经营范围包括智能机器人、机器设备及零部件的研发、制造、销售等。此外,资
料显示,娃哈哈商业股份有限公司为大股东,占股 65%。宗庆后为该公司最终受益人并出任董事长,
持股比例 52.15%。

56

热点资讯

国外

微软重视人工智能:CEO 每周组织高管评估公司 AI 项目

据美国财经媒体 CNBC 报道,微软 CEO 萨提亚·纳德拉和其他高管每周都会讨论公司的
人工智能项目,通常都会选在周四。
微软 CTO 凯文·斯科特最近表示,这个名为 AI 365 的例会从去年开始,它反映了微软
在整个产品组合中对人工智能技术的重视。除此之外,该公司一直以来都会在每周五召
开高级管理团队例会。

谷歌重新启动其机器人项目 Research:至 2027 年,5G 机
器人出货量预计将达到 57 万台
Bianews 3 月 27 日消息,据 CNBC 援引《纽约时报》报道,科技巨头谷歌正在
重新启动机器人项目,此前该公司的机器人部门主管因性骚扰问题而失去领导地 据 国 外 媒 体 报 道,ABI Research 认 为,5G 网
位。据《纽约时报》报道,谷歌改进了公司的机器人计划,将更关注可通过机器 络的商业化有望带来商用机器人的显著增长。到
学习来执行和学习任务的简单机器。 2027 年,5G 机器人的出货量预计将达到 57 万台,
谷歌最新的机器人技术领军人物是 Vincent Vanhoucke,他曾在构建研究人工 主要部署在关键任务和关键业务环境中。
智能的谷歌大脑中有所贡献。该公司机器人团队告表示,通过机器学习,他们的 低延迟和云智能是 5G 的两个主要特点,将显著
新发明能够独立学习技能。 改变关键任务机器人和关键业务机器人的部署,
据悉,谷歌此次并没有试图通过发明酷炫 尤其是那些部署在户外的机器人。通过 5G 连接
的新硬件来重新引领行业发展,而是使用 启用的户外应用程序包括公共安全和急救人员、
其它公司制造的更简单的,外形并不像人 关键资产检查、最后一英里交付和运输、精准农业、
类的机器人,训练这些机器人完成新任务。 现场安装和拖运。
这类产品适合使用在制造工厂,机器人可 传统上,高速宽带连接仅适用于室内环境中通过
以大大降低人力资源的维护成本。谷歌对 Wi-Fi 和宽带光纤连接的机器人系统。因此,现
此证实了上述消息,并提供了一篇关于该 有的户外商业和工业机器人往往是具有机载智能
公司机器人项目的文章。 功能的完全自主设备。有了 5G,机器人的功能将
得到升级。

机器人巨头库卡,去年利润暴跌八成将开始裁员

3 月 28 日,库卡现任 CEO Peter Mohnen 在冗长的“国际政治研讨环节”之后,终于
切入了此次发布会真正的主题:业绩,糟糕的业绩。2018 年,库卡订单收入 33 亿欧元,
同比下滑了 8.5%;营收 32 亿欧元,同比下滑 6.8%;息税前利润率 3%,同比下滑 1.3
个百分点;税后利润 1660 万欧元,暴跌了 81.2%。2018 年初,库卡曾定下营收 35 亿
欧元、息税前利润率约 5% 的目标。但之后一年内,库卡不得不两次下调业绩预期。
据《德国商报》及《奥格斯堡汇报》等多家当地媒体报道,2018 年 10 月,库卡宣
布下调盈利预期时,招致了大股东美的集团的不满,并直接导致了前任 CEO 罗伊特
(TillReuter)的离职。

57

热点资讯

国外

印度机器人应用飙升三成 未来将实现稳步增长

北京时间 3 月 18 日消息,外媒 livemint 报道称,尽管机器人在印度的应用一直很缓慢,每
1 万名工人中只有 3 台机器人,但为了节省人力和成本,越来越多的企业投资于数字化转型,
机器人的应用水平未来必将提高。
以 Bandicoot 为例,2018 年初,总部位于特里凡得琅 (Thiruvananthapuram) 的初创企业
Genrobotics 与喀拉拉邦政府合作,部署了一个名为 Bandicoot 的蜘蛛状机器人来清理城市
中的下水道和沙井。据报道,机器人的机械臂伸入下水道井盖后,几分钟内就可将淤泥清理
干净,而此前这项工作需要 3 个人耗费几个小时完成。
据悉,Genrobotics 公司也正在与其他邦的政府进行谈判,希望用他们的机器人来代替人工进行垃圾清理。
为了节省时间、人力和成本,政府和企业越来越多地开始使用机器人。国际机器人联合会今年 2 月发布的报告称,2017 年印度安装了大约
3412 台新型工业机器人,相比于 2016 年的 2626 台增加了 30%。尽管汽车行业的机器人使用率最高,但一般行业对机器人的需求也在增长。

亚马逊收购机器人创企 丹麦机器人制造商
Canvas Technology 蓝色劳动力(Blue Workforce)申请破产

4 月 10 日,亚马逊宣布收购了位于科罗拉多州博 近日,丹麦机器人制造商蓝色劳动力(Blue Workforce)申请破产,该公司创
尔德的机器人创业公司 Canvas Technology,生 立于 2012 年,主要为中小企业提供价格合理的机器人,公司对自动化技术进行
意业务金额尚未披露。亚马逊的一位发言人表示: 了一系列根本性的创新,并推出了用于取放操作的并联机器人,主要应用于食
“Canvas 的技术创新给我们留下了深刻的印象, 品加工行业。此次,Blue Workforce 申请破产主要因为资金问题,公司想增加
它们在机器人领域和我们有着共同的愿景,以期提 新的融资来维护日常运营,但圈子里没有得到任何支持。这将可能在未来几个
高机器人的安全和操作经验。我们期待和 Canvas 月发不出工资,只有申请破产。接着下来可能会被收购,正如此前的 Rethink
的合作。” Robotics 倒闭后,其机器人产品和软件最终纳入 The Hahn Group 怀中。
Canvas 的核心技术主要应用于仓库内部的无人驾
驶物流车辆。它采用“空间人工智能”和顶尖的摄 2020 年日本奥运会场中机器人将担任观众的向导
像头帮助物流车辆避开移动的“障碍物”,这些障
碍物包括工作人员和操作设备等。 面对人口老龄化,日本押宝智能机器人。而东京奥组委已展开了 Tokyo 2020
Canvas 的 负 责 人 是 Jonathan McQueen, 他 曾 Robot Project(东京 2020 机器人计划),希望能让机器人们在本届活动中为观
在高通工作过六年。这家公司于 2017 年完成了 众和工作人员们提供各式协助。其中由 Toyota 提供的机器人,将会协助引导坐
1500 万美元 A 轮融资。 轮椅的观众们找到自己的座位,并提供食物和活动资讯等。而 Panasonic 则是会
提供 Power Assist Suit 外骨骼辅助套装,帮助工作人员可以更轻松地携带食物、
垃圾和其它的重物。此外奥组委也表示,到时将会有更多样的机器人,在赛事中
负责各项任务,相关消息会于之后陆续公开。
对于这个计划的目标,奥组委自信地表示:
奥运会将是向世界展示日本机器人威能的时
刻。计划负责人比留川博久则说明,这次的
重点在于展示机器人如何在现实生活中给人
提供帮助。

58

技术前沿

低成本激光和视觉相结合
的同步定位与建图研究

激光雷达和视觉传感是目前两种主要的服务机器人定位与导航技术,但现有的低成本激光雷达定位精度
较低且无法实现大范围闭环检测,而单独采用视觉手段构建的特征地图又不适用于导航应用。因此,该文以配
备低成本激光雷达与视觉传感器的室内机器人为研究对象,提出了一种激光和视觉相结合的定位与导航建图方
法:通过融合激光点云数据与图像特征点数据,采用基于稀疏姿态调整的优化方法,对机器人位姿进行优化。
同时,采用基于视觉特征的词袋模型进行闭环检测,并进一步优化基于激光点云的栅格地图。真实场景下的实
验结果表明,相比于单一的激光或视觉定位建图方法,基于多传感器数据融合的方法定位精度更高,并有效地
解决了闭环检测问题。

文 / 尹 磊 1,2 欧勇盛 2 江国来 2,3 彭建盛 1,4
1( 广西科技大学电气与信息工程学院 柳州 545006)
2( 中国科学院深圳先进技术研究院 深圳 518055)
3( 中国科学院大学深圳先进技术学院 深圳 518055)
4( 河池学院物理与机电工程学院 宜州 546300)

1 引言 的 一 个 里 程 碑。Konolige 等 [3] 在 2010 年 提 出 了 Karto
SLAM,该方法采用图优化代替粒子滤波,并采用稀疏点调整
同步定位与地图构建 (Simultaneous Localization and 来解决非线性优化中矩阵直接求解难的问题。Kohlbrecher 等
Mapping,SLAM) 是机器人领域的技术热点与难点,其解决 [4] 在 2011 年提出了 Hector SLAM,该方法不需要里程计信息,
的定位和建图问题被认为是机器人实现自主导航的关键。该技 通过利用高斯牛顿方法来解决扫描匹配问题,但对传感器要求
术主要原理是通过机器人配备的多种传感器来感知周围环境, 较高,需要高精度的激光雷达才能运行。由谷歌于 2016 年提
并计算出自己在当前环境下的位置。SLAM 被提出后,先后 出的 Cartographer[5] 可以说是最新的激光 SLAM 方案。该方
经历了多个研究阶段。由于激光雷达精度高、范围广,早期的 法将获得的每一帧激光数据,利用扫描匹配在最佳估计位置处
SLAM 研究往往以激光雷达为主要的传感器。另外,早期的 插入子图 (Submap) 中,且扫描匹配只与当前子图有关。在生
SLAM 采用扩展卡尔曼滤波方法估计机器人的位姿 [1],但效 成一个子图后,会进行一次局部的回环 (Loop Close),而在
果不好,对于某些强非线性系统,该方法会带来更多的截断误 所有子图完成后,利用分支定位和预先计算的网格进行全局的
差,从而导致无法精准地实现定位与建图。而后基于粒子滤波 回环。相比于 Gmapping 和 Hector,该方案具有累积误差较
的 SLAM 逐渐成为主流,粒子采样方法可有效避免非线性问 低,且不需要高成本设备的优点。
题,但同样引出了随着粒子数增多,计算量增大的问题。一直
到 2007 年,Grisetti 等 [2] 提出了基于改进粒子滤波的 SLAM 视觉 SLAM 由于传感器成本低、图像信息丰富逐渐成为
方法 (Gmapping),该方法通过改进的建议分布及自适应重采 了 SLAM 的研究热点。但与激光 SLAM 相比,视觉 SLAM 更
样技术有效地提高了定位精度并降低了计算量,是激光 SLAM 加 复 杂。Davison 等 [6] 在 2007 年 首 次 提 出 的 MonoSLAM

59

技术前沿

被认为是众多视觉 SLAM 的“发源地”。该方法以扩展卡尔 见到。以往基于特征点只能构建稀疏地图,而稠密地图又需要
曼滤波为后端,追踪前端稀疏的特征点;利用概率密度函数 RGB-D 这种可以提供深度信息的相机。Forster 等 [14] 于 2014
来表示不确定性,从观测模型和递归的计算,最终获得后验 年提出了半直接法单目视觉里程计 (Semi-direct Monocular
概率分布的均值和方差。Sim 等 [7] 利用粒子滤波实现了视觉 Visual Odometry,SVO),一种被称为“稀疏直接法”的方
SLAM,该方法避开了线性化的问题并且精度高,但需要使用 法,该方法将特征点与直接法混合使用,跟踪了一些关键点 ( 如
大量的粒子,从而导致计算复杂度的提高。随后,为了减少计 角点等 ),然后按照直接法根据关键点周围的信息估计相机运
算复杂度,提取关键帧变得极为重要,其中最具代表性的是 动及位置。相比于其他方案,SVO 既不用消耗大量资源去计
2007 年 Klein 和 Murray 提出的 PTAM[8]。该方法提出了简单 算描述子,也不必处理过多的像素信息,因此该方法可广泛用
有效地提取关键帧的技术,并且该方法最为关键的两点是:(1) 于无人机、手持增强现实 (Augmented Reality,AR) 等设备
实现了跟踪与建图的并行化,虽然跟踪部分需要实时响应图像 上。Newcombe 等 [15] 提出了 Kinect 融合的方法,该方法通
数据,但后端优化却不需要实时计算。即后端优化可在后台慢 过 Kinect 获取的深度图像对每帧图像中的每个像素进行最小
慢运行,在需要的时候将两个线程同步即可。这也是首次提出 化距离测量而获得相机位姿,且融合所有深度图像,从而获得
了区分前后端的概念,引领了之后众多 SLAM 方法的架构设计。 全局地图信息。Gokhool 等 [16] 使用图像像素点的光度信息和
(2) 第一次使用非线性优化,而不是传统的滤波器。从 PTAM 几何信息来构造误差函数,通过最小化误差函数而获得相机位
提出后,视觉 SLAM 研究逐渐转向了以非线性优化为主导的后 姿,且地图问题被处理为位姿图表示。Kerl 等 [17] 提出了较好
端。2016 年 Mur-Artal 和 Tardos[9] 提 出 了 现 代 SLAM 中 非 的直接 RGB-D SLAM 方法,该方法结合像素点的强度误差与
常著名的第二代基于具有带方向性的加速分段测试特征 (FAST) 深度误差作为误差函数,通过最小化代价函数,从而求出最优
关键点以及带旋转不变性的二进制鲁棒独立基本特征 (BRIEF) 相机位姿,该过程由 g2o 实现,并提出了基于熵的关键帧提
描述子的特征点 (Oriented FAST and Rotated BRIEF,ORB) 取及闭环检测方法,从而大大降低了路径的误差。
[10] 的 视 觉 SLAM 系 统 ORB-SLAM2, 是 现 代 SLAM 中 做 得
十分完善并且易用的系统之一。该方法不仅支持单目、双目、 在多传感器融合方面,目前有视觉传感器、激光雷达、
深度摄像头三种模式,并且将定位、地图创建、闭环分为三个 惯性测量单元 (Inertial MeasurementUnit,IMU) 及超声波
线程,且都使用 ORB 特征。ORB-SLAM2 的闭环检测是一大 传感器等多种传感器。目前,主要融合方向为激光雷达结合视
亮点,该方法采用了词袋模型,有效地防止了累积误差,并 觉传感器及 IMU 结合视觉传感器。Chen 等 [18] 通过视觉传感
且能在丢失之后迅速找回。但 ORB-SLAM2 的缺点也十分明 器结合 IMU 来进行机器人的精准位姿估计,并在机器人上垂
显,图像特征提取与匹配以及后端的优化都需要计算资源,在 直安装二维激光雷达采集点云数据实现三维建图。Houben 等
嵌入式平台上实现实时运行存在一定的困难,并且构建的稀疏 [19] 采用三维激光数据用于微型无人机定位,针对结构相似的
特征点地图虽然可以很好地满足定位,但无法提供导航、避障 环境激光定位会出现模糊的问题,提出在环境中加入视觉标记,
等功能。相比于提取图像中的特征点,根据图像像素灰度信息 提高定位精度,同时可用于微型无人机的重定位。王消为等 [20]
来计算相机运动的直接法从另一个方向实现了定位和建图。 提出了一种双目视觉信息和激光雷达数据融合的 SLAM 方法,
Stühmer 等 [11] 提出的相机定位方法依赖图像的每个像素点, 该方法基于改进的粒子滤波算法实现了在计算建议分布时观测
即用稠密的图像对准来进行自身定位,并构建出稠密的三维地 数据,其中同时包含视觉信息和激光雷达数据。相对于里程计
图。Engel 等 [12] 对当前图像构建半稠密深度地图,并使用稠 运动模型作为建议分布,该方法有效地提高了定位和建图的精
密图像配准 (Dense Image Alignment) 法计算相机位姿。构 度。张杰和周军 [21] 提出了一种激光雷达与视觉结合的 SLAM
建半稠密地图即估计图像中梯度较大的所有像素的深度值,该 方法,其中激光地图用于导航,视觉地图用于复原目标场景;
深度值被表示为高斯分布,且当新的图像到来时,该深度值被 并提出一种改进的迭代最近点法 (Iterative Closest Point,
更新。Engel 等 [13] 提出了 LSD-SLAM 算法,其核心是将直接 ICP) 用于实现更快的点云拼接,同时采用图优化的方法降低了
法应用到半稠密的单目 SLAM 中,这在之前的直接法中很少 累积误差,保证地图精度。Shi 等 [22] 在小型无人机上,利用
视觉里程计为二维激光的 ICP 提供初值,在实时性和精确度方

60

技术前沿

图 1 同步定位与地图构建框架 姿变换,但由于激光数据并非完全无噪声的数据,尤其对于低
成本激光雷达,打出去的激光点较为稀疏,从而导致计算得到
图 2 图优化框架 的相邻帧位姿变换存在误差,因此往往需要加入滤波或优化的
方法来使定位更加精准。而视觉 SLAM 是通过特征点提取与
面都达到了较好的效果。Qin 等 [23] 提出了视觉与 IMU 的紧耦 匹配来反算位姿,但若其中一帧出现问题就会导致误差累积并
合方案,将视觉构造的残差项和 IMU 构造的残差项放在一起 不断地增大。图优化是 SLAM 后端优化的热门方法,通过构
构成一个联合优化问题。Li 等 [24] 和 Lynen 等 [25] 通过扩展卡 造节点和约束边清晰地展示了一系列位姿和观测量的关系,再
尔曼滤波器对视觉和 IMU 进行融合以实时获取状态估计。 通过非线性优化的手段求出最优变量从而得到精准的位姿估
计。该方法最早应用于视觉 SLAM 中,起初由于图像特征点
相对而言,激光 SLAM 的效果仍然要优于视觉 SLAM, 数量过多,导致矩阵维数过大,求解困难,所以该方法一直未
但激光 SLAM 由于其本身激光数据的特性导致其无法有效地 能成为主流方法。直到 2011 年海塞矩阵的稀疏性被发现,极
进行大范围的闭环检测。对于低价格的激光雷达,由于激光点 大地提高了运算速度,使得非线性优化和图优化的思想成功应
不够密集,构建的地图常常会出现回到原来的位置地图,由此 用于视觉 SLAM 和激光 SLAM 中。而根据位姿估计和优化的
造成定位不准确而出现偏差的情况,这是由累积误差所导致的。 实时性要求不同,SLAM 也被分为前端和后端两部分,当前主
同时在激光 SLAM 中,闭环检测一直是一大难点:由于获取 流的 SLAM 框架如图 1 所示。
的激光数据是二维点云数据,无明显特征且相互之间十分相似,
所以基于激光数据的闭环检测往往效果不好。由于图像中包含 前端主要通过传感器数据估计机器人的位姿,但无论是
了丰富的信息,故视觉 SLAM 在闭环检测方面存在着天然优势。 图像还是激光,观测到的数据都含有不同程度的噪声。相对而
ORB-SLAM2 中提出的词袋模型,采用了 ORB 特征配合词袋 言,高精度激光雷达噪声会小很多但成本过高,而通过低成本
的方法,具有很高的准确率和速度,是当前应用最广的闭环检 的激光雷达及相机采集图像来进行位姿计算都会导致定位与实
测手段。 际真值有累积误差,并且累积误差会随着时间的增加而越来越
大。后端优化的主要作用就是通过滤波或优化的方式提高定位
针对低成本激光 SLAM 噪声大、精度低、难以闭环的问题, 及构建的地图精度,消除累积误差。本文采用图优化作为后端,
本文提出激光结合视觉进行联合优化的方法来提高定位建图精 通过非线性优化寻找下降梯度的方式来迭代实现误差最小化。
度,并通过视觉词袋模型有效地解决激光闭环检测难的问题。
简 单 来 说, 图 优 化 是 以 图 的 形 式 来 描 绘 优 化 问 题。 在
2 基于图优化的同步定位与地图构建框架 SLAM 中,图的节点表示位姿,边表示位姿之间以及位姿与观
测量的约束关系。机器人在导航建图过程中,观测量为激光数
激光 SLAM 主要通过相邻帧激光的匹配来计算相邻帧位 据及通过摄像头不停地捕捉到的外部环境信息,生成大量机器
人观测到的 ORB 特征点对应的三维空间点。将所有数据放入
图的框架中,如图 2 所示。

其中,X 表示关键帧位姿;O 表示观测量,包含了特征
点所对应的三维空间点坐标及二维激光数据。视觉误差由重投
影误差 ( 图 3) 来表示,重投影误差的计算需要给定相邻帧所
对应的两个相机位姿、匹配好的特征点在两幅图像中的二维坐
标及所对应的三维空间点的三维坐标。纯视觉 SLAM 往往通
过特征点提取和匹配,再使用 EPnP 等方法来求取相邻帧位姿
变换估计。但相比于相邻帧的激光匹配,该方法误差较大,因
此本文使用激光扫描匹配得到的位姿估计作为后端优化的初
始值。而对于相邻帧图像中通过特征点匹配得到的特征点对

61

技术前沿

图3 其中,R 为旋转矩阵;t 为平移矩阵;T 表示转置。

图 4 联合优化整体框架 (2) 将 投至归一化平面,并将 归为 1 得到归一化坐标
Pc。
p1、p2,本文采用的深度摄像头可直接获取得到前一帧图像
特征点 p1 所对应的三维空间点 P 的坐标,将点 P 重新投影到 (2)
后一帧图像上形成图像中的特征点 。由于位姿估计的误差及 其中,(uc , vc) 为归一化平面上的二维坐标。
深度摄像头噪声的存在, 与 p2 并非完全重合,两点之间的 (3) 根据相机内参模型,像素坐标系为归一化平面横轴缩
距离就是误差。 放了 fx 倍,竖轴缩放了 fy 倍,并且原点平移了 cx、cy 个像素。
因此,像素坐标 (us , vs) 计算公式如下:
重投影坐标计算公式及过程如下:
(1) 通过世界坐标系到相机坐标系的变换关系 (R, t),计算 (3)
出世界坐标系下点 P 所对应的相机坐标系下点
的三维坐标。 则该点误差函数为 。其中,p2 为直接通过图像得到

(1) 的像素坐标; 为根据公式 (1) ~ (3) 计算得到的重投影坐标。

将上述误差函数扩展到相邻两帧之间,则最小化代价函

数为 。通过非线性优化算法可以得到误差最小化

时相应的位姿变换 (R, t) 和三维空间点坐标 Pi 。

相 对 于 视 觉 误 差, 激 光 误 差 的 获 取 更 为 简 单。 激 光

SLAM 往往需要通过扫描匹配来实现相邻帧的位姿变换估计,

而该估计值 (R, t) 无法保证前一帧所有激光数据经过该位姿变

换与后一帧激光数据完全重合。因此,激光的误差定义如下:

(4)
之后,通过非线性优化来使误差函数最小化,求得的位

姿再返回到前端作为下一帧的参考帧位姿。

3 后端优化与闭环检测

视觉 SLAM 构建的地图由特征点构成,特征地图最大的
问题在于无法用于导航,仅适合用于定位。低成本激光雷达构
建的栅格地图更适合用于导航,但存在着激光稀疏、噪声大的
问题。因此,本文提出视觉激光融合的方法,在提高定位精度
的同时确保地图更加精准,还解决了激光 SLAM 构建的栅格
地图难以回环的问题。而二维栅格地图的构建主要依赖于一系
列位姿和激光测量数据,根据栅格被占用的概率来增量式的建
图。

由于同一时刻观测到的视觉信息和激光数据并非完全相
互独立,因此本文提出视觉激光联合优化来充分利用数据之间
的约束。加入视觉信息的激光视觉联合优化的 SLAM 整体框
架如图 4 所示。
3.1 误差函数

传统视觉相邻帧误差函数已在第 2 节中给出具体形式,

62

技术前沿

重投影坐标与三维空间点、上一帧图像特征点以及位姿变换的 其中,k 为待优化位姿个数。相应地, 是对整体自变量 x 的增
关系如下: 量。因此,当加入增量后,目标函数为 :

(5) (11)
其中,K 为相机内参;Z 为三维点的深度值。则误差函数如下:
其中,J 表示雅克比矩阵,为代价函数对自变量的偏导数;K
(6) 为待优化位姿个数,相邻帧优化时为 2,全局优化时为当前帧
位姿变换 (R, t) 可写成对应的李代数形式 , 到回环帧之间的位姿个数。
李代数变换公式为:
位 姿 优 化 可 看 作 是 最 小 二 乘 问 题, 而 解 决 最 小 二 乘 问
(7) 题 的 常 用 方 法 有 梯 度 下 降 法、 高 斯 牛 顿 法 及 Levenberg-
将视觉相邻帧误差函数公式 (6) 以及激光误差函数公式 Marquadt(L-M) 法。其中,L-M 法是对梯度下降法和高斯牛
(4) 改写成李代数形式并合并,则相邻帧的整体误差函数为: 顿法的综合运用,效果最佳,因此本文采用 L-M 法来求解上
述最小二乘问题。
(8)
其中,相邻帧共有 m 个匹配特征点,n 个激光数据点。实际 通过加入拉格朗日乘子对误差函数进行改进:
计算中可将 m、n 限制在一定数量内从而减少计算复杂度。
(12)
单独的视觉 SLAM 有其自有的计算相邻帧位姿变换算法, 其中, 为拉格朗日乘子;D 为单位矩阵 I。将上式展开可得:
但由于图像数据的特点,计算得到的 (R, t) 往往没有通过激光
扫描匹配得到的位姿变换精准。因此,采用激光扫描匹配得到 (13)
的位姿变换来估计误差函数中的位姿变换初始值。
3.2 稀疏姿态调整 对 求导并令其为 0,可得:

根据观测模型可以很容易判断出误差函数不是线性函数, (14)
所以本文采用非线性优化来求解误差函数最小值所对应的变
量。由于三维特征点和激光数据量过多,且随着时间推移整体 定义公式 (14) 左侧系数为 ,右侧
代价函数所包含的多项式会变得越来越多,故本文只优化误差 为 g,则可得线性方程:
函数中的位姿变量。同时,姿态图的优化也会随着顶点约束的
增加而变慢,所以本文采用稀疏姿态调整法,利用矩阵的稀疏 (15)
性来提高优化速率。由于机器人位姿是由变换矩阵不断计算得
到且一一对应,即求得每两相邻帧之间的位姿变换,亦即可获 将 D=I 代入,则
得机器人的当前位姿。因此,将机器人位姿作为唯一变量并对
其进行优化,视觉观测量和激光点云数据作为位姿之间的约束。 (16)
设机器人位姿与位姿变换之间的关系为: 根据公式 (16) 可以发现,当 较小时,H 矩阵占主导地位,
说明在该范围内二次近似效果更好,优化方法更近似于高斯牛

顿法;当 较大时,二次近似效果较差,优化方法更近似于梯

则误差函数可改写为关于位姿 x 的函数 (9) 度下降法。 的取值一般与自定义的参数 相关,参数 可
位姿的集合,即待优化变量为: 。其中,x 为 由公式 (17) 得到。

(17)

(10)

其中,参数 表示近似模型与实际模型相似程度, 越接近

63

技术前沿

图 5 实验过程截图

1 时, 越小,高斯牛顿法的近似效果越好; 越小时近似 3.3 闭环检测
效果越差,优化方法更近似于梯度下降法。 闭环检测是 SLAM 中的一个核心问题,通过对曾经走过

一 般情况下,H 矩 阵维 数很 大,矩 阵求 逆 的 复 杂 度 为 的地点进行识别,能有效地减小累积误差,提高定位精度。基
O(n3)。但由于 H 矩阵内部包含着各个顶点之间的约束,而只 于激光雷达的 SLAM 算法往往因为数据单一而无法有效地进
有相邻顶点之间才具有直接约束,从而导致 H 矩阵大部分元 行闭环检测,而视觉图像丰富的纹理特征则刚好可以弥补激光
素为 0,具有稀疏性。因此,利用 H 矩阵特有的稀疏性可以大 雷达的这一缺陷。本文采用视觉 SLAM 中最常用的词袋模型
大提高运算速度。求解公式 (16) 可得 ,沿着梯度下降方向循 (Bag-of-Words,BoW),通过视觉特征来构建关键帧所对应
环迭代 ,最终获得目标函数最小时所对应的自变量 x,即机器 的字典,在检测到回环后通过回环帧与当前帧的匹配来计算当
人位姿。 前位姿,并将这一约束加入到后端中来进行回环帧与当前帧之

64

技术前沿

表 1 位姿估计对比

图 6 不同方法所构建地图对比

间的全局优化,提高定位精度的同时,也防止了激光所构建的 其中,(1)、(2) 是其独特性的基础,因为短时间视野内的特征
栅格地图常出现的无法闭合的情况。 不会发生明显变化;(3) 保证了其鲁棒性,过少的地图点会导
致计算误差的不均匀。相对而言,激光 SLAM 关键帧的选取
由于构建室内地图所采集到的图像数量过多,且相邻图 要更为简单且稳定,但采用激光作为关键帧选取参量容易出现
像之间具有很高的重复性,因此首先需要进行关键帧的提取。 关键帧包含的图片特征点不够、图像不连续等问题。因此,本
本文关键帧选取机制如下: 文采用基于视觉的关键帧选取机制,既保证相邻关键帧不会过
于接近,又保证有足够的信息进行关键帧之间的匹配。
(1) 距离上一次全局重定位已经过去了 15 帧;
(2) 距离上一次插入关键帧已经过去了 15 帧; 常 见 的 图 像 特 征 有 尺 度 不 变 特 征 变 换 (ScaleInvariant
(3) 关键帧必须已经跟踪到了至少 50 个三维特征点。

65

技术前沿

Feature Transform,SIFT)[26]、加速稳健特征 (Speeded Up 0 点为世界坐标系原点,0 到 1 方向为 x 轴方向,2 到 3 方向为-
Robust Features,SURF)[27] 和 ORB 等。其中,SIFT 特征点 y 轴方向,依次沿 1、2、3、4、5 运动,各点实际坐标如表 1
具有旋转不变性和尺度不变性,并且稳定性高,不易受到光照 所示。
及噪声的影响,是最理想的选择。然而,SIFT 特征提取速度慢,
无法保证实时,故不适用于 SLAM 中。SURF 效果与 SIFT 相近, 机器人实际位姿由时间和速度来控制。为保证视觉特征
同样存在计算时间过长的问题。因此,本文选择 ORB 来构建 提取的稳定性,机器人线速度保持匀速 0.2 m/s,角速度 30
词袋模型,ORB 在保持了旋转不变性和尺度不变性的同时, (° )/s,即机器人只有 0.2 m/s 匀速前进、30 (° )/s 匀速右转
速度要明显优于 SIFT 和 SURF。 及停止三个状态。其中,前进 15s 为前进 3m;右转 3s 为右
转 90°。最终通过发布线速度和角速度指令并计时来控制机器
BoW 通过比对图像所包含的特征将当前帧与每一个关键 人准确到达 5 个标志点。第二部分实验场景为中国科学院深圳
帧作相似度计算。首先当相似度表明当前帧与某一关键帧足够 先进技术研究院 B 栋 4 楼 B 区工位及 C 区 3 楼。其中,4 楼
相似时,则认为机器人回到了该关键帧附近的位置,产生回环。 工位为小范围闭环,C 区 3 楼为大范围回环。
然后,在回环后对当前帧和该关键帧进行激光点云的 ICP 匹配, 4.2 实验结果分析
从而以该关键帧的位姿为基准,计算出当前机器人位姿,并将
当前帧位姿、当前帧与回环帧之间的图像特征点、激光点云作 定位结果及误差对比如表 1 所示。表 1 中数据说明仅依
为约束加入到图优化框架中,从而对检测到回环的关键帧与当 靠激光进行 SLAM 时初始误差较小,但随着距离变远,测量
前关键帧之间的一系列位姿进行全局优化。最后,根据优化后 值与实际位姿之间误差逐渐增大。而实验过程中使用的激光成
的位姿及每一帧位姿所携带的激光数据重新构建地图,消除地 本较低,光束本身不够密集,导致无法保证有足够的可用数据
图中无法闭合的部分。 过滤掉测量过程中测量值本身的误差,从而产生累积误差。本
文提出的激光视觉联合优化位姿的方法虽然同样存在累积误
4 实验 差,但加入了视觉信息约束可有效地缩小累积误差,可获得更
高的定位精度。
本文实验分为两部分:第一部分在小范围场景下进行定
点定位精度的对比实验,分别对传统基于图优化的激光 SLAM 图 6(a) ~ (d) 分别是 Karto[3] 及本文提出的方法所构建
方法 ( 即 Karto) 和本文提出的激光视觉相结合的方法进行定 的栅格地图;图 6(e) 是 ORB-SLAM2 所构建的 C 区 3 楼稀
位数据采集;第二部分为闭环实验,验证本文提出的方法是否 疏特征点地图。其中,机器人位姿由一系列红色箭头表示。图
可以有效地解决激光 SLAM 可能出现的地图不闭合情况。 6(a)、(b) 为工位环境的小范围闭环,从中可以看到,图 6(a)
4.1 实验平台和环境 白线圈处有不重合的现象,但由于场景较小,效果并不明显。
图 6(c)、6(d) 为 C 区大范围场景所构建的地图,由于场景较大,
本文实验在 Turtlebot2 上进行,配备笔记本电脑以及 随着时间推移产生的累积误差会不断增大。图 6(c) 中可以明
激光雷达和深度摄像头,电脑配置为 IntelCore i5 处理器、 显看到白线圈出的部分地图并未重合,这是因为累积误差影响
8G 内 存, 运 行 ubuntu14.04 + ROS Indigo 系 统。 二 维 激 了机器人的定位效果,而由于定位偏差的加大,根据机器人位
光雷达采用单线激光雷达 RPLIDAR A2,人为设置采样频率 姿及激光数据所构建的地图会出现不闭合的现象。相对而言,
为 5 ~ 15 Hz,测量半径为 8m。深度相机采用奥比中光公司 图 6(d) 中机器人移动一圈回到起始位置时检测到了闭环,根
出品的 Astra 深度相机。其中,该相机深度测距的有效范围为 据起始位置计算出了当前帧位姿,并将当前帧位姿作为约束,
0.6 ~ 8 m,精度达 3 mm;深度相机视角可以达到水平 58° 进行全局优化,再通过优化后的所有位姿及所携带的激光数据
和垂直 45.5°。 更新地图信息,消除无法闭合的情况。实验结果表明,本文提
出的方法可以有效地检测回环,并优化两点之间的所有位姿,
本文实验在中国科学院深圳先进技术研究院 B 栋办公楼 位姿优化之后再根据每一帧位姿所携带的激光数据重新构建地
进行,以机器人起始位置建立世界坐标系,在 B 栋 5 楼 B、C 图,成功消除了无法闭合的地图部分。但由于加入了视觉信息,
区电梯之间选择 5 个标志性位置,分别用 Karto 和本文提出 建图过程中对机器人速度限制变大,同时对动态障碍物的抗干
的方法进行位姿测量,实验过程如图 5 所示。从 0 点出发,以

66

技术前沿

扰能力变小,只能在无人时进行建图,且需要避免摄像头面向 [11] Stühmer J, Gumhold S, Cremers D. Real-time dense
geometry from a handheld camera [C] // Proceedings of the 32th
大面积白墙等无特征物体。 DAGM Conference on Pattern Recognition, 2010: 11-20.

5 总结与展望 [12] Engel J, Sturm J, Cremers D. Semi-dense visual odometry
for a monocular camera [C] // IEEE International Conference on
本文研究了 SLAM 中多传感器融合的问题,针对低成本 Computer Vision, 2013: 1449-1456.

激光雷达噪声大、视觉构建的稀疏特征地图不适用于导航的问 [13] Engel J, Sch?ps T, Cremers D. LSD-SLAM: largescale direct
monocular SLAM [C] // European Conference on Computer Vision,
题,提出了激光视觉相结合定位建图的方案。通过采用基于稀 2014: 834-849.

疏姿态调整的方法,将激光数据和图像信息进行联合优化,有 [14] Forster C, Pizzoli M, Scaramuzza D. SVO: fast semi-direct
monocular visual odometry [C] // IEEE International Conference on
效地提高了定位和建图的精度,并通过视觉词袋模型实现闭环 Robotics and Automation, 2014: 15-22.

检测,解决了激光闭环检测难实现的问题。但由于加入了视觉 [15] Newcombe RA, Izadi S, Hilliges O, et al. KinectFusion: real-
time dense surface mapping and tracking [C] // IEEE International
信息,系统鲁棒性变差,且室内环境光照变化往往较小,同时 Symposium on Mixed and Augmented Reality, 2011: 127-136.

存在大量的动态障碍物,如摄像头捕捉到移动的行人时会导致 [16] Gokhool T, Meilland M, Rives P, et al. A dense map
building approach from spherical RGBD images [C] // International
视觉约束的错误,从而影响整体的定位建图效果。同时,当遇 Conference on Computer Vision Theory and Applications, 2014: 656-
663.
到白墙等物体时无法提取足够的特征,视觉约束失效从而导致
[17] Kerl C, Sturm J, Cremers D. Dense visual SLAM for RGB-D
建图失败。下一步工作将利用激光雷达和视觉各自的优点,提 cameras [C] // IEEE/RSJ International Conference on Intelligent
Robots and Systems, 2014: 2100-2106.
高整体的鲁棒性,保证建图的效果。
[18] Chen M, Yang S, Yi X, et al. Real-time 3D mapping using a
参考文献 2D laser scanner and IMU-aided visual SLAM [C] // IEEE International
Conference on Real-Time Computing and Robotics, 2018.
[1] Smith R, Self M, Cheeseman P. Estimating uncertain spatial
relationships in robotics [C] // IEEE International Conference on [19] Houben S, Droeschel D, Behnke S. Joint 3D laser and visual
Robotics and Automation, 2003: 435-461. fiducial marker based SLAM for a micro aerial vehicle [C] // IEEE
International Conference on Multisensor Fusion and Integration for
[2] Grisetti G, Stachniss C, Burgard W. Improved techniques Intelligent Systems, 2017.
for grid mapping with rao-blackwellized particle filters [J]. IEEE
Transactions on Robotics, 2007, 23(1): 34-46. [20] 王消为 , 贺利乐 , 赵涛 . 基于激光雷达与双目视觉的移动机器人
SLAM 研究 [J]. 传感技术学报 , 2018(3): 394-399.
[3] Konolige K, Grisetti G, Kümmerle R, et al. Efficient sparse
pose adjustment for 2D mapping [21] 张杰 , 周军 . 一种改进 ICP 算法的移动机器人激光与视觉建图方
法研究 [J]. 机电工程 , 2017(12): 1480-1484.
[C] // IEEE/RSJ International Conference on Intelligent Robots
and Systems, 2010: 22-29. [22] Shi J, He B, Zhang L, et al. Vision-based real-time 3D
mapping for UAV with laser sensor [C] // IEEE/RSJ International
[4] Kohlbrecher S, Stryk OV, Meyer J, et al. A flexible and scalable Conference on Intelligent Robots and Systems, 2016: 4524-4529.
SLAM system with full 3D motion estimation [C] // IEEE International
Symposium on Safety, Security, and Rescue Robotics, 2011: 155-160. [23] Qin T, Li P, Shen S. VINS-Mono: a robust and versatile
monocular visual-inertial state estimator [J]. IEEE Transactions on
[5] Hess W, Kohler D, Rapp H, et al. Real-time loop closure in Robotics, 2017, 3(4): 1-17.
2D LIDAR SLAM [C] // IEEE International Conference on Robotics and
Automation, 2016: 1271-1278. [24] Li M, Mourikis AI. 3-D motion estimation and online
temporal calibration for camera-IMU systems [C] // IEEE International
[6] Davison AJ, Reid ID, Molton ND, et al. MonoSLAM: real-time Conference on Robotics and Automation, 2013: 5709-5716.
single camera SLAM
[25] Lynen S, Achtelik MW, Weiss S, et al. A robust and modular
[J]. IEEE Transactions on Pattern Analysis and Machine multi-sensor fusion approach applied to MAV navigation [C] // IEEE/
Intelligence, 2007, 29(6): 1052-1067. RSJ International Conference on Intelligent Robots and Systems,
2013: 3923-3929.
[7] Sim R, Elinas P, Griffin M. Vision-based SLAM using the rao-
blackwellised particle filter [J]. IJCAI Workshop on Reasoning with [26] Lowe DG. Distinctive image features from scaleinvariant
Uncertainty in Robotics, 2005, 9(4): 500-509. keypoints [J]. International Journal of Computer Vision, 2004, 60(2):
91-110.
[8] Klein G, Murray D. Parallel tracking and mapping for small
AR workspaces [C] // IEEE/ACM International Symposium on Mixed [27] Bay H, Tuytelaars T, Gool LV. SURF: speeded up robust
and Augmented Reality, 2007: 1-10. features [C] // European Conference on Computer Vision, 2006: 404-
417.
[9] Mur-Artal R, Tardos JD. ORB-SLAM2: an open?source
SLAM system for monocular, stereo, and RGB-D cameras [J]. IEEE
Transactions on Robotics, 2016, 33(5): 1-8.

[10] Rublee E, Rabaud V, Konolige K, et al. ORB: an efficient
alternative to SIFT or SURF [C] // IEEE International Conference on
Computer Vision, 2012: 2564-2571.

67

机器人技术与应用

“人机协作”智能机器人应用
——以智慧园区应用为例

伴随着我国智慧城市宏观政策和产业趋势的发展,在云计算、物联网、人工智能等技术推动下,智慧园区的落地
建设更切近实际战略发展和精细化管理的要求,纷纷从收管理费、停车费、人头费的传统管理模式向机器人、智能化、
平台化的智慧物业方向转变,从场景化 + 智能化多维度出发完善智慧园区的发展。通过建设一体化 IT 架构和引入智
能化手段、辐射更广阔市场空间,向着提升自身竞争力和提升整体业绩的管理目标迈进。

文 / 中智科创机器人有限公司 杨愿军

在以机器人为核心的人工智能解决方案在智能园区的落地 控、子系统独立难协同、缺少智能分析能力等弊端。通过在园
应用中,中智科创主要从岗位需求入手,针对人力成本激涨倒 区管理的门岗、访客管理、车辆管理、物品管理、环境监测、
逼、园区管理从业人员流动性高,管理创新及发展需要、向高 安保巡更、周界巡逻等重点岗位,将机器人、人脸识别、车牌
端现代服务业迈进,重复、机械劳动力岗位急需解放,腾出更 识别、物体检测等 AI 技术与安防技术集成,实现访客的无感
多资源用在人性化物业服务上等现实行业管理上的痛点问题, 通行与信息备案、受限人员的智能识别告警,车辆的智能识别
分析拆解岗位职责、工作要求、任务动作,将重复、高频、劳 与无感支付闭环管理,自动巡逻与移动视频监控,其它异常情
动密集型、危险性高的部分工作通过机器人来完成,将机器人 况自动告警等,用智能化手段提升管理能力和效率,最终达到
和从业人员同岗工作、排班调度,通过机器人辅助或部分代替 降本增效的管理目标。
人工作的“人机协作”创新模式,来减轻和释放从业人员的部
分工作量,从而达到部分解放劳动力的目的。 在安保应用方面企业从以下三层面入手考虑:一是机器人
+ 从业人员,可以同岗作业、统一调度、人机互补,以机器人
目前中智科创的“人机协作”智能机器人应用方案在园区 单体辅助从业人员同岗作业应用为主,辅助、配合提高安保人
应用主要集中在安保管理、物业服务、消防应急等三个方面。 员的技能水平;二是机器人 + 安防智能化系统,可以系统集成、
弥补当前园区管理中人防从业人员需求老龄化、流动性大、管 智能联动、统一指挥,机器人与传统安防系统之间的集成联动,
理难、人力成本高,技防事前无预警能力、事后报警、被动监 动静结合,在安保业务框架下协同管理,提升安保应用智能化
水平;三是机器人 + 智慧运营,数据分析、业务协同、统一运营,
园区管理岗位需求分析 机器人与园区业务运营平台间的信息互联,实现统一综合运营,
打造全覆盖、无死角的新型智慧安保应用体系,提供全方位园
区智能服务。

智能机器人在园区物业服务领域的应用有更多场景或岗位
可以考虑,如环境清洁方面的扫地、清洗、环境监测,设备设
施运维方面的设备监测、巡检,人员管理的访客管理、前台迎宾、
贵宾导引、咨询讲解等,物件配送、秘书助手、移动广告等增
值服务。通过采用人工智能 AI、机器人、物联网等关键技术,

68

机器人技术与应用

“人机协作”智能安保应用场景—巡逻巡检 安保活动应用案例

“人机协作”智能物业应用场景—访客管理 社区物业服务应用案例

构建一个可定制的、可集成的、可视化的、全时空立体巡防巡 各个方面或细分岗位发挥作用,它们具备全面感知、全局决策、
检的、基于智慧云端运营管理的新型物业应用系统。以科技手 实时控制的特点,通过智能调整各类终端,异情、危情的等待
段重塑物业品牌,助力物业降耗增效。赋能物业管理者,针对 处置时间可以大幅缩短;并通过人机协作、自动巡逻等实现事
物业保安、保洁、运维、传统客服、特色增值服务等日常业务 前预警、事中处置、事后追溯。在智慧园区应用场景中,是人、
提供了一个高效的一站式物业运营新型管理模式,让业主、企 车、物、设备设施、环境、事件的全面协同,将更多的状况纳
业、商户、消费者等享受快捷、便利、温馨舒适的贴身服务。 入到这一体系中,提供一个综合的解决方案,发挥综合效益实
现园区的智能化管理。
园区消防安全管理中的智能机器人应用侧重于:一是人的
安全问题,火情现场情况复杂,需要消防人员亲临火场,未知 智慧园区机器人应用全景图构想
风险往往造成人员伤亡;二是物的管理问题:设备多,分布广,
状态不明,消控设备监管难度大;三是信息的管理问题:有效
信息采集不到位,反馈不及时,出现火灾信息的漏报、迟报,
报警设备出现故障没有及时恢复开通,对设备的故障更是无法
判断、预测。因此,我们结合物联网、人工智能等技术打造信
息化和智能化的消防远程监控系统,将消防执勤人员、侦查机
器人、灭火机器人、救援机器人以及众多的消防栓、烟雾探测、
联网报警等设备实现了平台化、智能化的管理。

总体来说,AI 思维的智能机器人应用,将在园区管理的

69

机器人技术与应用

配送机器人技术及其应用

深圳优地科技有限公司成立于 2013 年 3 月,服务机器人移动平台解决方案提供商,是深圳市高新技术企业和国
家高新技术企业,同时也是双软认证企业。

文 / 深圳优地科技有限公司

深圳优地科技有限公司成立于 2013 年 3 月,服务机器人 CITE 2019 创新企业奖。
移动平台解决方案提供商,是深圳市高新技术企业和国家高新 优地科技的全机械结构均来自自主知识产权,针对不同场
技术企业,同时也是双软认证企业。
景选择适配软硬件融入到各场景适配系统中,积累大量开发技
目前优地科技旗下有四款产品:机器人通用版底盘拥有自 术经验,并服务众多知名高科技企业。机器人采用多传感器融
主规划路径、行走控制、自主避障、自主充电、电梯控制等功 合实现精准定位导航,自主完成建图、定位(多传感融合)、
能;优小妹采用激光雷达导航,能够自主规划路径、自主避障, 导航(车道线的走法)、避障,具备运动控制,PID、装配精度,
可自主乘坐电梯、自主充电,灵活完成智能带位、运输等任务; 视觉校准多种能力。更有强大的云端控制平台,可实现信息收
优小弟的置物柜空间更大,一次能够运输更多物品,无需铺设 集、远程诊断和中央控制。
导轨,成熟的多机位循环功能,多台机器能够在复杂的商业场
所内迅速移动,快速完成配送工作;室外配送机器人主要为外
卖公司承担 3 公里以内的短距离即时配送,代替快递、外卖人
员完成封闭区域内的配送和通知工作。

2013 年,优地科技正式成立,获 UT 斯达康天使轮投资 ;
2014 年,成为 NVIDIA 合作伙伴,为众多客户提供无人
驾驶平台解决方案;
2016 年,推出第一代室内机器人“优小妹”,完成数
千万 A 轮融资,斩获机器人行业最具投资价值企业奖;
2017 年,优地机器人正式进入楼宇配送领域并与美团达
成合作,推出第二代室内机器人“优小弟”,荣获 CITE 2017
创新产品与应用奖 、年度中国服务机器人十大技术创新产品;
2018 年,完成数千万 B 轮融资,发布室外配送机器人“优
小哥”,室内机器人累计发货量超过 600 台,荣获人工智能
产业年度创新力企业奖、年度深圳机器人技术创新企业奖;
2019 年,室外车于年初开始在园区上路测试;产能大幅
度提升,成本快速下降,第二代机器人开始规模化量产,荣获

70

机器人技术与应用

应用场景—室内 KTV 用担心会在 KTV 里迷路了。会问好带路,会语音互动卖萌,
还会送酒水,顾客对机器人的好感度蹭蹭蹭的往上升,无形中
自纯 K 率先引入优地机器人—优小妹,在门店负责迎宾、 也拉高了门店的形象。
带路和送餐的工作后,银乐迪、好乐迪、欢乐迪、皇室派对、
曼哈顿音乐会、王子公主奇遇记、畅想国度、喜聚等数百家 酒店
KTV 连锁品牌也相继采购服务机器人优小妹,并在全国各地的
分店纷纷追加订单,布局“人工智能 +KTV”运营新模式。 近两年随着消费升级,消费者追求更高的品质和服务体验,
酒店单纯的住宿功能,已经不能满足消费者的需求,于是出现
对商家来说,机器人能有效替代人力,将服务员从简单重 了“智慧酒店”、“生态酒店”、“未来酒店”等智能化酒店。
复的劳动中解放出来,还在一定程度上节省成本。在机器人“上 优地机器人身为人工智能的代表,已经在酒店里正式上岗。
岗”的门店,原本需要 4 个服务员在门口迎宾和带位,现在只
需要 2 人,另外两位服务员则可以调到区域客房进行服务,相 机器人在酒店的主要功能如下:
当于减少 1-2 位带位服务员,每年可为商家节省约 18 万的人
力成本。

而且,机器人无需管理培训,可以“一班到尾”,充满电
可工作 7-12 小时,工作时长是服务员的两倍,遇到门店客人
多的情况,还能承担跑腿的任务,给客人运送酒水等物品,配
送一次平均时长 3 分钟,一天可行走 10-20 公里,是当之无
愧的“优秀员工”了。

对顾客来说,来到门店后,可以第一时间收到机器人的问
候“您好,欢迎您的光临”。

接收到工作人员的指令后,机器人就会带顾客去到预定的
包厢,如果有人挡到了前面,就会发出“前面的帅哥、美女麻
烦您让一下”的语音提示,可爱的语气引的顾客特意挡在前面
来逗它,在门店又多了一层乐趣。

去包厢的途中,它还会贴心提醒洗手间的位置,就再也不

71

机器人技术与应用

一、迎宾:系统与酒店的客房系统对接后,摄像头扫描到 人员又不能送上去,这时候就需要机器人出马了!优地机器人
客人的身影会主动跟客人打招呼,跟客人进行对话,迎送客人 已和外卖平台达成了合作。外卖小哥扫码打开我身后的储物箱,
上电梯。 将外卖放进去,再选择具体的房间号,机器人就能自主乘坐电
梯送到对应的房间门口,再自动给住客发条信息,通知客人凭
二、带路:酒店一般都楼层高、房间多,只要在操作面板 收到的验证码来取餐;
上点击或者跟机器人语音告诉房间号,机器人就能立马带客人
上去,给住客留下一个便捷智慧的入住印象。 应用场景—室外

三、配送酒店物品:住客致电客房服务需要增添的酒店物 优地科技研发的室外配送机器人主要为快递、外卖公司承
品后,酒店客服人员把物品放到机器人的储物箱,机器人就能 担 3 公里以内的短距离即时配送,代替快递、外卖人员完成封
自主乘坐电梯到达房间门口。再主动拨打客房电话,通知住客 闭区域内的配送和通知工作。优地室外机器人是基于多传感器
来开门取物品,有效的保证了住客安全隐私。 SLAM 全局定位导航技术、感知技术和机器视觉等实现的行走
技术,用 AI 算法预测行人的行进路线,并在云端后台进行调
四、配送外卖:酒店住客叫了外卖,不方便下来拿,外卖 度管理。目前室外机器人已完成基础测试和路测,将于年中开
展机器人 5G 落地测试。

优地科技是业内最早实现无人驾驶设备量产商用的企业之
一,其自有品牌机器人已经遍布全国 50 多个城市,已广泛应
用于酒店、办公楼、餐厅、KTV 等为近千家商业场所,提供平
均每天超 40000 人次的引领、配送等服务。优地科技也已经
利用其成熟的技术,为众多业内公司提供机器人行走方案。

优地科技致力于推动无人驾驶技术在最后三公里至室内末
端配送领域的商用落地,为全球客户提供可靠稳定的移动机器
人平台方案。

72

机器人技术与应用

导航机器人底盘
及其技术应用

机器人底盘承载着机器人定位、导航、移动、避障等多种功能,是机器人必不可少的重要硬件,不少企业鉴于此
纷纷开始发力布局。近些年来,随着产业发展的不断成熟,机器人底盘或将迎来一个快速发展时代。

文 / 极创机器人

序言:坚守机器人底盘阵地 成立后,一直坚守在底盘领域深耕,致力于为机器人开发者提
供更具有产品力的底盘产品,由于行业位于机器人领域的上游,
极创机器人科技有限公司是国内知名的移动机器人底盘技 团队成员大量接触了多家国内知名院校科研机构,展开过深度
术提供商,是国内较早进入底盘行业的团队,专注于无人驾驶 技术方案与合作,积累了大量的项目经验和产品开发能力,同
机器人底盘、特种运输底盘的研发及生产,几乎拥有从零件加 时形成了自己的产品系列和独特的技术路线;
工到批量产线的独立加工能力。公司现有多个系列的机器人底
盘,包括轮式、履带式、垂直爬墙、管道机器人等多种产品。 团队为国内消防领域,警用领域、巡检等领域几百家知名
已实际应用在巡检勘探,导航车、消防救援、军警排爆,特种 公司和组织提供过移动解决方案。“十个人里有八个人认为我
拍摄,特种运输等移动机器人开发,团队成员是因为兴趣爱好 们应该向机器人整机领域进军,尤其是我们已经为许许多多甲
而组建团队,创始人称:‘’快毕业时感觉找不到自己喜欢的 方开发过整体解决方案,似乎与机器人整体只有一步之遥,但
方向工作,所以跟大学一起比赛的伙伴们成立的公司”,团队 我们知道底盘这件事情我们还远没有做好‘’技术机器人 CTO
说。早期极创团队的财务压力也非常大,但整机和底盘的利润
空间起步就是十几倍,看着自己的客户们一个个(好多也是机
器人初创团队)赚了钱,极创团队也不是没有心动过,但致力
于机器人底盘是团队的核心思想,不忘初心的做好一件事情是
极创团队的核心价值观,他们甚至为此推掉了很多价值观异同
的投资人,坚守在机器人底盘阵地。

发现机器人核心技术,构建移动壁垒

“机器人底盘技术表面上来看不是一件复杂的事情,但当
你真正爬上这座上坡,才发现后面更高的群山”极创机器人团
队对此有深切的感悟。

我们都知道机器人分为工业机器人和服务机器人,服务机
器人除了在应用场景上与工业机器人不同外,会有更多的移动
场景,比如送快递的机器人、巡检的机器人,必须要借助移动

73

机器人技术与应用

来实现其场景功能,甚至不能移动的机器人我们往往称之为机 深耕机器人底盘 让机器人“畅快奔跑”
器或者设备终端。当然工业机器人也有其移动的场景,曾为美
的机器人团队合作了移动的工业机器人、为建筑机器人提供转 从机器人底盘的应用出发,团队最需要解决的是轻型化,
场底盘,所以工业机器人行业的发展也不会一成不变的走下去, 不同于早期市场上的工程底盘,履带式机器人底盘从标准到制
早晚也会有“跑起来”的一天。 成什么都没有,团队梳理了开发者需求,树立了“轻量化高精
度减震底盘”方向,在轻量化上不只是使用更轻的材料更紧凑
早期机器人行业每每遇到移动的场景开发者都是很发愁 的器件,而在于设计合理的结构承受各种力,有效的有限元分
的,构建一个稳定成熟再有点优势的底盘是十分耗时耗力的, 析以及快速便捷的加工制造工艺,避免墨守成规使得极创团队
而且甲方项目周期实在是太紧迫了,正是看到这一需求,极创 的产品往往与众不同,创新力是研发团队最为重视的设计思想,
团队首先做到事情是:打造机器人底盘系列,让用户像选螺栓 每减去 1g 重量,意味着用户的搭载物能多 1g,这是底盘作为
一样快速选型。这就需要团队的研发着眼于每个客户的需求单, 承载着的使命也是极创的工程师们的内心独白;在高精度方面,
尽量开发普适性的多系列底盘产品,目前极创科技的底盘种类 则要考虑使用最具性价比的器件,保障底盘在不同路面行驶时
多达三十余种,让每个用户尽量找到自己想要的产品,然而用 的准确反馈与控制接口,便于使用者快速开发落地;而在悬挂
户选不到适配型号还是在所难免,有些独特的场景应用和苛刻 减震方面,团队付出的精力最多,考虑到用户的上装设备往往
的环境要求使得标准产品不能达到用户需求。 是高精度的传感器和实施设备,也为了能让摄像头具有更加稳
定的输出画面,极创团队全系车型均为减震标配,采用了能够
为此极创团队做了两件事情:第一提高底盘的初始设计标 采用的一切减震方案,能够保证摄像头图像的画面柔和,减少
准尽量满足更多的客户需求;第二不同型号尽量不做简单的放 和避免机器人运行带来的图像抖动和画面模糊,这一方向的路
大或缩小,而是采用完全不同的方案,为丰富的底盘方案储备 途其实很长,目前机器人底盘领域还集中在常规被动减震方案
修改升级资源。这两种技术路线给极创团队带来了较大的挑战, 上,采用液压阻尼的克里斯蒂式或玛蒂尔达式悬挂方案,仅仅
前者需要更高的工艺要求和 BOM 成本,后者则给研发团队带 是具有,大多数连调校都不存在,造成这一现象的原因是多方
来了巨大的工作量和脑洞挑战,他们像疯了一样深挖全球的底 面的,首先行业的不成熟使得的供应链不完善,底盘方只能自
盘结构设计思路、不断从各种结构和需求上寻找灵感、行程自 谋出路,作为有减震底盘的坚守者,极创机器人从具有到着力
己的设计思路、挑战快速生产工程样机速度、不断验证结构的 于提供更加有效的减重效果,目前也同步开始油气悬挂的相关
合理性、不断发现一个个问题、迭代一代代产品、完善一项项 研发和部署,着力于开发主动悬挂和避震技术,让机器人能够
细节。正是在这一领域近五年来的深耕,团队才爬上一座座高 更加畅快奔跑。
山,看到更广阔的群山。

74

机器人技术与应用

专业化 - 源源不断的动力来源 挑战 5000KM 应用级路测

致力于更好的服务客户和追求绝佳的客户体验是极创工程 今年 5 月,团队将正式拉开底盘车全车系 5000KM 路测
师们源源不断的动力来源。他们甚至开发了基于三缸和四缸高 序幕,预计总耗时历时半年,负责人表示:“基于巡检车最大
压共轨柴油机作为更有力和持久的动力来源的机器人底盘,目 续航和新的路测方式引入,每日最大路测历程会逐步提高,路
前服役于军工底盘和油动液压消防机器人等领域。 测方式分为手动遥控和自主巡检,由专人负责,导航类路测车
可能会在夜晚进行路测以加快测试进度”。据了解,整个测试
作为机器人上下游产业链的关键一环,机器人的“腿”移 将在多地同步进行,一是在极创机器人公司所在的年华南街及
动底盘系统提供商,动力总成一直是底盘的核心部件,从早期 院内部分铺装路面道路,全天 24 小时开方路测,现场会放置
的借用到目前的专属定制,底盘行业也走过了一定的历程,机 路基以用于雷达扫描建图,路线共计 500 米每圈,共需完成
器人底盘的专业化动力总成或许会将专业底盘提供商与一般底 10000 圈测试;二是专业路测场地,仅限于白天工作日进行,
盘开发者拉开差距,成为底盘行业机器人产业链的奠基石,就 铺装路面,场地专业每圈为 1.1KM,共需完成 5000 圈测试。
像大疆开始研发电机、飞控,优必选自造低成本舵机、格力掌 其他场地将在上海和深圳的合作伙伴同时进行展开,共同完成
握核心技术一样,机器人底盘动力总成亦具有其关注的动力参 5000KM 级测试。
数,非常规减变速箱及伺服电机所全部适用,极创团队也一直
致力于专用动力总成的部署,已开发一拖二传动分动箱、零差 巡检车的全面路测面临诸多的技术问题和实际应用问题,
速双流传动箱、多档位变速箱等动力部件,着力提高底盘的专 可能涉及的上下游可能包括:底盘车行业、机器人电池行业、
业性和关键参数,使得机器人开发者驾驭专属“心脏”,未来, 无线充电技术、减速机、电机、驱动器、可靠的工控机、可靠
还将出现混合动力的动力总成,以提高产品多方可靠性、加宽 的激光导航方案供应商、激光雷达产业、此外还有视觉、惯导、
应用场景以及批量制造降低产品成本。 循迹、差分 GPS 等导航方案相关产业,总之几乎需要稳定的

75

机器人技术与应用

商用级别的一切部件。但相对于 5000KM 苛刻路测,这些或 计信息,车辆速度与方向,转向速度反馈,车辆电量反馈等,
许只是开始 ..... 我们衷心希望,单车总里程突破 5000KM 的连 而数据类型均采用 geometry_msgs::Twist 格式与控制系统进
续路测将促进行业内导航类车辆的可靠性确认和行业的一点点 行交互,机器人电源系统采用安全系数较高的锂电池方案,全
发展,不管怎样对于一个致力于于底盘的团队来讲必将是意义 系均电源具备 485 通讯,提供多种常用电源输出,便携取电,
深远和极具疯狂的专注体现。 随时监控电池信息。因此无论对于企业研发或者科研机构能有
效降低研发成本,快速部署到产品实际运用场景。
丰富的周边技术和扩展
应用场景不断落地,未来千亿级市场
为满足户外场景机器人无线遥控需求,极创也开发了具备
不同环境无线遥控系统策略,将遥控及图传系统集成于一体。 机器人行业这些年一直在发展,有些场景在落地也有些
分为箱式和手持式,箱式专业化高,便于集成新的功能和系统 场景迟迟不能实现,目前可见的,机器人底盘应用在消防机器
模块,手持式轻量便携,具有更有力的产品力,提高操作便利 人、电力巡检机器人、巡检巡警机器人领域、军工班组保障、
性。其遥控系统具备抗扰能力,克服模拟技术和常规调制技术 排爆机器人、遥控武器站、高校科研机构的其他场景开发愈演
下图像传输多径反射及遮挡所带来的困扰,实现在高速运动中 愈烈。极创团队甚至为消防机器人单独开了消防机器人底盘系
拍摄并实时非视距传输高质量图像,特别适合于复杂环境的使 列,内置消防机器人标准的多数功能和参数,几乎是“扣个壳”
用。例如 , 在消防灭火机器人用途:控制车辆的运动控制、云 就可以落地,同时我们也看到极创团队为了很多细分领域的落
台球机的控制、水泡的控制、车灯控制、报警触发、车速控制、 地做了大量的功课,比如风冷水冷散热系统、消防机器人隔热
急停按钮、画面选择、视频录制等功能。遥控通讯距离一般在 技术、履带式单边系统等场景方案技术点,可见未来基于移动
500 米 - 若干公里,有效深入危险恶劣环境作业,保护人身安 底盘的应用将会面临喷涌和爆发,作为机器人底盘供应商和其
全! 他机器人上下游产业链的各环节们,也应该不断着力于技术核
心,形成产业规模,为产业发展做好充分的准备。
对于机器人开发用户来讲,应用和尽快落地最为关键。为
增强用户二次开发的灵活、便利性,底层驱动器兼容多种控制
方式,其支持 PWM、串口、Can 等通讯方式,并提供相关控
制协议!可直接采用遥控器操控、或者 PC 直接下发指令控制
电机转速、转向,获取码盘速度。都不必担心兼容性问题。让
用户快速的让机器人跑起来,缩短产品落地周期。

而针对 ROS 的开发需求,机器人底盘配套车辆运动学模
型数据输出,通过串口通讯协议获取车辆配置信息,如:里程

76

机器人技术与应用

单目视觉导航方案的工程化应用

在复杂道路环境中的自主移动功能是服务机器人的基础功能,地图构建和定位(SLAM)则是机器人自主移动的
核心;采用视觉 slam 方法的“伽利略视觉导航系统”,在不用 GPS 和不添加任何辅助定位设施情况下即可实现机器
人导航地图的建立、实时定位机器人在地图中的位置和路径规划功能。

文 / 蓝鲸智能

伽利略视觉导航系统介绍 变化有一定的适应能力,即使视野中有行人等移动物体也完全
不会影响其定位。在开启动态曝光软硬件调节后,系统对环境
伽利略视觉导航系统利用廉价的 cmos rgb 摄像头采集机 和光线的变化有极强的适应能力,甚至夜晚也可以采用红外补
器人视野内图像,通过连续多帧图像中的特征点信息来计算机 光方式进行导航。
器人当前姿态,同时建立三维视觉导航地图。地图建立之后,
通过对比当前图像的特征点与地图中的特征点,伽利略视觉导 伽利略导航系统是集成建图、同步定位、路径规划的一整
航系统可以持续快速输出机器人在地图中的实时位置。机器人 套解决方案,系统具有友好的人机交互界面,和丰富的二次开
路径规划模块根据这个实时位置信息控制机器人完成预设动 发接口,蓝鲸智能提供丰富的开源代码和基于 ROS 的开源功
作,从而实现机器人的自主无轨运动。 能包、涵盖人体识别、物体识别、姿态感知、机械臂控制、语
音交互等实用功能。系统可以融合激光雷达、超声波、红外模
单目视觉导航系统具有以下技术特点 块、IMU、RGBD 等传感器来做到实际使用最优化的性能体验。

1、采用从视频图像信息中提取特征点的工作方式,其定 伽利略视觉导航系统的几个典型的应用案例的介绍:
位精度高不存在累计误差。即使是连续工作数日产生的误差也 1、叉车定位。
在几厘米范围之内。相对于激光雷达的定位方式,单目视觉 对于传统叉车进行自主移动改造十分困难,但是在生产过
SLAM 不容易由于地形的局部相似产生错误。 程中,传统叉车没有一个统一调度的信息反馈,无法达到最优
化的任务分配和高效的任务执行。叉车调度系统需要实时获取
2、单目 SLAM 算法采用视觉特征点的定位方式,视觉特 叉车位置和运动状态。通过伽利略视觉导肮系统可以解决。
征在现实世界非常丰富,而且点云为 3D,所以系统对环境的 2、安防巡逻。
在巡逻安防领域的自主移动需求上面,伽利略视觉导肮系
统具有得天独厚的优势。巡逻安防需要一些空旷场景的导航定
位,普通的低价位雷达无法满足要求,又有一些室内、小巷、
桥梁、楼宇等 GPS 信号微弱的场景需求。视觉导肮特征点扫
描距离实测最远可达到 200M 以上,并且具有视觉侦测、检
测的无缝对接优势,使得伽利略视觉导航系统在巡逻安防场景
中成功应用。
3、物流搬运。
伽利略视觉导航系统在传统 AGV 的工艺流程不变的前提

77

机器人技术与应用

下去掉了繁琐的导轨和磁条,在路径修改调整,生产空间节约 防撞安全 :
等需求上更显优势。 激光雷达、超声波、视觉三重避障,遇到障碍自动绕行或
重新规划路线。
赤兔 AGV 介绍 辅助交互功能 :
到站音频、灯光提示,云端记录行走路径和远程喊话功能。
赤兔自主移动 AGV 是蓝鲸智能新推出的一款通用底盘, 二次开发:
赤兔负载可达到 100 公斤,具有语音、灯光交互、自动充电、 开放 SDK, 支持 C++ C# Java Python 多种语言,通过
无线图传等功能、搭载了蓝鲸智能的伽利略视觉导航系统,支 SDK 可以控制和获取机器人的状态位置及图像信息等等。全方
持二次开发,满足您的个性化需求。 位掌控机器人。可根据需求进行定制,比如增加监控摄像头,
机械臂,载物台等等。
基本参数 :
最大速度:1.8 M/S 蓝鲸智能机器人深圳有限公司简介:
最小通过宽度:600mm 成立于 2015 年的蓝鲸智能,公司核心团队人员在机器人领
额外载重:100kg
整机自重:35kg 域有多年研究开发经验。公司是国内少有的拥有单目视觉导航方
尺寸:高度:250mm; 宽度:430mm; 长度:500mm 面完整、可靠的解决方案的技术供应商。蓝鲸智能基于单目视觉
空载爬坡:15°以上 导航的核心技术,致力于为企业提供超高性价比的机器人自主移
运行方式 : 动系统,该系统可以应用在扫地机、服务机器人、安防机器人、
无需轨道,混合导航方式,虚拟路网自动规划路径 工业 AGV 和无人叉车等产品上。蓝鲸智能目前已经为数十家机器
自动充电 : 人相关企业提供了稳定可靠的解决方案。
配备自动充电桩,实现低电量自动归位充电,36V 10AH
锂电池,可连续运行 4 个小时以上。
低噪音 :
采用一体式轮毂电机,运行更平稳,几乎无噪音。
移动精度 :
典型定位误差 <=5cm; 重复定位误差 <=2cm ;角度误
差 <=5°。
人工干预方式 :
虚拟路网避免误入,windows 客户端遥控 ;APP 手机客
户端遥控 ;远程喊话。

78

智能系统

基于非对称均方误差的
人体姿态估计方法

在用于人体姿态估计的深度神经网络中,损失函数通常使用均方误差 (Mean Squear Error, MSE)。MSE 虽然计算简单,但无法确
保与预测结果一致性,即神经网络输出的预测热图不同,计算得到的 MSE 相同。针对该问题,本文基于 MSE 提出非对称均方误
差 (Asymmetric Mean Square Error, AMSE) 损失函数,对预测热图添加惩罚项,对较大的预测输出值进行惩罚,保证 MSE 与预
测结果的一致性。在 COCO val2017 数据集上的实验结果表明,本文提出的 AMSE 预测效果优于 MSE。

文 / 黄玉程 1 孟凡阳 2
1. 深圳大学,广东深圳 518060
2. 深圳信息职业技术学院信息技术研究所,广东深圳 518029

1 引言 测,并通过 MSE 计算预测热图与标注热图之间的损失函数值,
但使用 MSE 作为损失函数存在先天的不足,首先,不同预测
多人人体姿态估计作为众多计算机视觉应用,例如行为识 热图与标注热图间的 MSE 值与 mAP 度量存在不一致问题,
别、人机交互的基本挑战之一 [1-3],其主要目的是为了识别和 这意味着具有相同 MSE 的两张预测热图会产生不同的错误率,
定位图片中不同人体的关键点。 我们称之为不一致问题。为了解决以上问题,本文提出非对称
均方误差 (AMSE),通过指引模型选择更好的输出来保持一致
自从 Toshev 等人将深度学习应用在人体姿态估计任务之 性。实验表明,在只增加少许计算量的情况下,使用 AMSE
后 [4],人体姿态估计方法开始逐步由传统方法向深度学习方向 训练的模型效果明显优于 MSE 训练的模型。
转变 [5-8],Toshev 等人通过神经网络直接回归出人体关键点坐
标,Tompson 等人使用多分辨率图片作为输入,提取图片多 综上,本文的主要贡献有以下几点:
尺度特征,并用于人体关键点热图预测 [9]。当前人体姿态估计 (1) 分析在人体姿态估计任务中,使用预测热图和标注热
框架分为两大类,第一种为基于两阶段的方法 ,[10-12] 首先将 图计算 MSE 值所产生的不一致问题。
图片中每人的框架的找出,再对各框架中的人体进行关键点定 (2) 提出非对称均方误差 (AMSE) 作为改进损失函数,解
位,第二种为基于各关键点的方法 ,[13-15] 首先将图片中所有 决不一致问题。
的关键点定位,再对定位后的关键点进行组合得到多人关键点。
通常基于两阶段的方法效果更好,因为该方法能更好的利用图 2 非对称均方误差
片的全局语义信息。
2.1 均方误差
当前最好的人体姿态估计方法都致力于新型网络模型的研 基于热图表示的人体姿态估计方法,以大小的彩图作为输
究,例如 CPN 和 SBN,CPN 通过将多层级特征整合为金字塔
网络的形式解决困难关键点的检测问题,SBN 提供简单高效 入,输出为一组表示人体部位定位的 2D 热图,如图 1 所示。
的人体姿态估计方法,只对 ResNet 的最后一层添加反卷积层 其中 S=(S1,S2, ∙∙∙ SJ) 表示 J 张热图,每张图代表一个关
便取得了较好的结果 [16]。这些方法均使用热图的方法进行预
键点, SjRWH 热图间的 MSE 值计算公式定义为:

79

智能系统

图 1 2D 热图 存在,如图 2 所示,其中黑体字表示比相应位置的目标值大 0.5,
非黑体字表示比相应位置的目标值小 0.5。
(1)
其中 M=J×W×H,G ∈ jRWH 示第 j 关键点的标注热图, 由图 2 可知,在相同 MSE 值的情况下,(a)-(e) 和 (f)-(h)
热图是在关键点位置施加高斯斑所产生的图片。对于第 j 个 的预测热图经过公式 (2) 的求最值操作后,将产生一个像素位
预测关键点的热图 Sj,最终的关键点坐标 Kj 由热图中最大值 置的误差导致最终结果不同,这便是 MSE 的不一致问题。实
p ∈ R2 的位置确定: 际上,不一致问题主要由公式 (2) 的操作产生,因为该操作对
预测热图的绝对值不敏感,而预测热图内各值的相对顺序却对
(2) 预测一致性十分重要,只有当预测热图内各值的相对顺序和标
目前最好的人体姿态估计方法均采用 MSE 作为损失函数 注热图相同,才能通过公式 (2) 得到一致的结果。使用 MSE
[17],但是 MSE 却无法确保预测结果的一致性,在模型预测热 的目的是为了缩小预测和目标间的绝对差值,由此导致的与公
图具有相同的 MSE 值的情况下,会出现不同的预测结果,该 式 (2) 的不匹配现象,产生了不一致问题。
问题称之为不一致问题。
针 对 该 问 题, 图 像 处 理 领 域 提 出 了 结 构 相 似 性 指 标
2.2 问题分析 SSIM[18],在 MSE 相同的情况下,通过提高图片的结构相似
性使人眼视觉效果得到改善。在人体姿态估计任务中,标注热
对于给定标注热图 G0 和 MSE 值 ,存在多个预测热图 图由关键点部位施加的高斯斑产生,每张 6464 大小的标注热
S* 满足以下公式: 图仅在高斯斑的生成部分有值存在,所以,标注热图不仅缺少
丰富的边缘纹理信息,还非常的稀疏,使用 SSIM 并不合适,
(3) 若增大高斯斑的范围使纹理更明显则又会导致关键点的定位不
准确。
不同的热图 S* 预测结果不同,却得到了相同的 MSE 值。
为了简化这一问题,假设 S* 满足以下条件: 因此 MSE 仍为当前最广泛使用的损失函数之一,针对存
在的问题,本文提出了非对称均方误差 (AMSE) 进行改善。
(4) 2.3 非对称均方误差
如公式 (4) 所示,对预测热图上的每个点而言,只存在两
种情况,比目标值大 或小 。以一维热图为例,假设 因为图 2 内各热图 MSE 值相同,所以 MSE 无法区分各
标注热图为 [0.5,1,0.5]T,则存在 8 种满足公式 (4) 的预测热图 热图的不同,但是各预测热图却会有不同的预测结果。由图
2(a),图 2(b) 可知,当预测热图各值均大于或小于标注热图的
图 2 具有相同 MSE 的预测热图 值时,预测效果最好,因此,迫使模型输出类似于图 2(a),图
2(b) 的值,可能使模型的效果得到提升。通过将模型输出值
的平方加在原始 MSE 损失函数上,能引导模型输出类似于图
2(b) 的更小的预测值,公式定义如下:

(5)
式中 M=J×W×H,Gj ∈ RW×H,Sj ∈ RW×H,Gj 和 Sj 分别
表示第 j 个关键点的标注热图和预测热图。当 β=0.01 时,该
损失函数称为正则化均方误差 (RMSE),RMSE 通过对预测热
图添加 L2 惩罚的方式,对预测热图中较大的值进行惩罚。但
是由于平方项的存在,即使预测值与目标值相同,也无法使损
失函数等于 0,并始终对预测值进行惩罚。RMSE 在目标值为 1,

80

智能系统

图 3 RMSE 预测曲线图 最小,但是它却能对较大预测的输出值进行惩罚,因此 Wj 等
于 是一个可行的选项,AMSE 在目标值
图 4AMSE 预测曲线图 为 1,0.5,0.25 的曲线图如图 4 所示。

0.5,0.25 的曲线图如图 3 所示,图中 RMSE 的取得最小值的 由图 4 可知,AMSE 预测曲具有线非对称性,并在预测
点并不等于目标值,这会导致较差的预测结果,然而,RMSE 值等于目标值时取最小值。实验表明,Wj 并不需要等于,不
通过对较大预测值增加惩罚项的方法的确使模型偏向输出较小 同形式的 Wj 也同样有效。
的值,这对预测表现是有利的。
3 实验与分析
如果损失函数不仅能在到达目标值时降至最小,还能对较
大的预测值施加更多的惩罚,那么该损失函数就能更好的引导 3.1 实验数据与模型
模型偏向输出较小的值并避免了 RMSE 的缺陷。出于此目的, 本实验将在 COCO 关键点挑战数据集上进行 [19],对不受
我们提出非对称性均方误差 (AMSE),其定义如下:
控环境下的多人人体关键点坐标进行预测,该数据集有超过
(6) 20 万张图片和 25 万个标注人体实例,其中有 15 万的实例已
公开可作为验证集和训练集。与文献 [10] 相同,实验只通过
式中 Wj 是由模型生成的常数项矩阵并当做常数进行反向 COCOtrain2017 数据集进行训练并不使用额外数据,测试实
验将在 val2017 数据集上进行。实验完成后,通过目标关键点
传播,使用 Wj 的目的是为了使 AMSE 在等于目标值时最小。 相似度 (OKS) 进行度量,与目标检测指标 IoU 的作用相似,
通过人体尺度标准化后的预测点和目标点的距离,将用于计算
当 Wj 等于 时,公式 (6) 为以下形式: OKS。

(7) 虽然当前神经网络的结构和实验的复杂性不断增加,但
虽然公式 (7) 和 MSE 相同,在预测值等于目标值时达到 SBN 作为当前最好的人体姿态估计方法之一却简单有效,因此
拟采用 SBN 作为实验基准进行 AMSE 效果验证。ResNet 作
为图片特征提取的常用骨干网络之一,SBN 只需在 ResNet 的
最后一层添加若干反卷积层。与 SBN 相同,我们将在 ResNet
最后一层添加三层反卷积层并使用批归一化和 ReLU 激活函数,
反卷积层有 256 个 44 滤波器并将步幅设为 2,最后通过 11
卷积调整输出通道,即可得到预测热图,标注热图由添加在关
键点位置的 2D 高斯斑产生。
3.2 模型训练与测试

实验骨干模型 ResNet 的初始化由 ImageNet 分类任务
上的预训练完成,训练时,标注人体边框将被锁定至一定比例,
通过改变边框长度将比例固定为 4 比 3,最后从图片中裁剪
下固定比例的标注边框并缩放至和 SBN 实验相同的 256192
分辨率以进行对比。实验数据增强包括图片翻转、30% 的图
片尺度变换和 40°的图片旋转,模型训练使用 4 块 GPU 并
训 练 140 代, 训 练 学 习 率 设 为 0.001 并 在 90 代 和 120 代
降 低 至 0.0001 和 0.00001, 批 训 练 大 小 设 为 128, 优 化 器
为 Adam[20],ResNet-50 和 ResNet-101 的 模 型 实 验 均 由
Pytorch 完成,除特别声明,使用 ResNet-50 为默认骨干模型。

81

智能系统

图 5 预测热图示例

β 0 0.001 0.01 0.1 1 3.3 实验结果与分析
不同超参数的实验结果如表 1 所示,当 β=0,AMSE 退
AP 72.4 72.8 73.0 72.8 72.5
化成 MSE,该结果可作为比较的基准结果。当 =0.01 时,实
表 1 不同超参数的实验结果 验结果高于基准结果 0.6 个点达到 73.0AP。实验同时表明,
AMSE 对超参数的选值并不敏感,当取值范围为 0.01 到 0.1
骨干网络 损失函数 gt-box AP(%) 之间时,都可取得较好的结果,如未特别声明,设 =0.01 为
ResNet-50 MSE √ 72.4 实验默认值。
ResNet-50 AMSE √ 73.0
ResNet-50 MSE × 70.4 AMSE 和 MSE 在不同骨干网络下的比较如表 2 所示,
ResNet-50 AMSE × 70.6 gt-box 表示是否使用标注框架,AMSE 在不同骨干网络下,
ResNet-101 MSE √ 73.4 不论是否使用标注框架,均能取得优于 MSE 的测试结果,此
ResNet-101 AMSE √ 73.9 外,若测试时使用标注框架,AMSE 在使用 ResNet-101 作为
ResNet-101 MSE × 71.4 骨干网络的情况下可使实验结果提升更多。结果表明,AMSE
ResNet-101 AMSE × 71.8 能更有效的激发模型的性能。相较于 MSE,当骨干网络为
ResNet-50 时,在使用标注框架和不使用标注框架的情况下,
表 2 不同骨干下的实验结果 AP(%) AMSE 分别能使实验结果提升 0.6 和 0.2 个点,该结果表明,
66.9 在提供准确的标注框架的情况下测试 AMSE,能使实验效果提
模型 骨干网络 OHKM 68.6 升更多。
8-stage Hourglass 无 × 69.4
√ 70.4 表 3 分别将本方法和 Hourglass、CPN、SBN 进行对比。
CPN ResNet-50 × 71.4 SBN 的人体框架检测器 AP 为 56.4 与本方法相同,CPN 和
CPN ResNet-50 × 70.6 Hourglass 的人体框架检测器 AP 为 55.3,OHKM 表示是否
SBN ResNet-50 × 71.8 使用难例挖掘 [23]。本实验的 SBN 效果与公开代码效果一致,
SBN ResNet-101 × 因此可直接与 SBN 论文中列出的结果相比较。表 3 可知,虽
Ours ResNet-50 × 然 SBN 实验结果优于 Hourglass 和 CPN,但是 AMSE 仍然
Ours ResNet-101 能使最终结果提高 0.2 和 0.4 个点,而使用 AMSE 作为损失函
数的代价仅为训练时增加的少许计算量。AMSE 在当前最好的
表 3 不同模型下的实验结果 轻量级方法 SBN 上取得了较好的效果,该方法也应适用于其
他效果一般的人体姿态估计方法,预测图示例如图 5 所示。
与文献 [10, 11] 相似,实验采用两阶段式并使用预训练
mask-RCNN 做第一阶段的单人人体框架检测 [21],检测器在
COCOval2017 上的准确率为 56.4mAP。与常规方法相同 [22],
对原始和翻转图像的预测热图求平均后,即可用于关键点位置
的预测,通过对最高响应到次高响应的方向上施加四分之一的
偏移量,即可得到最终的关键点位置。

82

智能系统

4 结论 Computer Vision, 2018: 466-481.
[11]Chen Y, Wang Z, Peng Y, et al. Cascaded pyramid
本论文介绍了人体姿态估计任务中,在计算预测热图与
network for multi-person pose estimation[C]. IEEE
标注热图间的 MSE 值时所存在的不一致问题,并针对该问题 Conference on Computer Vision and Pattern Recognition,
2018: 7103-7112.
进行了详细的分析。为了解决该问题,本文提出了一种新型有
[12]Fang H S, Xie S, Tai Y W, et al. Rmpe: regional multi-
效的非对称均方误差 (AMSE) 损失函数,在 MSE 的基础上对 person pose estimation[C]. IEEE International Conference on
Computer Vision, 2017: 2334-2343.
预测热图添加惩罚项,进而解决了该问题。在 COCOval2017
[13]Cao Z, Simon T, Wei S E, et al. Realtime multi-
数据集的实验结果表明,使用标注框架数据进行模型测试能使 person 2d pose estimation using part affinity fields[C]. IEEE
Conference on Computer Vision and Pattern Recognition,
AMSM 的最终效果提高 0.5 个点左右。虽然本方法提出于人 2017: 7291-7299.

体姿态估计任务当中,但是也应同样适用于任何使用 MSE 作 [14]Gkioxari G, Hariharan B, Girshick R, et al. Using
k-poselets for detecting people and localizing their
为损失函数且对相对值的顺序敏感的任务当中。 keypoints[C]. IEEE Conference on Computer Vision and
Pattern Recognition, 2014: 3582-3589.
参考文献
[1]Liu H, Tu J, Liu M, et al. Learning explicit shape and [15]Pishchulin L, Jain A, Andriluka M, et al. Articulated
people detection and pose estimation: Reshaping the
motion evolution maps for skeleton-based human action future[C]. IEEE Conference on Computer Vision and Pattern
recognition[C]. IEEE International Conference on Acoustics, Recognition, 2012: 3178-3185.
Speech and Signal Processing, 2018: 1333-1337.
[16]He K, Zhang X, Ren S, et al. Deep residual
[2]Liu M, Yuan J. Recognizing human actions as the learning for image recognition[C]. IEEE Conference on
evolution of pose estimation maps[C]. IEEE Conference on ComputerVision and Pattern Recognition, 2016: 770-778.
Computer Vision and Pattern Recognition, 2018: 1159-1168.
[17]Cao Z, Simon T, Wei S E, et al. Realtime multi-
[3]Chan C, Ginosar S, Zhou T, et al. Everybody dance person 2d pose estimation using part affinity fields[C]. IEEE
now[J]. arXiv preprint arXiv:1808.07371, 2018. Conference on Computer Vision and Pattern Recognition,
2017: 7291-7299.
[4]Toshev A , Szegedy C. Deeppose: Human pose
estimation via deep neural networks[C]. IEEE Conference on [18]Wang Z, Bovik A C, Sheikh H R, et al. Image quality
ComputerVision and Pattern Recognition, 2014: 1653-1660. assessment: from error visibility to structural similarity[J].
IEEE Transactions on Image Processing, 2004, 13(4): 600-
[5]Sapp B, Taskar B. Modec: Multimodal decomposable 612.
models for human pose estimation[C]. IEEE Conference on
Computer Vision and Pattern Recognition, 2013: 3674-3681. [19]Lin T Y, Maire M, Belongie S, et al. Microsoft coco:
common objects in context[C]. European Conference on
[ 6 ] L a d i c k y L , To r r P H S , Z i s s e r m a n A . H u m a n Computer Vision, 2014: 740-755.
pose estimation using a joint pixel-wise and part-wise
formulation[C]. IEEE Conference on Computer Vision and [20]Kingma D P, Ba J. Adam: a method for stochastic
Pattern Recognition, 2013: 3578-3585. optimization[J]. arXiv preprint arXiv:1412.6980, 2014.

[7]Felzenszwalb P, McAllester D, Ramanan D. A [21]He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]. IEEE
discriminatively trained, multiscale, deformable part International Conference on Computer Vision, 2017: 2961-
model[C]. IEEE Conference on Computer Vision and Pattern 2969.
Recognition, 2018: 1-8.
[22]Newell A , Yang K, Deng J. Stacked hourglass
[8]Pishchulin L, Andriluka M, Gehler P, et al. Strong networks for human pose estimation[C]. European
appearance and expressive spatial models for human pose Conference on Computer Vision, 2016: 483-499.
estimation[C]. IEEE International Conference on Computer
Vision, 2013: 3487-3494. [23]Shrivastava A , Gupta A , Girshick R. Training
region-based object detectors with online hard example
[9]Tompson J J, Jain A, LeCun Y, et al. Joint training mining[C]. IEEE Conference on Computer Vision and Pattern
of a convolutional network and a graphical model for Recognition, 2016: 761-769.
human pose estimation[C]. Advances in NeuralInformation
Processing Systems, 2014: 1799-1807.

[10]Xiao B, Wu H, Wei Y. Simple baselines for human
pose estimation and tracking[C]. European Conference on

83

智能系统

基于对抗样本的数据扩充

在鲁棒语音识别和关键词检出中的应用

本文将对抗样本用于语音识别和关键词检出中深度神经网络声学模型的训练过程中,以用来提高声学模型的鲁棒性。在模型训练过
程中,使用基于快速符号梯度方法来产生对抗样本作为原始训练样本的扩充,与传统的基于数据变换的数据扩充方式不同,本文所
提出的方法是一种模型和数据相关的方法,在模型训练过程中,根据模型的参数和当前训练数据动态地生成对抗样本。在本文中,
对于语音识别任务,我们在 Aurora-4 数据库上进行了实验,我们提出的方法能够显著地提高模型对噪声和信道的鲁棒性,而且,
我们将本文所提出的数据扩充方式和教师 / 学生学习策略结合,在 Aurora-4 数据库上,我们可以得到 23% 的相对词错误率下降。
在关键词检出任务中,我们所提出的方法也明显地降低了基于注意力机制的唤醒模型的误唤醒率和误拒绝率。

文 / 陕西省西安市西北工业大学计算机学院 孙思宁,王雄,谢磊

1. 前言 通过对干净数据添加噪声、混响等干扰,产生干净数据的带噪
副本,模拟真实的带噪数据,提高训练数据的多样性,然后将
近年来,随着深度学习 (Deep Learning,DL) 的兴 其用于模型训练。这种训练方式,被称作多场景训练。此外,
起 以 及 深 度 神 经 网 络 (Deep Neural Networks,DNNs) T/S 学习也是一种常用的提高模型鲁棒性的方法,它可以在有
在 声 学 模 型 上 的 成 功 应 用, 自 动 语 音 识 别(Automatic 监督或者无监督的场景下进行使用,T/S 学习需要并行的数据
Speech Recognition,ASR)[1][2] 和关键词检出(Keyword 分别训练 T 模型和 S 模型。
Spotting,KWS)[3][4] 得到了快速发展。各种网络结构,例
如 CNN,RNN 和 LSTM 等,都成功应用在声学建模中。基于 为了提高模型对于噪声的鲁棒性,本文提出来一种使用
DNNs 的声学模型在实际应用中,表现出了良好的噪声鲁棒性, 对 抗 样 本 来 进 行 数 据 扩 充 的 方 法。 对 抗 样 本(Adversarial
因为其特殊结构以及多层非线性变换,让其具有较强的建模能 Examples)的概念首先是在 [10] 中计算机视觉任务上被提出
力。即便如此,基于 DNNs 的 ASR 和 KWS 系统,仍然还会 来,研究者们发现,对于一个已经被完全训练好的图像识别网
受到噪声、混响以及信道等因素的影响 [6],造成识别性能地 络,如果对一个可以被正确分类的图像,进行一些非常细微的
下降。为了解决这些问题,大量的工作在不同的方面被提出来, 像素级别的扰动,即使扰动是人眼难以察觉的,模型也将会将
比如数据扩充 [7]、单 / 多通道语音增强、特征变换,还有一 扰动后的图像错误分类,这种被错误分类的样本被称作对抗样
些有效的学习策略,比如教师 / 学生(Teacher/Student,T/ 本。对抗样本的存在,说明现有的模型对某些极小的扰动非常
S)学习 [8]、对抗训练 [9] 等。在本文中,我们主要集中在数 的敏感!在计算机视觉领域,对抗样本吸引的研究者的广泛兴
据扩充的方法,来提高 ASR 和 KWS 系统的鲁棒性。 趣。最近,对抗样本的研究也扩展到语音信号领域,[12] 提出
来一种对端到端语音识别模型的定向攻击方法:给定一段语音,
当训练数据和测试数据之间存在分布的不匹配时,声学模 产生一段人耳不可感知的扰动,扰动后的语音可以被识别成任
型的性能将会大打折扣。为了弥补这种不匹配的问题,数据扩 何目标文本。同样地,在 KWS 系统中,我们很自然地把误唤
充是一个非常有效而且被广泛采用的方法,数据扩充的目的是

84

智能系统

醒(False alarmed,FA) 或 误 拒 绝(False rejected,FR) (2)
的样本当成对抗样本!当系统遇到与关键字完全无关的样例
时,仍然会存在错误唤醒的现象,或者当输入明显是关键字时, 其中
系统会错误地拒绝。由于复杂的声学环境和许多其他不可预测
的原因,触发 FA 和 FR 的样例往往是不可重现的。正是因为 (3)
如此,这种不可重现的属性使得进一步提高 KWS 性能变得很
困难。 被称作为对抗扰动。对于一个已经被训练好的神经网
络,一般来说,普通的随机扰动将不会影响网络的输出,因此,
之前基于对抗样本改进模型鲁棒性的工作,主要是为了提 对抗样本产生的关键是对抗扰动的设计和生成,一旦可以生成
高模型对对抗样本的鲁棒性。而在我们本文的工作中,我们的 对抗扰动,对抗样本就可以作为训练数据来进行网络训练,从
目的是通过使用基于对抗样本地数据扩充来提高模型对于正常 而提高模型的的平滑性和鲁棒性。
的带噪声数据的鲁棒性,而不仅是针对对抗样本。在训练阶段, 2.2 对抗样本的生成
快速符号梯度法(Fast Gradient Sign Method,FGSM)[11]
被用来动态的生成对抗样本,与其他方法相比,FGSM 方法比 在本文中,我们使用快速符号梯度法(FGSM)来进行对
较高效。对于每一个 mini-batch 的训练数据,对抗样本生成 抗样本的生成。FGSM 利用当前的模型参数和训练数据,生成
之后,模型参数将会使用对抗样本进行更新。另外,在 ASR
任务中,我们还将提出的基于对抗样本的数据扩充方法和 T/S 公式(1)中的对抗扰动。给定模型参数 ,输入 x 和输出 y,
学习结合,发现两个方法带来的增益可以相互叠加。
模型在训练阶段使用训练数据来最小化损失函数 ,在
本文章节安排如下:第 2 章详细介绍 FGSM 生成对抗样
本的方法;第 3 章介绍对抗样本在声学模型训练中的应用;第 一般的分类任务中,损失函数一般采用交叉熵,也是本文中使
4 章将会给出实验设置以及实验结果;第 5 章对全文进行总结。 用的损失函数。当网络参数已经被优化,网络收敛之后,为了
在输入空间上寻找一个能够使网络损失函数增大的扰动方向,
即能够使网络对输入进行错误分类的方向,FGSM 提出使用下
面公式来进行扰动的计算:

(4)

2. 对抗样本 其中, 是一个极小的常量,注意到,FGSM 使用了一
个符号函数来获取的损失函数关于输入的梯度的符号,而并非
2.1 对抗样本定义 直接使用梯度的值,目的是为了满足扰动的最大范数约束,并
对抗样本的目的是成功地破坏一个已经被训练好的神经网 且容易控制扰动的幅度,从而满足公式(3)的约束。我们在
后面的实验中证明,一个小的便足够产生增强模型鲁棒性的对
络模型,即使一个非常好的模型,也特别容易遭受对抗样本的 抗样本。
攻击,即模型的预测十分容易被输入端的人为扰动干扰,即使
扰动是人耳无法察觉的。这种人为扰动,称为对抗扰动,而这 3. 使用对抗样本进行声学模型训练
种被对抗扰动干扰的样本,称为对抗样本。对抗样本的存在,
说明网络的输出关于输入存在不平滑的问题,即输入端的极小 与其他的基于数据仿真的数据扩充的方法不同,例如添加
变化可以造成输出端的一个巨大的跳跃。 噪声和混响的方法,基于对抗的样本的数据扩充方法是一种模
型和数据相关的方法,并且明确的将对抗样本和损失函数关联
一般来说,一个机器学习模型,比如神经网络,可以表示 起来,明确产生了能使损失函数的数值增大的样本,因此,这
种方法更为高效。一旦生成对抗样本,这些对抗样本将用来训
为一个参数化的函数 ,其中,x 是输入特征向量, 是 练网络,进而增强网络对干扰的鲁棒性。在本工作中,FGSM
方法用来为每一个 mini-batch 的训练数据动态地生成对抗样
模型的参数。给定一个输入样本 ,及其对应的标签 ,一 本。算法 1 给出了在声学模型训练过程中用到的流程。

个训练好的模型 将用来预测样本的标签。而对抗样本, 在声学模型训练中,输入特征 x 一般为 MFCC 特征,目
标 y 为绑定的隐马尔可夫模型的状态。在上述的算法 1,每一
可以通过下面的公式来构建:

(1)

并且有

85

智能系统

个 mini-batch 的训练数据中,我们采用 4 步操作,来进行模 以及噪声和信道失真测试集(D)。A 集合只包含 330 句主麦
型的训练:(1)使用原始的训练数据训练模型参数,然后将 克风录制的干净语音;B 集合包含 6 个 A 集合的带噪数据的副
模型参数固定,产生当前数据的对抗扰动 δ。因为 FGSM 使 本,总计 330*6=1980 句;C 集合只包含 330 句次麦克风录
用了符号函数,因此,对抗扰动每一维上的数值为 - 或者 制的干净语音;D 集合包含 6 个 C 集合的带噪数据的副本。
+ ;(2)使用生成的对抗扰动来生成对抗样本;(3)将 4.1.2 唤醒数据库
对抗样本和原始数据的目标进行组合,产生新的训练数据;(4)
使用新生成的训练数据进行模型训练,更新模型参数。在这里, 我们使用出门问问(Mobvoi)智能音箱 TicKasa Fox2
我们要强调的是,我们将对抗样本和原始的标签进行了组合, 收集的唤醒数据验证我们的方法。唤醒词由三个普通话音节组
因为在我们的实验里,扰动非常小,我们希望神经网络可以输 成 (“嗨小问”)。这一数据集涵盖了 523 个不同的说话者,包
出和原始的样本相同的预测类别。通过 FGSM 生成的对抗样本, 括 303 名儿童和 220 名成年人。此外,每个说话人的集合包
能够使模型损失函数明显上升,说明这些样本是当前模型的“盲 括正样例 ( 带唤醒词 ) 和负样例,每个说话人的集合包括在不
点”,模型无法成功覆盖这些区域,导致模型产生了不可预知 同的麦克风的距离和不同的信噪比下录制的数据,其中噪音来
的错误。 自典型的家庭环境。总共有 20K 正样例 ( 约 10 小时 ) 和 54K
负样例 ( 约 57 小时 ) 用作为训练数据。校验集包括 2.3K 正样
4. 实验 例 ( 约 1.1h) 和 5.5K 负样例 ( 约 6.2h),而测试集包括 2K 正
样例 ( 约 1h) 和 5.9K 的负样例 ( 约 6h)。
4.1 数据库和系统描述 4.1.3 系统描述
4.1.1 Aurora-4 数据库
语音识别工作中,我们采用了 CNN 作为声学模型,CNN
Aurora-4 数 据 库 是 一 个 基 于 华 尔 街 日 报(Wall Street 模型在多个工作中表现出来了对噪声较强的鲁棒性,在本文中,
Journal,WSJ)的噪声鲁棒的中词汇量的连续语音识别数据库, 我们采用了和 [15] 中一样的模型结构。对于 Aurora-4 的实验,
即以 WSJ0 数据库为基础通过加噪产生的。Aurora-4 中,两 40 维的 FBANK 特征,已经 11 帧的上下文信息被用来训练神
种麦克风被用来进行录音:主要麦克风和次要麦克风。次要麦 经网络。对于 CHiME-4 的实验,我们使用 Kaldi 的 fMLLR 特
克风中包含多种不同的型号,两种麦克风同时用来进行 7138 征作为网络训练的特征,所有的特征提取以及高斯混合模型声
句训练数据的录制。Aurora-4 的训练数据集合可分为两个: 学模型的训练,都是基于 Kaldi[13] 完成的,神经网络的训练
干净训练数据和多场景带噪声训练数据。干净训练数据全部使 已经对抗样本的实现,则是基于 Tensorflow[14]。在两个实
用主麦克风录制,不含有任何噪声。多场景训练数据也包括 验中,开发集合用来确定最优模型的参数,包括对抗样本的对
7138 句话,包含主麦克风和次麦克风录制的数据,同时也包 抗扰动权重,之后最优的模型直接应用于测试集合。
含干净的和带噪声的数据,因此,多场景训练数据覆盖了更多
的噪声和信道(麦克风)失真。Aurora-4 的测试集合也包含 在关键词检出工作中,我们遵循了 [5] 中使用的基于注意
4 种:干净测试集(A)、带噪测试集(B)、信道失真测试集(C) 力机制的端到端模型结构。编码器采用 1 层 GRU。由于与正
样例相比,负样例的持续时间较长,因此我们在训练中对正
样例进行了分割,分割的长度为 200 帧 ( 约 2s)。在测试过程
中,使用一个帧长 200 的窗口,帧移为每次 1 帧。如果一个
样例中至少有一帧移动后的得分大于预先设置的阈值,则触
发 KWS 系统。我们的实验是基于 TensorFlow 进行的,采用
ADAM 作为优化器。

4.2 实验结果
4.2.1 Aurora-4 语音识别实验

图 1 展示了 Aurora-4 数据库开发集合上词错误率(Word
Error Rate,WER)和对抗权重的关系。基于图 1 的结果,当

86

智能系统

图 1 Aurora-4 数据库开发集上的 WER(%)和对抗权重的关系 益是来自对抗样本而不是因为数据量的增加,我们将对抗扰动
换成了随机扰动,我们发现随机扰动只带来了很小的增益,从
=0.3 时,在开发集合上得到了最优的效果。因此,我们将 而证明了对抗样本的有效性。更多细节可以参考文章 [16]。
词模型使用测试集合进行测试。表 1 给出了在 Aurora-4 的 4 4.2.2 唤醒实验
个测试集合上的结果,其中,基线模型是使用多场景训练数据
进行训练的模型,对抗样本模型是使用算法 1 的流程进行训练 为了验证 FGSM 方法对模型产生的影响,我们在测试
的,从表 1 中我们可以看出,使用对抗样本之后,我们取得了 集 上 使 用 FGSM 生 成 了 相 反 的 样 例, 正 样 例 扰 动 ( 即 Pos-
平均 14.1% 的 WER 的相对下降,在 3 个具有失真的测试集上, FGSM) 表示扰动只添加到关键字部分。负样例扰动 ( 即 Neg-
对抗样本模型都取得了提升,特别是在集合 D 上,我们提出 FGSM) 则将扰动直接被添加到整个样例。当我们测试得到的
的方法获得了 18.6% 的 WER 的相对提升。在干净测试集合 A 结果是 KWS 模型面对对抗样本时,FRR 急剧增加。如图 3,
上虽然识别效果变差,主要原因是训练数据中引入了过多的带 我们分析了的注意力层的权重在添加对抗扰动之前和之后的变
噪数据,这个问题可以通过添加更多的干净数据来弥补。 化。可以看出,模型的权重发生了较大的偏移,即注意力机制
被破坏,模型所“注意”的关键词位置错误,从而导致很容易
此外,本文提出的数据扩充的方法,可以与其它的学习和 输出错误的结果。
训练策略进行结合,为了验证这一点,我们将其与 T/S 学习进
行结合,实验结果证明,两中策略所带来的收益是可以叠加的。 这一观察结果表明,目前的模型是对对抗性扰动的样例非
Aurora-4 数据库里包含成对的干净和带噪语音,因此,我们 常敏感的问题确实存在。为了提高模型的鲁棒性,我们使用对
可以利用干净的模型训练 T 模型,带噪数据用来训练 S 模型, 抗性样本进一步扩展了训练数据。具体来说,我们使用对抗样
当 S 模型进行训练的时候,使用下面的损失函数进行训练: 例对模型进行了重新训练。在训练阶段,为每一步中的训练数
据生成对抗性样例(包括正样例和负样例)。然后这些样例被
(5) 用来再次训练一个已经训练良好的 KWS 模型。在具体实验中,
其中,0 < α < 1,CE 为交叉熵损失函数, 为 S 模型的参数, 我们也一样尝试了不同的训练策略,包括只使用正样例对抗样
xn 为带噪数据的特征,y 为原始的监督信息,yT 为教师模型的
输出的概率分布,它是通过将干净语音 xc 输入到 T 模型得到 基线模型 A B C D 平均
的概率分布: 对抗样本 3.21 6.08 6.41 18.11 11.05
WER 相对降低 3.51 5.84 5.79 14.75 9.49
其中, 为 T 模型训练好的参数。表 2 给出了我们使用 T/S -9.4 3.9 9.7 18.6 14.1
学习和对抗样本结合的实验结果。从表 2 中可以看出,使用
T/S 学习可以明显降低 WER,将 T/S 学习和对抗样本结合之后, 表 1 Aurora-4 测试集合上基线模型和使用对抗样本模型的
我们可以获得 8.50% 的最好的识别结果,同时,为了证明增 WER(%)的对比

基线模型 A B C D 平均
T/S () 3.21 6.08 6.41 18.11 11.05
T/S + 随机扰动 2.86 5.49 5.25 15.80 9.70
T/S + 对抗样本 3.62 5.69 5.60 14.89 9.48
3.08 5.42 4.89 13.09 8.50

表 2 Aurora-4 测试集合上对抗样本和 T/S 结合的实验结果

Type Origin Random Neg- Pos- All-FGSM
FGSM FGSM
FRR(%) 7.67 6.59 5.77 4.17 5.41
Gain(%) 0 14.1 29.5
24.8 45.6

表 4 一小时误唤醒一次时的误拒绝率

87

智能系统

图 3(1) 正样例注意力权重层 图 3(2) 负样例注意力权重层

本、只使用负样例对抗样本和使用正负样例对抗样本,作为对 5. 结论
照我们还设置了随机扰动样本。
本文提出了一种基于对抗样本的数据扩充方法,并将其
图 4 为各种方法的 ROC 曲线结果,这里超参数。Pos- 应用在鲁棒 ASR 和 KWS 任务中。在模型训练过程种,FGSM
FGSM 和 Neg-FGSM 分别表示使用正负对抗样例扩充,而 方法被用来进行对抗样本的动态产生。在 Aurora-4 鲁棒语音
ALL-FGSM 表示正负样例都扩充。Random 表示对所有训练 识别任务上,我们的提出的方法可以获得 14.1% 的 WER 的相
数据加上随机符号扰动,而非使用对抗扰动。表 4 表示测试 对降低。同时,实验结果表明,将本文和其它学习方式结合,
集中 FAR 为 1.0 时的 FRR 的大小。从中我们看到基于 Pos- 例如 T/S 学习,可以获得更进一步的提高,在 Aurora-4 任务
FGSM 和 Neg-FGSM 的对抗样例数据扩充能显著降低 FRR, 上,通过和 T/S 结合,我们获得了 23% 的 WER 相对下降。
降低比例分别为 45.6% 和 24.8%。作为比较,随机的扰动扩 在 KWS 任务中,我们针对 KWS 任务,进行了不同方式数据
充样例也能稍微提高模型性能。综上所述,使用对抗样例扩充 扩充,所提出的数据扩充方法同样可以有效降低基于注意力机
训练数据是提高模型鲁棒性的有效方法。更多细节可参考文章 制的 KWS 模型的 FAR 和 FRR。
[17]。
参考文献
图 4 不同训练策略的 ROC 曲线 [1].Dahl, G.E., Yu, D., Deng, L. and Acero, A., 2012.

Context-dependent pre-trained deep neural networks for
large-vocabulary speech recognition. IEEE Transactions on
audio, speech, and language processing, 20(1), pp.30-42.

[2].Hinton, G., Deng, L., Yu, D., Dahl, G., Mohamed, A.R.,
Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Kingsbury,
B. and Sainath, T., 2012. Deep neural networks for acoustic
modeling in speech recognition. IEEE Signal processing
magazine, 29.

[3].Chen, G., Parada, C. and Sainath, T.N., 2015, April.
Query-by-example keyword spotting using long short-term
memory networks. In 2015 IEEE International Conference on

88

智能系统

Acoustics, Speech and Signal Processing (ICASSP) (pp. 5236- Y., Schwarz, P. and Silovsky, J., 2011. The Kaldi speech
5240). IEEE. recognition toolkit (No. CONF). IEEE Signal Processing
Society.
[4].Chen, G., Parada, C. and Heigold, G., 2014, May.
Small-footprint keyword spotting using deep neural [14].Abadi, M., Barham, P., Chen, J., Chen, Z., Davis,
networks. In 2014 IEEE International Conference on A., Dean, J., Devin, M., Ghemawat, S., Irving, G., Isard, M.
Acoustics, Speech and Signal Processing (ICASSP) (pp. 4087- and Kudlur, M., 2016. Tensorflow: A system for large-
4091). IEEE. scale machine learning. In 12th {USENIX} Symposium on
Operating Systems Design and Implementation ({OSDI} 16)
[5].Shan, C., Zhang, J., Wang, Y. and Xie, L., 2018. (pp. 265-283).
Attention-based End-to-End Models for Small-Footprint
Keyword Spotting. Proc. Interspeech 2018, pp.2037-2041. [15].Rennie, S.J., Goel, V. and Thomas, S., 2014,
December. Deep order statistic networks. In 2014 IEEE
[6].Kinoshita, K., Delcroix, M., Yoshioka, T., Nakatani, T., Spoken Language Technology Workshop (SLT) (pp. 124-
Sehr, A., Kellermann, W. and Maas, R., 2013, October. The 128). IEEE.
REVERB challenge: A common evaluation framework for
dereverberation and recognition of reverberant speech. In [16].Sun, S., Yeh, C.F., Ostendorf, M., Hwang, M.Y.
2013 IEEE Workshop on Applications of Signal Processing to and Xie, L., 2018. Training Augmentation with Adversarial
Audio and Acoustics (pp. 1-4). IEEE. Examples for Robust Speech Recognition. Proc. Interspeech
2018, pp.2404-2408.
[7]. Ko, T., Peddinti, V., Povey, D. and Khudanpur, S.,
2015. Audio augmentation for speech recognition. In [17].Wang, X., Sun, S., Shan, C., Hou, J., Xie, L., Li, S., &
Sixteenth Annual Conference of the International Speech Lei, X. (2019, April). Adversarial Examples for Improving End-
Communication Association. to-end Attention-based Small-footprint Keyword Spotting.
In ICASSP 2019-2019 IEEE International Conference on
[8].Li, J., Seltzer, M.L., Wang, X., Zhao, R. and Gong, Y., Acoustics, Speech and Signal Processing (ICASSP) (pp. 6366-
2017. Large-Scale Domain Adaptation via Teacher-Student 6370). IEEE.
Learning. Proc. Interspeech 2017, pp.2386-2390.

[9].Sun, S., Zhang, B., Xie, L. and Zhang, Y., 2017. An
unsupervised deep domain adaptation approach for robust
speech recognition. Neurocomputing, 257, pp.79-87.

[10].Szegedy, C., Zaremba, W., Sutskever, I.,
Bruna, J., Erhan, D., Goodfellow, I. and Fergus, R., 2013.
Intriguing properties of neural networks. arXiv preprint
arXiv:1312.6199.

[11].Goodfellow, I.J., Shlens, J. and Szegedy, C., 2014.
Explaining and harnessing adversarial examples. arXiv
preprint arXiv:1412.6572.

[12].Carlini, N. and Wagner, D., 2018, May. Audio
adversarial examples: Targeted attacks on speech-to-text. In
2018 IEEE Security and Privacy Workshops (SPW) (pp. 1-7).
IEEE.

[13].Povey, D., Ghoshal, A., Boulianne, G., Burget, L.,
Glembek, O., Goel, N., Hannemann, M., Motlicek, P., Qian,











点击阅读翻页书版本