机器人与智能系统 第三期

发布时间:2017-8-28 | 杂志分类:其他
免费制作
更多内容

机器人与智能系统 第三期

16机器人教育与培训面向应用研发培养专业机器人技术人才——“工业机器人工程师职业岗位能力教育培训”项目正式启动立“中国智造”之魂,创“工业梦想”之路。中国制造 2025 已经走在奋进的路上。一条条智能生产线的建立,上百个发明技术的成熟应用,先进的国际化合作理念,领先的创新创业社会实践,这是中国科学院深圳先进技术研究院与时代同步创科技前行的稳健脚步。组编 \/ 编辑部 2017 年将是一个辉煌之年,由中国人力资源社会保 “工业机器人工程师职业岗位能力教育培训”项目筹备会障部劳动科学研究所设立,联合先进院研发的面向智能领 工业机器人教育专家工作小组成立仪式域的“工业机器人工程师职业岗位能力教育培训”项目正式启动。项目简介 工业机器人工程师职业岗位能力教育培训项目由中国人力资源和社会保障部劳动科学研究所根据工业发展与机器人应用趋势对技能人才的需求研发的水平评价类职业资格、专业能力和岗位能力测评技术的培养工程体系,为各工业企业、院校、社会培训机构等开展培训提供支持。 项目致力于解决工业机器人应用研发、产业孵化的“最后一... [收起]
[展开]
机器人与智能系统 第三期
粉丝: {{bookData.followerCount}}
文本内容
第2页

16

机器人教育与培训

面向应用研发

培养专业机器人技术人才

——“工业机器人工程师职业岗位能力教育培训”项目正式启动

立“中国智造”之魂,创“工业梦想”之路。中国制造 2025 已经走在奋进的路上。一条条智能生产线的建立,

上百个发明技术的成熟应用,先进的国际化合作理念,领先的创新创业社会实践,这是中国科学院深圳

先进技术研究院与时代同步创科技前行的稳健脚步。

组编 \/ 编辑部

2017 年将是一个辉煌之年,由中国人力资源社会保 “工业机器人工程师职业岗位能力教育培训”项目筹备会

障部劳动科学研究所设立,联合先进院研发的面向智能领 工业机器人教育专家工作小组成立仪式

域的“工业机器人工程师职业岗位能力教育培训”项目正

式启动。

项目简介

工业机器人工程师职业岗位能力教育培训项目由中国

人力资源和社会保障部劳动科学研究所根据工业发展与机

器人应用趋势对技能人才的需求研发的水平评价类职业资

格、专业能力和岗位能力测评技术的培养工程体系,为各

工业企业、院校、社会培训机构等开展培训提供支持。

项目致力于解决工业机器人应用研发、产业孵化的“最

后一公里”和人员培训等关键点。项目针对广大二三本、

高职院校、技术类院校及行业在职人员提供机器人应用工

程师、技术支持工程师、研发工程师、工艺设计工程师、

电气工程师、机械设计工程师等岗位的职业岗位工程师培

养服务。项目在专家委员会的指导下,制定全面且完整的

规划,并分期分阶段完成标准化研发,并推向市场面向执

业者和在校学生展开培训。

项目基于中国人力资源和社会保障部劳动科学研究所

和中国科学院深圳先进技术研究院各自的优势和权威性,

基于打造高素质的工业机器人行业专业技术人才队伍,满

足社会科技发展对智能工业专业人才的需求,经过立项研

究论证,由人力资源和社会保障部劳动科学研究所与中科

第3页

17

机器人教育与培训

考试岗位名称 培养目标 项目优势

应用工程师 本岗位是在工业机器人应用领域进行实操应用工作,包 借助科学技术手段,以电子考试形式和实操鉴定模式

括工业机器人技术维护、故障排除、操作业务流程编程, 鉴定工业机器人职业岗位专业人才的专业水平,促进人才

系统维护;参与工业机器人应用编程构思和架构设计; 教育培养工作的专业化、标准化和国际化。

撰写相关的技术文档;支持售前技术服务;支持项目对

产品的应用服务。 引导中国高等院校优化教育实训环节和社会、企业联

合培养模式,在现有的教育基础设施上建设高效实用的教

技术支持 掌握工业机器人系统软硬件的基础知识及技能,接从事 育实训技术平台,培养适合产业需要的人才。

工程师 售前或售后技术维护、应用培训、升级管理、解决投诉

等工作,以提升客户满意度和品牌口碑。需要注意的是, 以服务为核心理念,为工业机器人应用、研发企业和

一个专业的技术工程师至少需要在企业工作 3 年以上, 院校毕业生提供增值的人力资源服务。降低应用、研发企

以便对公司的产品线和用户群体有全面了解 业的招聘人员的成本,提高院校毕业生在对口专业岗位的

就业率,促进工业机器人产业人才库的建设工作。

维护工程师 掌握机器人系统的软硬件的基础知识和综合应用的知识

和技能,具备设备正常运行、监控等保障能力;能够对 考试岗位规划

设备技术参数和整体设计的评审,能够对设备的评估及

选型;能够依照保养计划执行设备预防性维修工作,解 工业机器人工程师职业岗位规划体系是由专家委员会

决设备的异常问题以减少设备停机。 成员基于对工业机器人生产、研发及应用领域和相关岗位

专业能力深刻认识和定义之后制定的。

工艺设计 掌握机器人系统的软硬件的基础知识和综合应用的知识

工程师 和技能,接受从事工艺设计的基本训练,能够制定新产 题库建设

品工艺策划方案,为产品制定工艺要求和制定工艺设计

研发工程师 方案,指导结构设计;能够对行业先进工艺技术相关高 题库由与各个考试岗位配套的海量考试题目组成的。

端设备的选型和引进;能够进行工艺技术攻关和技术改 对题库的管理采用了软件技术手段,实现了针对每次具体

进工作,解决关键工艺难点,不断提高工艺技术水平, 的考试要求自动组卷的功能。题库中的考试题目分为两大

保证新产品在生产导入阶段的工艺质量。 类型,每个考生都需要进行理论和实操题目的考试。

掌握工业机器人系统软硬件的系统设计、研究、开发和 客观题:是对考试对象理论知识水平进行全面考核的

综合应用的知识和技能,接受从事研究和开发的基本训 题目。

练,具备机器人开发的分析、设计、测试和维护的能力。

使学员能够根据公司的总体规划和生产需要,挑选可行 实操鉴定题:最大限度地模拟真实操作场景与步骤,

性较高的新产品进行综合性的开发和制造,并在这个过 考核考试对象的实际操作能力和实务水平。

程中不断地改善工艺和制作方法,待产品成熟后移交市

场部,向市场部提交产品的加工能力及价格等相关信息。 项目意义

研发工程师要具备强烈的好奇心、完善的知识体系和清

醒的市场意识,喜欢钻研并能开发出符合市场需求的产 工业机器人工程师职业岗位能力教育培训项目以机器

品,帮企业赚钱,是一个优秀的研发工程师必备的条件。 人专业人才和技术为核心,强化校企合作,引入实务和嵌

入式课程,以应用技术培训为主线,以系统应用、系统集

院深圳先进院合作,联合开发《工业机器人工程师职业岗 成为切入点,以双创(创新、创业)自主体系平台建设为

位能力》教育考试标准,成立了专家委员会和项目办公室, 载体、以岗位实训、产业化结合等学科教育创新模式,推

在专家委员会的指导下开发《工业机器人工程师职业岗位 行“出口即入口”教育模式,即为从人才培养的最终就业

能力》培训考核大纲和培训教材,并建立相关人才数据系统。 目标倒过来设计课程内容,解决学生就业问题。

培训考核大纲的制定和教材的编写吸收和借鉴了国家职业

标准制定及教材编写方面的经验,结合产业和行业的特点, 由于工业机器人人才培养尚处于初期阶段,从课程内

为培训考核工作奠定良好的技术基础,使培训更加规范、 容设置到人才培养过程还不是很成熟,具有人才培养定位

科学,确保培训质量和水平。参加本项岗位能力培训后, 不清晰、专业课程设置不合理、教学资源不完善、师资建

考核测评合格者颁发《工业机器人工程师职业岗位能力》

培训证书,对考核通过的学员相关信息给予备案,并录入

国家人才数据系统库。

第4页

18

机器人教育与培训

设亟待加强、工学结合流于形式、实训体系建设不完善等 方海涛 中国科学院深圳先进技术研究院 博士

等问题。 刘建朝 中源智人科技(深圳)股份有限公司 本科

刘勇 东莞固高自动化技术有限公司 运营总监

项目通过一系列的基于工业机器人应用的系统设计实 李杰 深圳市科迪文化传播有限公司 总经理

例,学习工业机器人应用技术专业领域的新理论、新技术 周玲 深圳市科迪文化传播有限公司 副总经理

和关键技能,通过实行完善的课程体系建设、教育资源库 祖基能 广州普华灵动机器人技术有限公司 总经理

建设、师资队伍建设、实训体系建设、产业化结合、创新 朱国云 深圳第二高级技工学校 高级讲师

创业产业资源导入等方式,令学员循序渐进掌握工业机器 谭源 深圳市时纬自动化有限公司 总经理

人应用技术的开发流程、应用技术、维护技能等,加速培 谭维佳 深圳市泰达机器人有限公司 博士

养更多的机器人应用技术专业人才,满足机器人产业的发 邵勇锋 深圳橙子自动化有限公司\t总经理

展,使机器人应用专业技术人员在机器人产业生产、应用 余茂松 深圳创科自动化控制技术有限公司\t 总经理

开发和服务等工作中能够更高效解决问题,并进一步促进 张月亮 深圳市海峰机器人应用技术有限公司\t技术经理

应用技术创新。 李俊 湖南科力尔电机股份有限公司 董事长助理

余任冲 广州蓝圣智能科技有限公司 技术总监

专家委员会成员 廖礼宁 深圳市利奥智造有限公司 总经理

杜政志 深圳市鹏城智能制造产业发展有限公司 总经理

参与制定标准、决策咨询及评审的专家 张光朱 深圳市世椿智能装备股份有限公司 技术总监

罗兆托 深圳市松明实业有限公司 联合创始人、教育总监

徐艳 人力资源社会保障部劳动科学研究所研究员 主任 沈晓龙 深圳市同川科技有限公司\t总经理

时曦 易视智瞳科技 ( 深圳 ) 有限公司 CTO

杨进 教育部职业技术教育中心研究所所长、研究员 于宪明 中证启秀科教(深圳)有限公司 总经理

何凯 中国科学院深圳先进技术研究院研究员、中心执行主任 黄少伟 广州云能信息技术有限公司 CEO

毕亚雷 中国科学院深圳先进技术研究院院长助理产业发展与资源处处长 霍览宇 湖南机电职业技术学院电气工程学院\t分院教学副院长

叶之红 中国高等教育学会副秘书长 罗建辉 湖南机电职业技术学院 专任教师

张星晨 北京交通大学副校长 梅凯 湖南机电职业技术学院 教师

贾彦 深圳市机器人协会副秘书长 伍东亮 湖南机电职业技术学院 教研室主任

彭书华 北京信息科技大学自动化学院副教授 研究生院副院长 付强 北京信息职业技术学院 讲师

薛静萍 中科创客学院院长 李邓化 北京信息科技大学 首席专家

焦杨 中科启秀智慧教育科技服务有限公司董事长 赵建伟 中国矿业大学(北京) 矿山机器人研究中心主任

畅志军 莱恩精机(深圳)有限公司董事长 耿惊涛 河北化工医药职业技术学院 机电一体化专业教 研室主

黄道权 中源智人科技(深圳)股份有限公司董事长 侯毅 贵州航天职业技术学院 副主任

王卫军 深圳市中科德睿智能科技有限公司总经理 刘朝阳 渭南职业技术学院 高级工程师

盛凯 合肥职业技术学院 硕士

参与行业研究及专业模块建设的专家 谭立新 湖南信息职业技术学院 电子工程学院院长

王爽 天津职业技术师范大学 博士

瞿振元 中国高等教育学会会长 卫勇 天津农学院工程技术学院 副教授

邵祥林 中国外商投资企业协会常务副会长 姚博 运城职业技术学院 系主任

赵越 中国劳动学会副秘书长 张国才 山西经贸职业学院 网络技术教研室主任

彭明京 中国汽车工业人才交流中心董事长    

于庆义 中国劳动学会机械分会秘书长 项目负责单位

王国文 中国物流学会副会长 \/ 综合开发研究院供应链研究所所长

张赤军 外专局国际人才交流中心职教处主任 中国人力资源和社会保障部劳动科学研究所

沈廷博 青岛市工程师协会法人 \/ 秘书长 中国科学院深圳先进技术研究院

深圳市机器人协会

启秀教育科技集团

中科创客学院

授予聘书的行业、专业领域、教育与培训机构专家(排名不分先后)

宋展 中科创客学院首席专家

武瑞 清华启迪智能研究院首席专家

佘元博 爱啃萝卜机器人技术(深圳)有限责任公司 创始人

吴新宇 中国科学院深圳先进技术研究院 博士

第5页

19

产业研究

深圳市机器人

产业发展白皮书

在《中国制造 2025》、《机器人产业发展规划(2016 - 2020)》等国家产业政策的助推下,助推

机器人产业向高端迈进,深圳市领先布局全产业链、优化产业结构,本土企业崛起,迎来产业发展高

速上升期。在“2017 深圳国际机器人与智能系统院士论坛 \" 上,由深圳市经济贸易和信息化委员会、

深圳市机器人协会、中国科学院深圳先进技术研究院共同发布了《2016 年深圳机器人产业发展白皮书》

(以下简称白皮书)。白皮书分析了全球工业机器人和服务机器人发展近况和区域分布特点,并对国

内机器人行业产品流向、销售结构、应用行业分布特征等方面进行了深层次梳理,体现出深圳机器人

产业在国内机器人领域的行业重要地位,详细阐述了深圳机器人产业发展环境和市场现状,多角度分

析了深圳机器人标杆企业的经营动向,就深圳机器人发展前景、趋势、创新路径给出建设性意见。

文 \/ 深圳市经济贸易和信息化委员会、深圳市机器人协会、中国科学院深圳先进技术研究院

白皮书课题组通过问卷调研、展会、行业研讨会、电 型企业大部分处于初创阶段,甚至部分企业还没有在市场

话调研及实地走访的方式,调研企业 1154 家,有效反馈 上推出自己的产品,企业规模均较小;第二类企业是通过

企业 1084 家,重点追踪企业 484 家。样本企业主要包括 业务拓展涉足机器人及核心零部件领域的大型企业,这种

专业机器人企业、机器人关键零部件企业和典型机器人应 类型的企业大多是机器人产业链上下游的企业;第三类是

用企业。2016 年数据不包括截至 2016 年底没有产生销售 国外品牌的代理商,特别是工业机器人领域,现阶段仍是

收入的新成立的企业。 这部分国外品牌垄断深圳机器人市场,不过本土企业 2016

年发展较快,有逐渐收复市场的趋势。由于深圳市机器人

深圳市机器人市场结构特征 行业整体仍以初创企业为主,因此注册资本普遍在 1000

万元以下,注册资本超过亿元的企业占比仅 5%(图 1)。

结合深圳市机器人市场现状来看,深圳市机器人行业

的快速发展只有近五年的时间,市场整体还处于起步发展 根据工信部企业规模划分标准,2016 年深圳市工业

阶段,每年有大量的新进入者加入,市场格局仍处于急剧 机器人行业企业营收规模以中型企业为主,年收入大多在

变化阶段,并没有形成稳定的格局。从市场集中度来看, 4 亿元以下,中型企业占比合计接近 44%;大型企业即年

龙头企业市场份额较小,中型规模企业市场份额占据了较 收入超过 4 亿元的企业占比为 7%;其他小微型企业合计

大的份额,市场整体处于垄断竞争阶段。 占比 49%,年收入均在 2000 万元以下(图 2)。行业上

市公司数量达到 20 家,较上年增加 4 家。

深圳市机器人企业结构特征

深圳市机器人产业产值规模

深圳市机器人企业主要有三种类型:第一类是专业的

机器人生产企业,包括机器人关键零部件生产企业,该类 深圳市是全国机器人行业最重要的市场,产值规模在

第6页

20

产业研究

图 1 深圳市机器人企业注册资本结构(单位:%) 图 2 深圳市机器人营收规模结构(单位:%)

全国城市中位居前列。2016 年,全市机器人行业产值规模 从深圳市工业机器人产值规模来看,近几年随着深圳

达到 787 亿元,同比增长 24.92%(图 3)。 市政府的重视以及越来越多的企业投入工业机器人领域,

行业的产值规模也不断增加。2016 年,深圳市工业机器人

深圳市机器人产业增加值规模 实现产值 564 亿元;工业机器人工业增加值 206 亿元(图

7)。

随着全市机器人行业的快速发展,全市机器人行业工

业增加值规模也快速增长。2016 年,全市机器人行业实 深圳市工业机器人的产业链特征

现工业增加值 288 亿元,较上年增加 61 亿元,增幅达到

26.87%(图 4)。 工业机器人主产业链可以细分为上游核心零部件、中

游本体以及下游系统集成三大部分,从产业链的上游往下

深圳市机器人企业数量规模 游延伸,行业涉及和覆盖范围越来越广,参与者越来越多,

市场规模也会发生量级变化。

从深圳市机器人企业数量规模来看,2016 年深圳市

机器人行业企业数量规模仍在稳步增加,主营业务为机器 深圳市是全国工业机器人产业链最为完整的城市,在

人或从事机器人核心零部件的企业 469 家(不包括机器人 产业链各环节均具有较强的竞争实力。工业机器人产业链

应用企业和没产生经营收入的企业),如图 5 所示。 由零部件企业、本体企业、代理商、系统集成商、最终用

户构成。通常,本体企业设计本体、编写软件,采购通过

深圳市工业机器人企业规模分析 代理商销售给系统集成商,系统集成商直接面向终端客户。

有的本体企业和代理商也会兼做系统集成商。本体是机器

2016 年,深圳市机器人企业数量 469 家,其中工业 人产业链的核心。

机器人企业数量达到 330 家,占深圳市机器人数量比重的

70.36%(图 6)。从企业规模大小来看,深圳市工业机器 目前,深圳市的机器人企业多为系统集成商。根据国

人仍以中小型企业为主。 际经验来看,国内的机器人产业发展更接近于美国模式,

即以系统集成商为主,单元产品外购或贴牌,为客户提供

深圳市工业机器人产值规模分析 交钥匙工程,深圳市也是如此。与单元产品的供应商相比,

系统集成商还要具有产品设计能力、项目经验,并在对用

第7页

21

产业研究

图 3 2014-2016 年深圳市机器人产值规模(单位:亿元) 户行业深刻理解的基础之上,提供可适应各种不同应用领

图 4 2014-2016 年深圳市机器人装机工业增加值规模(单位:亿元) 域的标准化、个性化成套装备。

图 5 2014-2016 年深圳市机器人企业数量规模(单位:家) 从产业链角度看,位于工业机器人产业链上的企业依

图 6 2014-2016 年深圳市工业机器人企业数量规模(单位:家) 次是机器人单元产品制造商、机器人系统集成商和工业自

动化集成商。现在,欧美、日本等一些国际工业机器人公司,

在中国不直接提供机器人自动化系统的集成服务,而是将

机器人单体销售给系统集成商,由系统集成商再对终端用

户。工业机器人的大规模普及将为国内相关系统集成商带

来发展机遇。

从产业链各环节企业实力来看,在深圳工业机器人领

域,动力系统、控制系统以及人机界面等技术全国领先,

部分达到世界先进水平,如富士康的本体、雷柏的系统集成、

汇川的伺服器、固高的控制器等。

深圳市工业机器人市场竞争现状

从深圳市工业机器人市场竞争来看,深圳市工业机器

人产业已经在国内外机器人市场占有重要的地位,虽然目

前市场整体份额仍被国外品牌所占据,但本地企业在核心

技术上不断取得突破,市场竞争力也不断提升,整体市场

份额也在不断增加,如大族激光、佳士、汇川科技等市场

份额均在上升。目前,深圳市工业机器人企业在众多细分

领域市场份额均占据全国领先地位,例如焊接机器人、3C

机器人等领域。

深圳市服务机器人企业规模分析

近两年,深圳市服务机器人企业数量快速增加,2015

年数量达到 138 家,较上年增长超过 3 倍,企业数量占机

器人企业数量比重近 30%。2016 年,深圳市服务机器人

企业数量 139 家,占全市机器人企业数量比重的 29.64%(图

9)。随着深圳市服务机器人市场的快速增长,预计未来几

年,全市服务机器人企业数量占比仍会增加。(调研样本

企业不断优化,2016 年统计数据不包括截止 2016 年底没

有产生销售收入的新成立企业)

深圳市服务机器人产值规模分析

从深圳市服务机器人产值规模来看,深圳市服务机器

人产值规模从 2015 年的 90 亿元,增加到 2016 年的 223

亿元,在企业数量规模仅增加 1 家的情况下,产值规模增

幅达到 147.78%,显示单个企业产值规模有明显的增加,

第8页

22

产业研究

图 7 2014-2016 年深圳市工业机器人产值规模(单位:亿元) 实力也在不断增强。从工业增加值来看,2016 年,全市

图 8 深圳市机器人产业链 服务机器人工业增加值 82 亿元,同比增长 121.62%(图

10)。

图 9 2014-2016 年深圳市服务机器人企业数量规模(单位:家)

深圳市服务机器人未来发展机会

2016 年 3 月,由工信部,国家发改委,财政部联合

发布的《机器人产业发展规划(2016-2020 年)》为服务

机器人发展之名了发展方向。围绕助老助残、家庭服务、

医疗康复、救援救灾、能源安全、公共安全、重大科学研

究等领域,培育智慧生活、现代服务、特殊作业等方面的

需求,重点发展消防救援机器人、手术机器人、智能型公

共服务机器人、智能护理机器人等四种标志性产品,推进

专业服务机器人实现系列化,个人 \/ 家庭服务机器人实现

商品化。政策的出台将有力的刺激深圳市服务机器人的发

展,2016 年深圳市服务机器人企业数量激增,不少手机制

造企业开始转型研制技术相通的服务机器人,因看好这个

巨大的市场空间和大力度的政策支持,不少其他行业的企

业也开始纷纷涉足,深圳市未来服务机器人市场竞争必将

加剧。

但深圳市服务机器人产业还需要时间来完善其产业链

上相关的软硬件等基础设施与服务,其中就包括传感器、

语音和视觉、机器人大脑、机器人芯片、操作系统等。服

务机器人对集成和整合能力有很高的要求,但随着软件、

网络环境、大数据、智能传感等配套产业的发展和融合,

集成变得相对容易,并诞生出好的应用与服务,也大大降

低了服务机器人的市场化成本,并迎来普及。因此深圳市

服务机器人产业可以从“基础设施”和“应用产品”两方

面来把握发展机会。

结合目前深圳市服务机器人的发展现状,未来深圳市

服务机器人产业将会呈现出产业化、微型化、个性化的发

展趋势。

以上仅列举报告中的冰山一角,更海量更详细的数据,

请关注深圳市机器人协会公众号“SRA2009”回复白皮书,

即可索取完整报告。

图 10 2014-2016 年深圳市服务机器人产值规模(单位:亿元)

第9页

23

热点资讯

国内 智能仓储机器人及智能物流产业联

盟成立

前 5 月工业机器人产量增长 50.4%

6 月,由工业和信息化部计算机与微电子发展研究中心

据国家统计局公布的数据显示,5 月份中国工业机器人产量为 10057 (中国软件评测中心)(以下简称“中国评测”)主办,

(台 \/ 套),实现了 47% 的高速增长,这并不是一个单月的现象:近 北京大学、清华大学、北京航空航天大学等科研机构专家,

年来机器人产业都保持着较高的增速,今年前五月,工业机器人产量增 德国莱茵 TÜV 集团、哈工大机器人集团等行业专家,以

长 50.4%。 及 4 家国内知名物流企业和 15 家机器人相关单位共同

往前看,近 7 年来中国的工业机器人市场一直在以极高的速度扩张。根 参与的“仓储机器人及智能物流产业联盟成立大会”在

据国际机器人联合会(IFR)近日发布的报告,2016 年中国工业机器人 北京市海淀区赛迪大厦顺利召开。

销量 9 万台,同比增长 31%,远高于 14% 的世界平均增速。 联盟定位为行业性、非赢利性社会组织,在业务上接受

从 2010 年到 2016 年,中国工业机器人市场增长了 5 倍多,从 2013 工业和信息化部的指导与监督管理,内部实行民主管理

年以后,中国已连续四年成为全球最大的工业机器人市场,其占全球市 机制。联盟成立后将围绕引领国产仓储机器人及智能物

场的份额从 2013 年的 1\/5,到 2014 年达到 1\/4,去年则接近 1\/3。 流系统的研发、应用及质量提升,整合国内资源,促进

整个行业内部以及行业与用户之间在政策、技术、市场、

2017 智能制造综合标准化与新模式应用拟立项 标准、应用等多方面交流对话与协作。

项目公示

机器人挑战高考数学告败,AI 进军

近日,工信部发布了“2017 年智能制造综合标准化与新模式应用拟立 教育领域

项项目公示”,根据《工业和信息化部办公厅财政部办公厅关于发布

2017 年工业转型升级 ( 中国制造 2025) 资金工作指南的通知》,拟选 6 月 7 日,高考第一天第二场数学考试结束,场外,两

入 165 个项目进行公示。与“2016 年智能制造综合标准化与新模式应 名机器人“考生”的“应考”才刚刚开始。身处北京的

用项目的公示”相比,今年的项目增长了 21 个。 学霸君智能教育机器人 Adiam 和来自成都准星云学的高

在具体公示项目中,涉及到“智能制造新模式”的立项共 68 家,数字 考机器人 AI-MATHS 将分别完成不同体量的数学试题,

化工厂项目共 8 家,数字化车间建设项目共 36 家,智能工厂项目共 36 他们的竞争对手,一边是往届优秀的高考状元,另一边

家。此次项目内容包括离散型智能制造、流程型智能制造、网络协同制造、 是期望的 110 分。

大规模个性化定制、远程运维服务等五个方面。重点方向涉及到工业自 最终, Aidam 用时 10 分钟完成答题,获得 134 分,三

动化与机器人的包括新一代信息技术领域,其中提及工业的有工业互联 组高考状元分别得分 119 分、140 分和 146 分,平均分

网创新集成应用、工业网络及标示解析体系、工业控制系统及工控安全 135 分,从分数来看,学霸还是在高考中扳回一局;另

产品;高档数控机床和机器人领域,包括高档数控系统、数字化伺服系统、 一款准星高考机器人 AI-MATHS 北京卷用时 22 分钟完

机器人关键部件与系统等。 成北京文综数学考试,得分 105;全国二卷数学考试用

时 10 分钟,得分 100 分,离预期的 110 分也还存在着

差距。

第10页

24

热点资讯

无人驾驶即将爆发:激光雷达必不可少 国内

2017 年亚洲消费类电子产品展览会 (CESAsia2017) 上,厂商们在无人驾驶 亚洲首个全自动化码头建成,在

方面的布局有所增加,宝马公司以及英特尔公司也分别开展了试驾活动和 青岛港投入商业运营

无人机的展示。可以肯定的是,无人驾驶是汽车的未来,但众多传感器是

实现无人驾驶必不可少的,尤其是激光雷达,更是重中之重。 据介绍,该码头位于前湾港区四期 5-10 泊位,岸线

激光雷达(LiDAR)是无人驾驶汽车中最强大的传感器之一。它可以区分真 长 2088 米,纵深 784 米,前沿水深 -20 米,年通

实移动中的行人和人物海报、在三维立体的空间中建模、检测静态物体、 过能力 520 万 TEU,可停靠世界最大的 20000TEU

精确测距。它是通过发射激光束来探测目标位置、速度等特征量的雷达系统, 以上的集装箱船舶,首期 2 个泊位投入运营。

具有测量精度高、方向性好等优点,在军事领域以及民用的地理测绘等领 该码头由青岛港集团主导规划布局,融合物联网

域都有广泛的应用。由于激光雷达可以形成精度高达厘米级的 3D 环境地图, 等尖端信息技术,数十家合作方参与,从 2013

因此在 ADAS 及无人驾驶系统中具有重要作用。 年 10 月份码头正式立项,到 2017 年 5 月份投

入商业运营,仅用 3 年多时间完成了国外同类码

人机终极之战三连败 ! 阿尔法狗宣布退役 头 8-10 年的研发建设任务,建设成本仅为国外

同类码头的 75% 左右,开创了低成本、短周期、

日前乌镇举行了 AlphaGo 对阵柯洁的围棋比赛,这是继 2016 年 3 月韩国 高起点、全智能、高效率、更安全、零排放的“青

李世石与 AlphaGo 世纪大战之后又一引人关注的赛事。一年来 AlphaGo 岛模式”。首创机器人自动拆装集装箱扭锁,实

的下棋能力每天都在进步,而人类棋手在一个相对的时间段内几乎可算是 现生产全程自动化;首创轨道吊“一键锚定”系

止步不前,因此本次比赛 AlphaGo 不出意外以 3:0 完胜当前围棋世界排名 统,解决了大型机械防瞬间大风的全球性行业难

第一的柯洁,为这场人机大战画上完美句号。升级后的 AlphaGo 所向披靡, 题 , 为一批世界性技术难题提供了解决方案。

最终以 3:0 赢下了这次乌镇人机大战。与此同时,在最后一局比赛结束后

的发布会上,AlphaGo 之父、DeepMind 创始人戴密斯·哈萨比斯,宣布阿 2017 中国机器人 TOP10 峰会在

尔法狗将退役,不再参加围棋比赛。 广州召开

《中国制造 2025》顶层设计基本完成,深度推进 日前,2017 中国机器人 TOP10 峰会在广东省广

正当时 州市召开,中国机器人 TOP10 峰会成员企业、

工业和信息化部装备工业司、国家发展改革委产

日前,工业和信息化部副部长辛国斌、规划司司长罗文、装备工业司司长李 业协调司、国家标准委工业二部、国家认监委认

东出席国务院新闻办公室举办的国务院政策例行吹风会,介绍推进《中国制 证监管部、中国机器人产业联盟等单位代表参加

造 2025》深入实施、促进制造业转型升级有关情况并回答了记者的提问。 会议。峰会通过了“中国机器人 TOP10 峰会条例”,

据辛国斌介绍,《中国制造 2025》顶层设计目前基本完成,形成了以《中 将发挥行业重点企业作用,构建高层交流平台和

国制造 2025》为引领,11 个专项规划为骨干,重点领域技术路线图、工业“四 行业智库,营造良好生态环境,推动产业健康可

基”发展目录等绿皮书为补充,各地落实文件为支撑,横向联动、纵向贯通、 持续发展,打造具有国际影响力和竞争力的中国

各方面协同的政策体系。同时,工业基础能力稳步增强,一批核心基础零部件、 机器人品牌。峰会还达成了避免恶性竞争、开展

关键基础材料、先进基础工艺等“卡脖子”问题得到初步解决,产业技术基 标准建设、打造共性技术与关键部件平台、共同

础不断夯实。在智能制造水平提升和创新体系建设方面,建成一批智能化工 开展行业应用推广与国际交流合作等多项共识。

厂、数字化车间,成立了首家国家制造业创新中心——动力电池创新中心,

增材制造创新中心也已初具雏形,培育建立了 19 家省级创新中心。

第11页

25

热点资讯

国内 中国机器人谋求跨业融合迈向高端

工信部将制定餐饮机器人标准规范 日前在 2017 世

界机器人大会新

工信部将研究制定餐饮服务应用机器人相关标准规范和检测认证条 闻发布会上,工

件,规范行业秩序,保障产品质量。工信部还将会同有关部门搭建 业和信息化部装

对接平台,积极引导和推动国内餐饮企业和机器人企业对接合作; 备工业司副巡视

鼓励和支持机器人企业和餐饮企业共同研发和产业化专用餐饮服务 员曹钢如表示:

机器人产品,并选择条件成熟的区域开展示范应用。 “总体来看,我

国机器人特别是

机器视觉崛起,工业机器人产业培育成长沃土 工业机器人仍然

以及中低端为主,六轴及以上的多关节机器人占有率比较

随着我国制造业的快速发展,出现了一批具有一定实力的机器视觉 低。”他在谈到机器人产业的跨业融合时表示,机器人应

研发生产企业。同时,机器视觉应用范围逐步扩大,工业机器人 该是“5+1”的产业:第一是集成电路,集成电路好比人

成为产业进一步发展的热土。工业 4.0 时代,工厂的自动化设备通 的大脑存储,如果没有存储空间,机器人无法成为智能的

常只能应对精确位置,不像人工可以处理简单偏差。而机器视觉能 机器人;第二是传感器,相当于人的视觉、听觉和触觉功能,

缩短这一差距。根据公开资料,2016 年中国机器视觉市场总额达 机器人得通过传感产品来实现;第三是互联网,相当于人

到 38 亿元,近 5 年复合增长率达到 26.6%。纵观我国产业发展历程, 的网络神经,感知到的东西传递到大脑;第四是大数据产

中国机器视觉相关产业起步较晚,最初多用于电子及半导体行业, 业;最后是人工智能,未来的机器人是人工智能的机器人,

也有“国外机器视觉的崛起很大程度上是得益于其半导体行业发展” 人工智能产业要植入到机器人产业未来的发展中。

的说法。因为,半导体行业的诸如锡膏印刷机、贴片机、AOI 检测

这类的设备必须使用高性能机器视觉组件。 国内首台商用深海机器人电气传动控

制系统完工

近期,国内首台商用深海机器人电气传动控制系统在广东

工商职业技术学院顺利完工。据该系统的设计制造商肇庆

冠宇电气自动化设备有限公司总经理唐建军介绍,这套系

统在广东工商职业技术学院专家教授研发团队的技术支持

下,历经半年系统研发,技术设计,产品选型,生产制造,

终于在广东工商职业技术学院机电工程系实训基地诞生。

两天后,它将运往深圳德润青华水下机器人中心进行陆上

总装调试,未来 1 ~ 2 个月,将在我国南海海域开始海下

试验,然后投入商业运行。国内项目团队的通力合作,填

补了国内深海 ROV(遥控操作载体)水下机器人市场空白,

建立囯内深海 ROV 水下机器人电气传动系统的研发、生产、

制造供应链体系,推动国内深海 ROV 机器人的国产化发展,

服务于国家海洋工程,包括石油、天然气、可燃冰开采工

程的深海作业。

第12页

26

热点资讯

日本 2016 年工业机器人产量创造新高度 国际

日本机器人工业协会近日发布的数据显示,2016 年工业机器人的日本国内产值 韩国政府公布机器人技术升级路

( 会员企业和非会员企业合计 ) 同比增长 3.3%,达到 7033.87 亿日元。产量为 线图

17.4606 万台,同比增长 13.5%,同样刷新了最高记录。产值和产量均 3 年连

续正增长,持续保持高水平。日本国内方面,除了面向汽车产业的业绩保持坚 据韩联社报道,韩国政府公布开发机器人技术的

挺外,显示面板和半导体用机器人也趋于复苏。另外,税收优惠政策等也推高 路线图,将广泛应用于多个行业。据韩国贸易、

了整体形式。海外方面,面向美国的业务表现出色,面向中国和欧洲的业务也 工业和能源部统计,该计划是政府主导的一个项

实现复苏。2017 年的目标产值为 7500 亿日元,预计将达到 11 年来的最高水平。 目,目的是升级去年 11 月成立的国家机器人部门。

韩国科技研究中心 (KIST)、韩国机器人与融合研

工业机器人:发那科投资 630 亿新建机器人工厂 究所 (KIRC) 等国营研究中心参与绘制了过去 6 个

月的技术路线图。根据计划,相关技术已划分为

日本发那科公司宣布投资 630 亿 制造业、农业、医疗、安全和软件等八个核心部门,

日元在茨城县筑西市新建工业机 以便可以进行更有效的研究与开发。

器人工厂。据悉,新工厂投产后,

先期阶段一个月生产 2000 台机器 日本安川机器人 \"MOTOMAN-

人, 最 终 会 将 月 生 产 能 力 提 升 到 GP25\" 上市发售劳动能力提高

4000 台。新工厂由机器人工厂和 一倍

机器加工工厂 2 栋组成,总建筑

面积约 16 万平方米,明年 5 月完 据 日 本《SankeiBIZ》 报 道, 日 本 工 业 机

工,预计 2018 年 8 月正式投产。 器 人“ 专 业 大 户” 安 川 电 机 开 始 发 售 多 用 途 机

器 人“MOTOMAN-GP25”。 多 用 途 机 器 人

研发中的拆弹机器人:仿生学手臂让专家更安全 “MOTOMAN-GP25”搬运能力大幅提高,以往

机型最多能搬运 12 公斤,而“MOTOMAN-GP25”

一家总部位于大学卡耐基梅隆大学的机器人公司开发的仿生拆弹机器人名叫 最大能搬运 25 公斤,能力增加了约 1 倍,这也大

RE2。其最大的特点就是拥有两条非常灵活机械臂,可以通过一个特制的操 幅拓宽了“MOTOMAN-GP25”在搬运零部件和

作器来模仿操作人的手臂动作。操作人员可以在安全距离内远程操作机器人, 装配作业等工序上的“劳动能力”。此外,多用

也能通过代入感更强的 VR 来操作,另外该公司认为 RE2(凭借着两条灵活 途机器人“MOTOMAN-GP25”取消了以前的最

的机械臂)在肉搏战中也颇有优势。该公司表示,该技术将可以延伸到更多 高限速,通过改善加减速控制,实现了不受机器

产业中,比如帮助失去行动能力的病人从床上起来,使用轮椅或者去厕所。 人姿势影响而最大限度地缩短了加减速时间。不

仅如此,通过新的轨迹控制技术,轨迹误差减少

了 80%。

第13页

27

技术前沿

基于 3-RPC 并联机构的三维振动

隔离系统动力学建模与控制研究

复杂的交通状况和发动机的转动带给汽车的冲击和多维振动将会严重影响车载设备的性能。车体

运动带来的振动是不可能被完全消除的,因此通过隔振设备减弱振动能量从车体向车载设备的传

递是最为有效的方式。车体的振动是多维的,根据隔振系统与振源自由度相一致的原则,隔振系

统的自由度应与车体的振动自由度相同。由于多维振动隔离是通过在隔振机构中添加隔振单元实

现的,因此其性能完全由振动隔离机构和其控制策略决定。

文 \/ 深圳职业技术学院机电工程学院 哈尔滨工业大学 ( 深圳 ) 机电工程与自动化学院 赵伟 陈伟 李兵

并联机构由于其高静态刚度、低惯性和高灵活度等优势的存 用 A、B 表示,每个支链的底端与下平台通过一个旋转副连接于点

在使其成为多维隔振系统主体机构的良好候选。Gouig-Stewart A,而上端则通过一个圆柱副与上平台相连于点 B。A 和 B 均对称

平台、Hexapod 平台已经被广泛地应用于精密系统的六维隔振系 布置于各自所处的平面内,且每个支链的旋转副和圆柱副的轴线

统中。而以并联机构为主体的多维隔振系统近年来更是得到了迅 是相互平行的。根据螺旋理论,3 -RPC 机构的每一个分支可以提

速发展,特别是基于 MR( Magnetorheological) 阻尼器的系统。 供两个共面的约束力偶,它们的轴线与旋转副的轴线垂直。由于

在此类隔振系统中,控制策略是影响系统性能的重要因素。在最 三个分支提供的约束力偶限制了上平台的空间转动自由度,因此

近 20 年中,大量的理论和实验研究表明半主动控制策略具有良好 它只具有三个平移自由度。为了更好地实现三维振动隔离的目标,

的隔振效果和比较小的成本,但是其隔振效果受到控制策略的影 通过将机构在工作空间内所有自由度上的固有频率和的最大值作

响较大。一般在半主动控制策略中必须考虑如何得到最优控制力 为极小化目标,同时考虑工作空间、灵巧度以及运动副转角范围

和 MR 阻尼器的实际输出力两个方面。本文中采用了基于基因算 等实际约束条件对系统的几何尺寸进行了优化:PB 为 150 mm,

法的模糊模型计算得到 MR 阻尼器的输人电流以避免求解高非线 OA 为 400 mm,平面的初始高度为 245 mm。

性模型,并基于车载设备的振动特点提出了一种基于 3-RPC 并联

机构的三维隔振系统,介绍了系统的运动学和动力学模型,提出 图 1 多维隔振系统的模型示意图

了一种基于 MR 阻尼器的半主动控制策略,最后,加工制造了一

套实验样机并通过实验验证了隔振系统的有效性。

隔振系统模型

本文提出的隔振系统用来隔离从车体传递到车载设备 ( 如车

载机器人系统等 ) 的振动信号。根据车载设备的振动特点,文中提

出的隔振系统具有三个平移自由度,系统的主体机构为一个 3-RPC

并联机构。该系统由下平台、上平台和三个独立的支链组成 ( 见

图 1(a)。在每一个支链中有一个弹簧一阻尼器隔振子单元,如图

1(b) 所示,其中 k 为弹簧刚度系数,c 为阻尼器的阻尼系数。支链

第14页

28

技术前沿

运动学和动力学建模 理得到系统的振动模型为:

在图 1(b) 中,0(' X',Y',Z')是建立在地面上的笛卡尔坐标系, 式中:Xp,Xb 为上平台、下平台的位移矢量;C、K 为阻尼

0'3X,Y,Z} 为下平台坐标系,动坐标系 P{x,y,z} 处在上平台的几何 矩阵、刚度矩阵,且 C = diag ( c1 czc3 ),K = diag ( k1 kzk3 )。

中心点 P 上。为了简化建模过程并不失一般性,三个坐标系的轴

线在初始位置是相互平行的。 在振动模型的基础上可以得到系统的控制模型,其中上平台

1. 雅可比矩阵 的平移加速度作为系统的控制目标,而下平台的平移速度作为系

统的扰动信号。由于状态变量反馈能够全面地反映控制系统的内

并联机构的运动学分析包括逆解、速度和加速度分析等部分。 部特性,因此本文采用状态反馈实现隔振平台的振动控制。文中

由于并联机构的运动学分析相对简单,因此文中将不再详细叙述, 以上平台与下平台间的相对位移和上平台速度作为状态反馈量。

而只给出系统的雅可比矩阵。建立雅可比矩阵时所使用的是环路 另外,MR 阻尼器的逆模型中要用到阻尼器两端的相对速度信号,

方程法。如图 2 中所示,根据环路方程法可以得到机构的逆雅可 此信号可以通过上下平台的相对位移进行微分,然后再通过雅可

比矩阵为 比矩阵求解的方式得到。在实际控制过程中,MR 阻尼器的出力大

小是受限的,因此 MR 阻尼器的控制信号也应该受到合理的约束。

在控制系统中的变量和扰动量为:

图 2 机构矢量图 系统的动力学状态方程和被调输出方程所组成的控制系统模

型可以表示为:

2. 动力学建模

系统的闭环动力学方程是通过牛顿欧拉方程建立的。由于动 另外,由于 MR 阻尼器的输出力受到一定的限制,所以在控

制器的设计过程中还需要考虑如下条件的限制:

力学建模的过程比较繁琐,本文将不再详细描述而只给出系统的

动力学模型,更加详细的建模过程请参照相关文献。 (2)隔振系统的半主动控制策略

本文所设计的隔振平台的半主动控制算法包括三个步骤:计

在建模过程中忽略杆的转动惯量和速度二阶小量,可以得到 算最优控制力、计算各支链 MR 阻尼器可能实现的输出力、计算

机构的闭环动力学模型如下: 各 MR 阻尼器的输人电流。考虑到此三点要求以及本文中隔振平

台的实际结构,文中提出了一种模糊最优控制策略实现平台的振

3. 多维隔振系统的半主动控制 动控制。

(1)隔振系统控制模型 在此策略中,通过 H 二状态反馈控制策略得到各个支链中的

如果在式 (2) 所表达的动力学模型中弹簧的初始变形可以抵 最优控制力,然后根据支链中的运动状态并基于 MR 阻尼器的工

消所有的静态重力,那么在动力学模型中消除静平衡项后可以整

第15页

29

技术前沿

图 3 半主动控制流程图 途径。所以,文中设计与制造了一套实验样机原型,建立了软硬

件控制系统。然后在现有实验条件下对系统分别进行了不同方向

作机理得到各个支链中 MR 阻尼器的可达输出力,最后通过模糊 上的随机信号和正弦信号输人时的振动响应实验。实验结果表明

模型得到各个 MR 阻尼器的输人电流。具体控制流程如图 3 所示。 该系统具有良好的隔振效果。

1. 实验方案设计

其中在计算 MR 阻尼器的输人电流时采用了基于遗传算法的

进化 Takagi-Sugeno 模糊模型。由于 MR 阻尼器的动力学模型具 由于实验条件所限,文中分别对系统的水平和垂直方向的隔

有高度的非线性,因此如果直接求解 MR 阻尼器的动力学逆模型, 振性能进行了验证。实验方案主要包括以下几个步骤:

根据运动状态和输出力得到输人电流,会因为求解强非线性方程

而使计算量剧增、效率低下。而解决高度非线性问题是模糊控制 (1) 单向正弦扫频实验。

的一大特点,通过此控制方法既可快速逼近 MR 阻尼器的逆模型, 将隔振平台的下平台与振动台相连,分别在 X 和 Z 方向上进

又可避免控制力超调。由于篇幅限制,本文将不再详细介绍基于 行正弦信号扫频实验,并记录上下平台的加速度。此实验主要寻

模糊模型的 MR 阻尼器输人电流辨识方法,更多细节可参考文献。 找系统在各个方向上的固有频率,并验证平台在频域范围内的隔

振性能。

实验与分析 (2) 单向随机振动实验。

将隔振平台的下平台与振动台相连,分别在 X 和 Z 方向上进

作为一个面向工程应用的系统,实验是验证其性能的最可靠 行随机信号振动实验,并记录上下平台的加速度。本实验分被动

控制和半主动控制两种模式分别进行。此实验主要验证隔振平台

在随机信号激励下的隔振效果,并对被动控制和半主动控制效果

进行比较。

(3) 单向定频正弦实验。

分别在 X 和 Z 方向上进行定频正弦信号实验,激励频率分别

为平台在此方向上的固有频率。实验分被动控制和半主动控制两

种模式进行。此实验主要验证隔振平台在遭遇具有固有频率信号

时的隔振能力。

2. 振动实验与结果分析

实验过程如图 4 所示。图 4(a) 为水平振动实验,图 4(b) 为

垂直振动实验。

(1)单向正弦扫频实验

正弦扫频实验的主要目的是为了寻找隔振系统在各个方向上

的固有频率,因此在此实验中并未对 MR 阻尼器进行控制,而是

在 MR 阻尼器的零场阻尼下进行的。由于汽车的一阶固有频率一

般低于 5 Hz,因此在实验中采用的振动台扫频范围为 1-0 Hz,在

1-5 Hz 采用定幅扫频,台面振幅为 20 mm,5-20 Hz 采用定加

速度扫频,加速度为 2g,扫描速率为 1 OCT\/min。

在实验过程中发现,当振动实验台分别在 X 轴或 Z 轴方向上

施加激励时,在其它非激励方向上均能测量到运动信号,这主要

是由于并联机构的藕合运动引起的。在式 (3) 所给出的振动模型中,

第16页

30

技术前沿

图 5 正弦扫频特性曲线 图 6 固有频率正弦震动曲线

系统的质量矩阵、阻尼矩阵和刚度矩阵均为非对角阵,因此系统 设汽车在 B 级路面上行驶,实验中所采用的振动信号频率范围为

在各个方向上的平移运动是相互藕合的。在 X 方向和 Z 方向分别 1-20 Hz,加速度功率谱密度为 0.05 (m\/sz ) Z\/Hz。

进行正弦扫频振动实验时,所采集的样机上平台的加速度频域特

性曲线如图 5 所示。从图 5 可知,振动台在两个方向上的振动曲 (3)单向正弦定频振动实验

线走势基本相同:在扫频开始阶段,上平台的加速度与激励加速 此实验为了验证隔振平台在各个方向上受到具有平台固有频

度基本相同 ; 随着扫频信号频率的增大,上平台的加速度突然上升, 率的信号扰动时的性能。实验中振动台所输出的正弦信号振幅为

系统发生共振 ; 而在扫频频率越过共振区后,上平台振动加速度比 10 mm,扰动信号频率为扫频实验中得到的系统在各个方向上的

激励加速度要小,说明隔振系统起到了隔离振动传递的作用。 一阶固有频率。图 6 为隔振平台受到具有固有频率的正弦信号扰

动时的上平台的响应加速度。由图中可知,在被动模式下,此时

(2)单向随机振动实验 平台将达到共振,响应加速度放大 3 倍左右;而当采用本文提出

随机振动实验是检验隔振平台实际隔振能力的重要方式。虽 的半主动控制策略时,虽然响应加速度仍然比扰动加速度要大,

然隔振系统在水平面内各个方向的振动性能不同,但是通过前文 但是相比于被动隔振时有明显的下降。

的理论分析和仿真可知,水平面内每个方向上的振动特性的基本

趋势大致相同,因此本文仅选择了轴 X 和轴 Z 两个方向进行了随

机振动实验。通过参考国家标准给定的路面功率谱密度函数,假

第17页

31

技术前沿

Learning soft mask with DNN and DNN-

SVM for multi-speaker DOA estimation

using an acoustic vector sensor

语音声源到达角(Direction of Arrival,DOA)估计是服务机器人听觉感知系统的关键技术之一,其功能是为服务机

器人提供准确的语音声源所在方向估计。在真实复杂的声学环境中,远场语音声源的 DOA 估计易受到噪声、混响和干

扰的影响,一直是学术界的研究热点。为了提高对语音声源 DOA 估计的精度和鲁棒性,同时考虑到阵列尺寸和易搭载

需求,本文创新地提出采用声学矢量传感器(Acoustic Vector Sensor,AVS)拾取语音声源,在保持传感器物理体

积小的前提下获取多路语音信号,其次,在本团队前期工作基础上,创新地提出了一种基于有监督学习的语音信号主

导时频点鲁棒提取方法,同时实现了语音声源 DOA 估计的鲁棒性和准确性。具体内容为 :(1)根据人耳基于局部时

频区域实现语音感知与分离的生理学机制,提出了一种新的级联局部语谱块(Tandem Local Spectrogram Block,

TLSB)特征,该特征能够有效区分语音信号主导时频点和干扰信号主导时频点;(2)通过构造大量不同噪声和混响

环境下的 TLSB 数据集,训练一个深度神经网络(Deep Neural Network,DNN)语音信号主导时频点软膜估计器,

用于提取目标主导时频点;(3)为了减少人为设定阈值,提升算法可扩展性,提出采用 DNN 模型最后一层隐含层特

征表示,训练支持向量机(Support Vector Machine,SVM)实现软膜估计;(4)利用提取出的语音主导时频点计

算传感器间数据比(Inter-Sensor Data Ratio,ISDR),采用核密度聚类方法对 ISDR 进行聚类可实现多声源的 DOA

估计。通过大量实验证明,验证了本文提出的方法在不同的噪声和混响环境中都具有更高的 DOA 估计精度和鲁棒性。

Disong Wanga, Yuexian Zoua,*, Wenwu Wangb

a ADSPLAB, School of ECE, Peking University, Shenzhen, , China

b Centre for Vision, Speech and Signal Processing, University of Surrey, Guildford, United Kingdom

1 Introduction are collocated at a point geometry in space, and

has a smaller size but provides more directional

Direction of arrival (DOA) estimation of information [3, 4]. Recently, several AVS based

acoustic sources with a microphone array of DOA estimation algorithms have been proposed

small size has drawn much attention due to its [5-11],including those for the under-determined

low cost, compact physical size and wide-range DOA estimation problem[7-11],where the

applications such as video conferencing and number of sources is greater than the number of

intelligent robots for identifying speech source sensors. In these studies, a common assumption

locations swiftly and accurately [1]. Among them, has been made that the target speech

Acoustic Vector Sensor (AVS) is a promising dominated TF points (TD-TFPs) can be extracted

candidate providing great convenience in based on the sparseness of speech signals [12].

configuration and portability [2]. Different from n [8, 9], the subspace characteristics of the local

the conventional arrays with omnidirectional TF covariance matrix have been exploited to

microphones, an AVS contains one pressure determine the TD-TFPs to estimate the DOAs.

sensor and three orthogonal velocity sensors that

第18页

32

技术前沿

However, the ambient noise and reverberation Third, the LSBs of TD-TFPs and ID-TFPs can be

may corrupt the signal subspace [13], which considered as two different patterns, and hence

leads to the performance degradation when can be learned in a supervised manner.

using the method based on the selection of the

TFPs with high Signal to Noise Ratio (HSNR). Based on the above findings, we firstly

propose a novel tandem LSB (TLSB) feature,

In our previous work [7], the DOA estimation which is defined as the LSBs of the four channels

of multi-sources has been addressed by of AVS in tandem that are centered by the same

clustering the inter-sensor data ratios of single time-frequency point, as the input to the training

acoustic vector sensor (AVS-ISDR), where the system. Then, we design two different soft mask

Sinusoidal Tracks Extraction (SinTrE) method [12] learners to extract TD-TFPs:

is introduced to extract the reliable TD-TFPs by

exploiting the harmonic structure of speech. Then (1) Making use of the powerful learning

the ISDRs that contain DOA cues are calculated ability of deep neural network (DNN) [16] with

at the extracted TD-TFPs and clustered by the large scale training dataset, a DNN is trained

Kernel Density Estimation (KDE) method [14]. by mapping the TLSB feature to the Idea Binary

As a result, the DOAs are estimated using the Mask (IBM) [17] for each TFP. Then in the testing

centers of the ISDR-clusters. The AVS-ISDR was phase, the received signals of the AVS can be

shown to be effective in estimating the DOAs for transformed to TLSB features and then decoded

up to seven speech sources under low noise and by the well-trained DNN to generate the soft

reverberation conditions. However, experimental mask, which represents the probability of a TFP

results also show that the performance of the being considered as TD-TFP. By comparing the

TD-TFPs extraction by SinTrE deteriorates as soft masks with a predefined threshold, the TD-

the level of noise and reverberation increases, TFPs can be accurately extracted.

resulting in performance degradation in the

DOA estimation. Clearly, the reliable extraction (2) The last hidden layer representations

of TD-TFPs is crucial for the AVS-ISDR method to (LHLR) of DNN are taken as the feature for

obtain good DOA estimation performance under training the linear support vector machine (SVM),

different noisy and reverberant conditions. which is motivated by the following reasons:

1) DNN can be viewed as a hierarchical feature

To obtain the reliable extraction of TD-TFPs, detector, and each hidden layer of DNN is a

in this paper, we perform our study from the different representation of the original feature,

following aspects. First, we get some insights where the LHLRs with high dimension are more

from the perceptual mechanism of the human linearly separable and therefore useful for

auditory system that the target speech and classification [18]; 2) SVM can tackle the high

interferers are separated in local TF regions [15]. dimensional data classification problems [19],

Second, we evaluate the local spectrogram block and is currently one of the best performers

(LSB) of the received signals for four channels of for a number of classification tasks in speech

the AVS under different noise and reverberation applications [18,20-22].In addition, the linear

levels. Experiments showed that the LSBs separability of LHLRs facilitates the performance

centered by the TD-TFPs are distinguishable of linear SVM with lower computational

from those centered by the interferers (noise complexity as compared with kernel SVMs.

or reverberation) dominated TFPs (ID-TFPs). Similarly, the soft masks can also be obtained via

the decision function of SVM.

第19页

33

技术前沿

Following our previously proposed AVS- With the reverberation, Hi(k) (1 ≤ i ≤ I) can be

ISDR algorithm, the oft masks are also used decomposed into [9]

to calculate the weighted centers of the

ISDR-clusters, for further improving the DOA where H d ( k ) and H r ( k ) are the direct-

estimation accuracy. i i

The remainder of this paper is organized path component and reflection component

as follows. The formulation of the AVS-ISDR

algorithm is illustrated in Section 2. In Section respectively, which are denoted as

3, we present our proposed soft mask learning

algorithms for DOA estimation in details, and where τi is the direct-path time delay, ωk is

experiments and analysis are given in Section 4 the kth discrete angular frequency, and a is the

before we conclude the paper. manifold vector for speech source si(t) with the

elevation θi ∈ [0 ° , 180 ° ] and azimuthφi ∈ [0 ° ,

2 Formulation of AVS-ISDR 360° ), which has the form

2.1 Data model for AVS where ui, vi and wi are given by

Assume the acoustic signal is sampled

aqi=[uqi, vqi, wqi, 1]T is the manifold vector

by one single AVS in a noisy and reverberant pointing towards the qth reflection component,

environment. The signal observed by the AVS at and are the time delay of the reflection and

the discrete time instance t can be modeled as attenuation due to absorption at surfaces of

the room. Therefore, the problem of DOAs

where x(t)=[xu(t), xv(t), xw(t), xo(t)]T represents estimation of multi-sources is converted into the

the received signal at three bidirectional sensors estimation of [ui, vi, wi] (1 ≤ i ≤ I).

(u-, v-, w-sensors) and one omnidirectional 2.2 Inter-sensor data ratio model

sensor (o-sensor) respectively, the superscript T

denotes the vector transpose. I is the number of The inter-sensor data ratios (ISDR) of the AVS

speech sources, si(t) is the ith source, hi(t)=[hui(t), are defined as [7]

hvi(t), hwi(t), hoi(t)]T (1 ≤ i ≤ I) is the impulse

response sample vector from the ith source to

the corresponding sensor, *denotes convolution

and n(t)=[nu(t), nv(t), nw(t), no(t)]T is defined as

the noise components. By taking the short-time

Fourier transform (STFT), Eqn.can be written as

where m is the time frame index and k is where ruo, rvo, rwo are the ISDRs between u-

the frequency bin index, Si(k,m) is the STFT and o-sensor, v- and o-sensor, w- and o-sensor

of si(t). X(k,m), Hi(k) and N(k,m) are the 4-by- respectively. Based on the Eqn. or the f-sensor

1 STFT coefficient vector of x(t), hi(t), and n(t) (f=u, v, w), the ISDR can be represented as

respectively, which are given by

第20页

34

技术前沿

If the time-frequency point X(k,m) is a TD- it is crucial to extract reliable TD-TFPs for the

TFP, which is assumed to be dominated by the calculation of ISDRs. Specifically, assuming there

ith sources and the direct-path component is are J TD-TFPs that are associated with I sources,

significantly larger than the reflection and noise then the ISDRs can be obtained and clustered

components, X(k,m) can be appproximated by into I classes where each represents one source.

To illustrate this, we take the ISDRs between the

where Hdi(k) is the direct-path component u-sensor and o-sensor as an example, and plot

defined in,then ISDRs can be transformed into the ratios rguo (g ∈ Gi) in Fig 1, where Gi is the

index set of the elements in the ith ISDR-cluster.

where , As shown in Fig 1, the ratios rg uo fluctuate up

and down around the true ratio ui (red line), thus

, and isthe residual it is a good choice to select the average (green

error caused by ambiet noise, reverberation and line) of rguo to approximate ui for DOA estimation.

Based on Eqn. the centers of each ISDR-cluster

model mismatch. can be calculated by taking the average of the

points within the cluster and used for DOA

estimation as follows:

where is the center of the ith

ISDR-cluster, and |·| denotes the number of

elements in the set. and are the estimated

elevation and azimuth for the ith source.

As we can see from and Fig 1, the biases in

DOA estimation by AVS-ISDR mainly come from

Fig. 1. Illustration of the ISDRs between the u-sensor and o-sensor, the residual errors

where ‘△’ is the ratio rguo in the ith ISDR-cluster, the red line is , since the large residual errors increase the

the true ratio ui, the green line is the average of rguo (g ∈ Gi), and estimation errors of the centers of the clusters

the black line is the weighted average of rguo (g ∈ Gi). for DOA estimation. In an effort to overcome

this problem, two strategies have been exploited:

2.3 ISDRs clustering based DOA estimation

1)The TD-TFPs with low residual errors (in

From Eqn. the ISDRs ruo(k,m), rvo(k,m) and terms of a pre-defined threshold) are identified

rwo(k,m) can be viewed as random variables and extracted.

in TF domains with the mean of ui, vi, and wi

2)The weighted centers of ISDR-clusters

respectively [7]. It is noted that the residual error are used to replace the original centers 2)by

assigning the ISDRs having large residual errors

is small for the TD-TFP, while large for the ID- with small weights, and the ISDRs having small

TFP. To accurately estimate [ui, vi, wi] (1 ≤ i ≤ I),

第21页

35

技术前沿

residual errors with large weights. here to show the patterns of LSBs, where the

SNR level of Gaussian noise is set at 5dB and

3. Our proposed DOA estimation reverberation time at 350ms, the room size is

methods 6m×6m×4m, the AVS is located at [3m, 3m,

1.3m], and two speech sources are placed 1.7m

In this section, the proposed novel TLSB away from the sensor with DOA at (60o, -45o) and

features, which show different patterns for TD- (80o, 120o) respectively. Then the spectrogram is

TFPs and ID-TFPs, are firstly presented. Then, we obtained by taking the log-power STFT on the

present the details of soft mask learning by DNN received signal of the AVS. The offsets B and

and DNN-SVM in a supervised manner to extract C are all set to be 5 (the size of LSB is 11×11).

reliable TD-TFPs. Finally, our proposed robust Taking the LSBs of the o-sensor as an example,

DOA estimation methods, by using the weighted TD-TFP-LSBs and ID-TFP-LSBs are shown in Fig.

centers of the ISDR-clusters (WISDR), termed 2 (a) and (b) respectively. From Fig. 2 (a) and (b),

in short as AVS-WISDR-DNN and AVS-WISDR- we can observe the following properties: 1) most

DNN-SVM, are introduced. TFPs in TD-TFP-LSBs have relatively high energy;

3.1 Extraction of the tandem local spectrogram 2) those TFPs in TD-TFP-LSBs with high energy

constitute parallel “stripes”; 3) TD-TFP-LSBs

Fig. 2. LSBs of 11×11 size that are randomly selected from the contain more TD-TFPs. It is noted that similar

spectrogram of the received signal at the o-sensor with SNR patterns can be observed at other sensors (u-,

level being 5dB and reverberation time being 350ms: (a) Nine v-, w-sensor) and in other noisy and reverberant

local spectrogram blocks of TD-TFPs (TD-TFP-LSBs); (b) Nine enviroments.

local spectrogram blocks of ID-TFPs (ID-TFP-LSBs)

Above observations motivate us to use the

block LSB as a cue to estimate the TF mask. Based on

According to above discussions, here we use the structure of AVS, we propose to make use of

the LSBs from all the 4 channels of the AVS, as

the log-power STFT, Yf(k,m)=10log10(||Xf(k,m)||) illustrated in Fig. 3, where LSBs centered by the

(f=u,v,w,o), where ||·|| denotes the Euclidean same TFP are vectorized and cascaded to form

norm. Then the shape of LSB centered by the TFP a 484 (4×11×11)-dimension vector termed as

(k, m) of the f-sensor is defined as tandem LSB (TLSB).

where B and C are the row and column offset Fig. 3. Tandem local spectrogram block extraction

respectively, which are found empirically in our

experiments.

To give some insights, an example is given

第22页

36

技术前沿

3.2 Design of the soft mask learner [16], the DNN is fine-tuned using a stochastic

A TD-TFP means the signal-to-noise ratio gradient descent (SGD) algorithm by maximizing

the cross-entropy between the true IBM and the

(SNR) of the TFP is larger than a local SNR where predicted probability.

idea binary mask (IBM) has been suggested as a

criterion as follows [17] In the test phase, with the test TLSB at (k,

m), the trained DNN is used to generate the soft

where η is a constant that is set to be 0.5 in mask (i.e. a posterior probability, which is the

this paper. Clearly, the IBM is 1 for TD-TFP and output of DNN) for the TFP as

0 for ID-TFP. It is noted that the IBM can only be

used to determine whether the TFP is TD-TFP or Then any TFP with the soft mask larger than

not. To obtain a center that is closer to the true a predefined value (set to be 0.9 empirically)

center as shown in Fig 1, the soft mask can be is taken as a TD-TFP, which is used for DOA

utilized. The soft mask, denoting the probability estimation.

of a TFP being TD-TFP, can be used to determine

the TD-TFPs and used as the weights to calculate 3.2.2. Soft mask learning by DNN-SVM

the weighted centers of ISDR-clusters for better With the well-trained DNN, in a generative

DOA estimation. Therefore, two soft mask manner, the last hidden layer representations

learners have been proposed in the following (LHLR) of DNN can be obtained by using the

subsections. TLSB as the input

3.2.1. Soft mask learning by DNN where Γ(•) is the mapping from the input

With the TLSB as input, we propose to to the last hidden layer of DNN. As discussed

employ the DNN to learn the soft TF mask for above, LHLRs have the linear separability in

each TFP, which involves the training phase and favour of the linear SVM. Thus, the new training

test phase. dataset {(LHLRd, ld), d=1, 2, ..., D} can be obtained

In the training phase, we create a training by Eqn. and used for training a linear SVM, which

dataset of TLSBs that are extracted from the has the following decision function [24]

spectrograms of an AVS in different noisy and

reverberant environments (details are given in where z is the test LHLR, is the ith support

Section 4), and the IBM of each TFP is used as the vector associated with the weight ωi, Ns is the

ground truth. With the training dataset {(TLSBd, total number of support vectors, and ω0 is the

ld), d=1, 2, ..., D}, where D is the number of TLSB bias term. It is noted that, when the decision

samples and ld is the label (IBM) corresponding function L(z) is positive, the TFP corresponding

to the dth TLSB, the DNN is firstly pre-trained to the test LHLR is judged to be a TD-TFP.

via a deep generative model of TLSBs by a Intuitively, when L(z) has a larger positive value,

stack of multiple restricted Boltzmann machines the TFP is determined as a TD-TFP with a higher

(RBMs) in an unsupervised fashion by using confidence, and vice versa. Therefore, similar to

the contrastive divergence (CD) algorithm [23]. the relevance vector machine (RVM) [25] that

Then following the learning rate annealing and has the identical function of SVM but provides

early stopping strategies used in the BP process probabilistic classification, the soft mask based

on SVM can be defined by wrapping Eqn. in a

第23页

37

技术前沿

sigmoid squashing function 4. Experiments and analysis

4.1. Experimental settings

Then any TFP with the soft mask larger than

0.5 (L(z) is positive) is taken as a TD-TFP.

3.3 DOA estimation via weighted ISDR

centers

Following the ISDR model presented in [7],

we propose a weighted ISDR (WISDR) model for

DOA estimation. Specifically, take the J TD-TFPs

determined by DNN as an example, assume the

corresponding soft masks are {p1, p2, …, pJ}. Then

the ISDRs can be calculated

by Eqn. and clustered into I classes by using

the kernel density estimation (KDE) as used in

[7]. The soft mask represents the probability

of the TFP being considered as a TD-TFP, and

as a result, it becomes useful for estimating

the centers of the clusters. As shown in Fig 1,

the center of the ratio rg uo (g ∈ Gi) in the ith

ISDR-cluster is severely impacted by the rguo

with high residual errors. By assigning each rguo

with the corresponding soft mask as the weight,

the weighted center of rguo (g ∈ Gi) is able to

approximate the true ratio ui more closely as

compared with the center . Thus, different from

Eqn.,we take the weighted average as the center

of the ith cluster as follows

Similiar to ,by replacing the original centers

with the weighted centers,the DOA can be

estimated by

To distinguish from the baseline AVS-ISDR

algorithm, we term the proposed algorithms

in short as AVS-WISDR-DNN and AVS-WISDR-

DNN-SVM respectively,which are summarized

in Tables 1 and 2.

第24页

38

技术前沿

preserved, and the label (IBM) is set to be 1.

2)TLSBs of those ID-TFPs that lie in the LSBs

of TD-TFPs are extracted and preserved, and the

label is set to be 0.

3)By dividing the spectrogram into LSBs

of size 11×11 without overlap across time

frames and frequency bins, TLSBs of ID-TFPs are

extracted and preserved, and the label is set to

be 0.

Totally 7 million training samples are

obtained, where 5 million training samples

{(TLSBd, ld), d=1, 2, ..., 5×106} are randomly

selected to train the DNN, as we find the DNN

To create the dataset for training the DNN, has better performance with a large dataset

the received signal x(t) of the AVS is generated

according to Eqn. where the room impulse and the performance is almost saturated with

responses h(t) are simulated following the

image method proposed in [26], and n(t) is of 5 million training samples. It is noted that the

Gaussian distribution. To obtain TLSBs in a variety

of conditions, we simulate x(t) with different training dataset is generated under one-source

DOAs, room size, source to AVS distances, noise

and reverberation levels, where the detailed condition, since the TLSBs under multi-source

configuration is summarized in Table 3. In

each configuration, the elevation and azimuth conditions have similar patterns.

are randomly sampled from [0 ° , 180 ° ] and

[0 ° , 360 ° ) respectively. We simulate 3 types As for DNN, the architecture we adopted is

of room size: small (4m×5m×3m), medium

(8m×10m×3.5m), and large (15m×18m×4m). demonstrated in Fig. 4, where the DNN contains

In each room, the AVS is all placed in the center

with the height of 1.5m. 50 sentences randomly one input layer (484-dimension, the block

selected from the TIMIT corpus [27] are used as

the original speech sources, and each sentence shape is the same as that in Section 4.1), three

is repeatedly used for different simulation

configurations. The signals are sampled at 8kHz. hidden layers with 512 units per layer and one

The Hamming window of 256 samples is used

to compute the spectrograms Yf(k,m) (f=u,v,w,o), output layer (2-dimension), and the last two

with a 50% overlap between the neighbouring

windows. To create a proper dataset, for the layers constitute a softmax classifier. It is noted

spectrograms obtained in each configuration, we

extract TLSBs which can be divided into 3 parts: that the number of hidden layers of the DNN is

1)TLSBs of TD-TFPs are all extracted and determined with the cross-validation experiments

by setting it as 2, 3, 4 and 5, where the DNN

with 3 hidden layers gives the best performance

in terms of the cross-validation classification

accuracy. As a result, we choose the DNN with 3

hidden layers in our experiments. When the DNN

is well-trained with the created dataset {(TLSBd,

ld), d=1, 2, ..., D}, the corresponding LHLR dataset

{(LHLRd, l ), d=1, 2, ..., D} can be

obtained. As for the linear SVM, we randomly

select 104 LHLR samples from the LHLR dataset,

and use the default settings in the LIBSVM

[28] package to train a linear SVM. In the test

phase, the unused utterances selected from the

第25页

39

技术前沿

TIMIT database are used as speech sources, the TFPs (IBM=0). These results demonstrate that

room size and the location of AVS are set to be DNN is able to extract the LHLR features from

6m×6m×4m and [3m, 3m, 1.3m], and distances the raw TLSB features which help to distinguish

between the AVS and sources are all set to be whether the TFP is a TD-TFP or ID-TFP.

1.7m. The AVS-ISDR method [7] and the method

by Wu et al. [9] (here termed as AVS-LRSS) are 4.2.2. Performance comparison for TD-TFPs

taken as baselines, where the settings of AVS- extraction

LRSS are the same as [9]. The root mean squared

error (RMSE) is used as the performance metric

where L is the total number of trials, θil and To verify the effectiveness of TLSB based

φil are the estimation of θi and φi in the lth trial DNN and DNN-SVM for extracting TD-TFPs,

respectively. as compared with the existing SinTrE [12] and

4.2. Experimental results coherence test [9] method, we generate the test

TLSB dataset that is synthesized under different

4.2.1 Visualization of hidden layer reverberation levels with the SNR fixed at 5dB,

representations of DNN where the F1 score is used

To illustrate the distribution of learned where Pr is the precision, which is the

hidden layer representations (HLR) via DNN, number of correctly predicted positive (IBM=1)

Fig. 5 shows the 3-dimensional projection of results divided by the number of all predicted

representations of 3 hidden layers of DNN. The positive results, and Re is the recall, which is the

projection is achieved by the t-SNE algorithm [29] number of correctly predicted positive results

and 103 TLSB samples are randomly selected divided by the number of all true positive results.

from {(TLSBd, ld), d=1, 2, ..., D}. In a generative Under each reverberant condition, 100 trials

manner, the first, second and third HLRs can have been conducted and the average F1 score

be obtained via DNN with the TLSB samples is used as the evaluation metric, and the results

as input. From Fig. 5, it can be observed that are shown in Table 4. From Table 4, we can see

the HLRs become more separable as the depth that, as expected, the average F1 scores of all

of hidden layers increases, and the third HLRs, methods decrease when the reverberation time

namely LHLRs, provide the best capability to T60 is increased, and our proposed methods have

discriminate the most TD-TFPs (IBM=1) and ID- significant improvements over the SinTrE and the

coherence test methods, where the DNN-SVM

gives the best performance with the highest

average F1 scores, since the SVM gives better

classification performance than the softmax of

第26页

40

技术前沿

DNN [30].

4.2.3 DOA estimation accuracy versus

azimuth

This experiment aims to evaluate the

performance of DOA estimation versus different

azimuth, where the elevation is fixed at 60o, the

azimuth is varied from -90o to 90o with 10o step,

and the SNR and T60 are fixed at 5dB and 0.35s,

respectively. 100 trials have been repeated for

each azimuth, and the results are shown in Fig. 6.

It can be clearly seen that AVS-LRSS outperforms

the AVS-ISDR for all azimuths, and both have

the degraded performance when the azimuth is

-90° , 0° and 90° . However, it is promising to see

that AVS-WISDR-DNN and AVS-WISDR-DNN-

SVM achieve better performance for all azimuths,

which confirms the effectiveness of the TLSBs

used for soft mask estimation based on DNN

and DNN-SVM.

4.2.4. DOA estimation of multi-sources

Fig. 7 shows the performance of DOA

estimation of two sources located at (60o, -45o)

and (80o, 120o) in different noisy and reverberant

environments and L=100. It can be seen that

the performance of all methods degrades with

increasing levels of noise and reverberation,

however our proposed methods still achieve

better performance under all conditions,

followed by AVS-LRSS and AVS-ISDR, which

demonstrates the advantage of the proposed

method in noisy and reverberant environments.

In addition, since the DNN and DNN-SVM are

trained by the dataset generated under different

noisy and reverberant conditions, our methods

are less sensitive and more robust to noise and

reverberation.

4.2.5. Performance evaluation under different

noise conditions

The DNN and DNN-SVM used in our work

are aimed for predicting the type of the time-

frequency points (TD-TFPs or ID-TFPs), which

第27页

41

技术前沿

shows good performance under the white the signals, and the room has a size of about

noise condition. To analyze the performance of 8.5m×3m×5m with uncontrolled reverberation

our proposed algorithms under different noise and background noise from air conditioner and

conditions, we conducted experiments under 5 computer servers. Specifically, the experimental

types of noise: white, machniegun, babble, f16 settings for the data recording are as follows:

and destroyerops noise, which are seclected from two speakers are used as the sources, the DOA

the NOISEX-92 corpus [31]. We used one source, of one speaker is fixed at [90o, 0o], and the

varied the SNR from 0dB to 15dB with 5dB elevation of the other speaker is fixed at 90o,

interval and fixed T60 at 0.35s. Then, 100 trials while the azimuth varies from 45o to 180o with a

have been repeated for each SNR level, and the 45o interval, which, therefore, results in 4 types

DOA is randomly generated for each trial. The of combinations. Besides, the distance between

experimental results are shown in Fig. 8. From the speakers and the AVS is all set as 1m, and 10

the results shown in Fig. 8, we have the following trials have been conducted for each combination.

observations. 1) With the increase in SNR, our

proposed methods give lower DOA RMSE results The RMSE results of DOA estimation

for each noise-type. 2) For a certain type of noise are shown in Table 5. It can be seen that the

(f16 as an example), our proposed methods proposed AVS-WISDR-DNN-SVM offers the

(green and yellow color bars) outperform the best performance with the lowest RMSE for

AVS-ISDR and AVS-LRSS algorithms. 3) For a each source combination, followed by AVS-

certain SNR (0dB as an example), our proposed WISDR-DNN, AVS-LRSS and AVS-ISDR, which

algorithms give the lowest DOA RMSE results further demonstrates the effectiveness and

for white noise while they give highest DOA superiority of our proposed methods. It is

RMSE results for babble noise. Such performance noted that the DNN and DNN-SVM are trained

degradation is expected since the training data without performing any matching from the

of DNN for our algorithms is only constructed training dataset to the real test environment. Our

by mixing the clean speech with white noise. 4) proposed methods offer better performance due

The mismatch of the noise condition between to the generalization ability of DNN and DNN-

the test data and the training data leads to SVM to other unseen conditions. We will study

the performance degradation of our proposed the possibility of matching a training dataset

algorithms. These observations also suggest that to the given test environment for better DOA

a large scale training dataset that encompasses estimation in our future work.

many possible the combinations of speech and

noise conditions, are helpful for enhancing the Through quantitative analysis, by limiting

generality of our proposed DNN-based DOA the recorded data to be 3s for each trial, we also

estimation methods. record the average running time (ART) of each

algorithm in Table 5, where the AVS-ISDR has

4.2.6. DOA estimation in a real scenario the smallest ART and AVS-LRSS has the largest

Finally, we conduct an experiment in a real ART. In essence, the DOA estimation of AVS-

scenario using LRSS is based on the multiple signal classification

the AVS data capturing system developed (MUSIC) algorithm, which involves the MUSIC

by ADSPLAB as shown in Fig. 9, where a single spectrum search to determine the elevation and

AVS is placed on top of the smart car to capture azimuth simultaneously, and thus has a higher

computational load. In contrast, the AVS-ISDR

第28页

42

技术前沿

performs DOA estimation on the TD-TFPs with we proposed earlier. The performance of this

ISDRs that can be simply calculated with much previous method largely depends on the reliable

lower complexity, which therefore has lower extraction of TD-TFPs that could be affected

computational loads. Finally, our proposed significantly by the increasing levels of noise

methods provide a tradeoff between the DOA and reverberation. A novel TLSB feature, that is

estimation accuracy and speed (running time), shown to be different for TD-TFPs and ID-TFPs

where the computational costs for TD-TFPs has been presented. By training a DNN with a

extraction by DNN and DNN-SVM are higher large scale dataset that is composed by TLSB

than those for the SinTre used in AVS-ISDR and and corresponding IBM under various noisy and

the coherence test used in AVS-LRSS, however reverberant conditions, the soft masks can be

their TD-TFPs extraction accuracy is much higher, generated via DNN to determine reliable TD-

as shown in Table 4. In addition, due to the use of TFPs and used to calculate the weighted centers

a number of support vectors, the computational of ISDR-clusters for better DOA scalability and

cost of SVM tends to be higher than that of flexibility of DNN, the LHLR features learned

the softmax of DNN, as a result, the DNN-SVM from TLSBs are shown to be more linearly

is slower than DNN. Similiar to AVS-ISDR, our separable and thus used to train a linear SVM

proposed methods are much faster than AVS- with a lower computational complexity. We note

LRSS for DOA estimation. that the DNN-SVM can also be used to generate

the soft masks by mapping the outputs of SVM

5. Conclusion to posterior probability for DOA estimation. The

proposed AVS-WISDR-DNN and AVS-WISDR-

In this paper, we have presented two soft DNN-SVM methods have shown significant

mask learning methods for DOA estimation improvements over AVS-ISDR and AVS-LRSS

of multi-sources using DNN and DNN-SVM. methods, where AVS-WISDR-DNN-SVM offers

The methods are based on the analysis of a the best performance among these compared

previous method, i.e. AVS-ISDR algorithm, which methods. Our future work aims to exploit

the influence of the size and shape of local

spectrogram blocks on soft masking and design

other DNN architecture to further improve

the estimation performance of the soft masks.

Besides, the selection of LHLR samples to further

improve the training of a linear SVM is also worth

studying.

References

[1] F. Ribeiro, C. Zhang, D. A. Florêncio et al., “Using

reverberation to improve range and elevation discrimination

for small array sound source localization,” IEEE Transactions

on Audio, Speech, and Language Processing, vol. 18, no. 7, pp.

1781-1792, 2010.

[2] M. E. Lockwood, and D. L. Jones, “Beamformer

performance with acoustic vector sensors in air,” The Journal

of the Acoustical Society of America, vol. 119, no. 1, pp. 608-

第29页

43

技术前沿

619, 2006. [17] N. Roman, and J. Woodruff, “Intelligibility of reverberant

[3] M. Hawkes, and A. Nehorai, “Acoustic vector-sensor noisy speech with ideal binary masking,” The Journal of the

beamforming and Capon direction estimation,” IEEE Acoustical Society of America, vol. 130, no. 4, pp. 2153-2161,

Transactions on Signal Processing, vol. 46, no. 9, pp. 2291-2304, 2011.

1998. [18] Y. Wang, and D. Wang, “Towards scaling up classification-

[4] J. Cao, J. Liu, J. Wang et al., “Acoustic vector sensor: reviews based speech separation,” IEEE Transactions on Audio, Speech,

and future perspectives,” IET Signal Processing, 2016. and Language Processing, vol. 21, no. 7, pp. 1381-1390, 2013.

[5] D. Levin, E. A. Habets, and S. Gannot, “Maximum likelihood [19] C. J. Burges, “A tutorial on support vector machines for

estimation of direction of arrival using an acoustic vector- pattern recognition,” Data Mining and Knowledge Discovery,

sensor,” The Journal of the Acoustical Society of America, vol. vol. 2, no. 2, pp. 121-167, 1998.

131, no. 2, pp. 1240-1248, 2012. [20] N. Yang, R. Muraleedharan, J. Kohl et al., “Speech-based

[6] B. Li, and Y. X. Zou, “Improved DOA estimation with emotion classification using multiclass SVM with hybrid kernel

acoustic vector sensor arrays using spatial sparsity and subarray and thresholding fusion,” in Spoken Language Technology

manifold,” in 2012 IEEE International Conference on Acoustics, Workshop (SLT), 2012 IEEE, pp. 455-460, 2012.

Speech and Signal Processing (ICASSP), pp. 2557-2560, 2012. [21] Y. Wang, K. Han, and D. Wang, “Exploring monaural

[7] Y. X. Zou, W. Shi, B. Li et al., “Multisource DOA estimation features for classification-based speech segregation,” IEEE

based on time-frequency sparsity and joint inter-sensor Transactions on Audio, Speech, and Language Processing, vol.

data ratio with single acoustic vector sensor,” in 2013 IEEE 21, no. 2, pp. 270-279, 2013.

International Conference on Acoustics, Speech and Signal [22] C. J. Taylor, “2012 Benjamin Franklin Medal in Computer

Processing, pp. 4011-4015, 2013. and Cognitive Science presented to Vladimir Vapnik,” Journal

[8] S. Zhao, T. Saluev, and D. L. Jones, “Underdetermined of the Franklin Institute, vol. 352, no. 7, pp. 2579-2584, 2015.

direction of arrival estimation using acoustic vector sensor,” [23] G. E. Hinton, “Training products of experts by minimizing

Signal Processing, vol. 100, pp. 160-168, 2014. contrastive divergence,” Neural Computation, vol. 14, no. 8,

[9] K. Wu, V. Reju, and A. W. Khong, “Multi-source direction- pp. 1771-1800, 2002.

of-arrival estimation in a reverberant environment using single [24] B. E. Boser, I. M. Guyon, and V. N. Vapnik, “A training

acoustic vector sensor,” in 2015 IEEE International Conference algorithm for optimal margin classifiers,” in Proceedings of the

on Acoustics, Speech and Signal Processing (ICASSP), pp. 444- fifth annual workshop on Computational learning theory, pp.

448, 2015. 144-152, 1992.

[10] W. Zheng, Y. Zou, and C. Ritz, “Spectral mask estimation [25] M. E. Tipping, “Sparse Bayesian learning and the relevance

using deep neural networks for inter-sensor data ratio model vector machine,” Journal of Machine Learning Research, vol. 1,

based robust DOA estimation,” in 2015 IEEE International no. Jun, pp. 211-244, 2001.

Conference on Acoustics, Speech and Signal Processing [26] J. B. Allen, and D. A. Berkley, “Image method for efficiently

(ICASSP), pp. 325-329, 2015. simulating small‐room acoustics,” The Journal of the

[11] Y. H. Jin, and Y. Zou, “Robust speaker DOA estimation with Acoustical Society of America, vol. 65, no. 4, pp. 943-950, 1979.

single AVS in bispectrum domain,” in 2016 IEEE International [27] J. S. Garofolo, “Getting started with the DARPA TIMIT CD-

Conference on Acoustics, Speech and Signal Processing ROM: An acoustic phonetic continuous speech database,”

(ICASSP), pp. 3196-3200, 2016. National Institute of Standards and Technology (NIST),

[12] W. Zhang, and B. D. Rao, “A two microphone-based Gaithersburgh, MD, vol. 107, 1988.

approach for source localization of multiple speech sources,” [28] C.-C. Chang, and C.-J. Lin, “LIBSVM: a library for support

IEEE transactions on audio, speech, and language processing, vector machines,” ACM Transactions on Intelligent Systems

vol. 18, no. 8, pp. 1913-1928, 2010. and Technology (TIST), vol. 2, no. 3, pp. 27, 2011.

[13] D. Levin, E. A. Habets, and S. Gannot, “On the angular [29] L. v. d. Maaten, and G. Hinton, “Visualizing data using

error of intensity vector based direction of arrival estimation t-SNE,” Journal of Machine Learning Research, vol. 9, no. Nov,

in reverberant sound fields,” The Journal of the Acoustical pp. 2579-2605, 2008.

Society of America, vol. 128, no. 4, pp. 1800-1811, 2010. [30] Y. Tang, “Deep learning using support vector machines,”

[14] Z. I. Botev, J. F. Grotowski, and D. P. Kroese, “Kernel density CoRR, abs\/1306.0239, vol. 2, 2013.

estimation via diffusion,” The Annals of Statistics, vol. 38, no. 5, [31] A. Varga, and H. J. Steeneken, “Assessment for automatic

pp. 2916-2957, 2010. speech recognition: II. NOISEX-92: A database and an

[15] J. B. Allen, “How do humans process and recognize experiment to study the effect of additive noise on speech

speech?,” IEEE Transactions on Speech and Audio Processing, recognition systems,” Speech Communication, vol. 12, no. 3,

vol. 2, no. 4, pp. 567-577, 1994. pp. 247-251, 1993.

[16] G. Hinton, L. Deng, D. Yu et al., “Deep neural networks for

acoustic modeling in speech recognition: The shared views of

four research groups,” IEEE Signal Processing Magazine, vol.

29, no. 6, pp. 82-97, 2012.

第30页

44

机器人关键部件

柔性臂振动抑制的

新型控制策略研究

柔性臂因其质量轻、结构设计紧凑等优点被广泛应用在航天器、柔性机器人等领域,但是,其末端在运行过

程中易产生抖动,严重影响其工作效率和定位精度,甚至危害整个系统的安全。国内外研究人员针对柔性臂

的振动抑制问题,提出了 PID 控制、模糊控制、自适应控制、滑模变结构控制、最优控制等控制方法,对

柔性臂振动抑制的反馈控制方法进行了探讨。输入整形技术由 Singer 和 Seering 首次提出,被广泛应用于

柔性结构的振动抑制,该方法属于前馈控制方法,也是一种独特的振动抑制方法。Youmin 等将输入整形技

术应用于桥式起重机,抑制抖动的同时也提高了起重机的运输效率;Alsaibie 等应用输入整形抑制了液体在

运输过程中的晃动;Dhanda 等对输入整形器进行改进,设计最优输入整形器有效抑制了起重机的残留振动;

Pradhan 等将输入整形与自适应控制结合来控制摆动负载的左右晃动。但是输入整形技术在抑制柔性系统

振动的同时会导致系统响应时间延迟,严重降低系统的工作效率。

文 \/ 深圳大学深圳电磁控制重点实验室 邓 辉 孙俊缔 曹广忠

本文针对输入整形技术引起的响应时间延迟问题,基于最优 (a) 机械结构 (b) 物理模型

控制理论设计最优输入整形器以减小系统的响应时间,并将最优 (a) Mechanical structure (b) Physical model

输入整形器与模糊 PID 控制器结合进行柔性臂的振动抑制。

 图 1 柔性臂机械结构与物理模型

柔性臂动力学模型

(1)

绕伺服电机转轴旋转运动的柔性臂机械结构和物理模型如图

1 所示。 由假设模态法,设

图 1(a) 中,伺服电机转轴与转盘连接,柔性臂的一端通过转 (2)

盘夹头连接在电机转轴上,质量块附于另一端,基座用于固定整 式中,Wi(x) 为柔性臂在 x 处的振型函数或模态函数,qi(t)

个实验平台。图 1(b) 中,设以电机转轴中心 O 为原点建立惯性系

XOY 和体坐标系 xOy,柔性臂的弹性模量为 E,横截面对中性轴 是相应振型的幅值,称为模态坐标。

的惯性矩为 I,密度为,截面面积为 A,长度为 l,末端质量块质

量为 ml,伺服电机转轴、转盘的转动惯量之和为 J0,柔性臂运动 定义 ,根据柔性臂的四个边界条件

所对应刚体转角为 θ(t),转轴输入控制力矩为 u(t)。

假设柔性臂横向振动远大于轴向振动且横向振动较小,根据

振动力学原理,柔性臂可视为 Euler-Bernoulli 梁。设 P(X,Y) 为时

刻 t 的柔性臂上任意一点的坐标,w(x, t) 为 P 点在坐标系 xOy 下

的横向弹性振动位移,根据 Euler-Bernoulli 梁的振动理论,均匀

材料等截面柔性臂的弯曲自由振动微分方程为

第31页

45

机器人关键部件

    

式中,I 为单位矩阵, , M、D 和 K 分别表

示质量矩阵、阻尼矩阵和刚度矩阵,其具体表达式分别为

(3) ,

可得到柔性臂的频率方程 ,

其中,DH 为柔性臂关节处的结构阻尼系数,α 为柔性臂的

(4) 材料结构阻尼系数,本文取 DH=0, α=0.011。矩阵中的各参数

式中,m 为柔性臂质量。联立式 (2) 得柔性臂各阶模态函数 变量表达式为

和振动固有频率

  

(5)  

(6) 柔性臂振动抑制的新型控制策略

柔性臂振动抑制系统的总动能 T 由伺服电机转轴及转盘夹头 改进的前馈控制器结合反馈控制器构成一种新型控制策略对

的动能 T1、柔性臂的动能 T2 和末端质量块的动能 T3 三者组成

柔性臂振动进行抑制,柔性臂伺服系统的控制框图如图 2 所示。

 

(7)

 

 

柔性臂在水平面内旋转运动,其弹性势能仅由微小形变产生,即

      

(8) 图 2 柔性臂伺服系统控制框图

令 L=T-V,选取变量 ,

,根据拉格朗日动力学方程

        (9) 图 3 输入整形过程

得到柔性臂系统动力学方程 (10)

第32页

46

机器人关键部件

根据设计的最优输入整形器与控制指令卷积运算,输出结果 Shaper,OIS)的表达式为 (16)

作为伺服闭环控制系统的输入,经过模糊 PID 控制器传递给伺服   (17)

驱动器来驱动伺服电机,编码器将位置和速度信号反馈到控制器

和驱动器,整个伺服驱动控制系统完成柔性臂水平面内的旋转运 将式 (16) 进行归一化处理为

动。控制系统中,模糊 PID 控制器和最优输入整形器分别实现了     

柔性臂伺服系统的闭环控制和前馈控制。 其中:

1. 最优输入整形器设计  

输入整形技术是将一系列脉冲序列与期望输入进行卷积运 (18)

算,所生成的控制指令作为运动控制系统的输入。其中,根据系

统的振动频率和阻尼比所设计的脉冲序列称为输入整形器 (Input 假定可容许的柔性臂残留振动幅值 Vexp=5%,对残留振动

Shaper,IS),其整形过程如图 3 所示。 表达式 (12) 进行灵敏度曲线分析,典型输入整形器的脉冲作用时

刻 T1 为柔性臂系统振动周期的 1\/2 时达到零振动,而最优输入整

为研究输入整形技术,考虑典型的二阶系统传递函数 形器的脉冲作用时刻 T1 可以适当小的进行选择。

       2. 模糊 PID 控制器设计

  (11) 针对第 1 部分建立的柔性臂动力学模型,引入自适应模糊

式中,ωn、ζ 分别为系统的振动频率和阻尼比。 PID 控制器。自适应模糊 PID 控制器的原理如图 4 所示。

若作用于该系统的脉冲序列为 ,当第 n 个脉

冲作用后,系统残留振动的幅值为

(12)

其中:

(13)

(14)

式中,Ai、ti 分别为脉冲序列作用的幅值和时滞。

最简单的典型输入整形器是由两脉冲序列组成,称为零振荡

整形器,其数学表达式为 图 4 自适应模糊 PID 控制器原理

     (15) 其实现思想是:首先找出 PID 三个参数与角度偏差 e 和偏差

变化率 ec 之间的模糊关系,在运行中通过不断检测 e 和 ec,再

式中 , ,为柔性臂的阻尼固 根据预先设计好的模糊规则库,进行模糊推理运算,对 PID 参数

有频率。 的修正量(Δkp、Δki 和 Δkd)进行在线调整,以满足不同时刻偏

差和偏差变化对 PID 参数的整定要求,从而使柔性臂伺服控制系

设计输入整形器关键在于确定脉冲序列的幅值和作用时刻, 统具有良好的动态和静态性能,最终得到 PID 控制器的 3 个参数,

其中,K’p,K’i 和 K’d 为预整定值。Kp= K’p+Δkp,Ki = K’i+Δki,

以 柔 性 臂 系 统 的 动 力 学 模 型 建 立 二 次 型 目 标 函 数, 基 于 最 优 理 Kd= K’d+Δkd。

论设计出最优输入整形器,使目标函数最小。经计算,求得使柔 根据系统的输出特性,针对不同的误差 e 和误差变化率 ec,

性臂系统振动最小的最优输入整形器 [13-14](Optimal Input

第33页

47

机器人关键部件

自整定 PID 控制参数设计原则如下:

(1)当误差的绝对值 |e| 较大时,为了加快系统的响应速度,

Kp 应取较大,同时为了避免由于开始时 |e| 的瞬间变大可能出现

微分过饱和而使控制作用超出了许可范围,应取较小的 Kd,同时

为了防止系统响应出现较大的超调,通常取 Ki =0;

(2)当误差的绝对值 |e| 和误差变化率的绝对值 |ec| 处于中

等大小时,为使系统响应具有较小的超调,Kp 应取的小一些,Ki

取值要适当,这种情况 Kd 的取值对系统影响较大,取值要大小适

中,以保证系统的响应速度;

(3)当误差的绝对值 |e| 较小即接近于设定值时,为使系统

具有良好的稳态性能,应增大 Kp 和 Ki 的取值,同时为避免在设

定值附近出现振荡,并考虑系统的抗干扰性能,Kd 的取值很重要,

一般当 |ec| 较小时,Kd 可取得大一些,当 |ec| 较大时,Kd 应取

得小一些。

根据前人的经验,分析 PID 三个控制参数与 e、ec 之间的模

糊关系,建立针对 PID 控制参数 Kp、Ki、Kd 的模糊规则分别如

表 1~ 表 3 所示。

本控制系统的误差为伺服电机转角误差,角度误差和角度误

差变化率经三角形隶属度函数进行模糊化处理,根据设定的模糊

规则表,采用最大最小模糊推理,得到模糊输出量,最后运用加

权平均法解模糊化,得到在输出论域范围内的精确输出量,实现

模糊 PID 控制器参数自整定。

仿真分析与实验研究

本文研究的柔性臂结构参数为:密度为 7800kg\/m3,弹性

模量 E 为 210Gpa,长度 l 为 0.22m,截面高度 h 为 0.001,截面

宽度 b 为 0.008 m,质量块质量 ml 为 0.037 kg。对柔性臂的振

动模态进行分析,在运动过程中,柔性臂的前一阶模态占主导地位。

取前一阶模态即 N=1,根据动力学状态空间方程表达式 (10) 及相

应的代数式可计算出转矩输入为 u,末端角度输出为 y 的旋转柔性

臂动力学方程

 

(19)

    

第34页

48

机器人关键部件

(20) 图 5 柔性臂的角位移命令

为验证本文提出的新型控制策略有效性,构建了柔性臂伺服 图 6 柔性臂的角位移跟踪

控制系统的 MATLAB 仿真模型,设计了如表 4 的 3 种控制方案进 图 7 柔性臂末端弹性振动位移

行对比研究。 图 8 柔性臂末端弹性振动速度

柔性臂在水平面内进行 90°旋转点位运动,通过式 (6) 得到

一阶模态下的频率为 1.576 4 Hz,选取最优输入整形器的时滞

T1=0.058 s,代入式 (18) 得最优输入整形器的脉冲幅值和时滞

(21)

为比较最优输入整形器与典型输入整形器对柔性臂振动抑制

效果,根据式 (15) 设计典型输入整形器的脉冲幅值和时滞

(22)

未加输入整形器时,系统给定指令从零时刻开始,加入输入

整形器后,输入指令作用时间会延迟,且最优输入整形器的时滞

小于典型输入整形器的时滞,柔性臂的控制输入指令如图 5 所示。

未加输入整形器时,系统末端振动需要一段时间才能停止,

且角位移大,加入输入整形器后,残留振动很快得到抑制,与典

型输入整形器相比较,最优输入整形器缩短了系统的响应延迟时

间,柔性臂的角位移跟踪响应如图 6 所示。

未加输入整形器时,柔性臂末端弹性振动经过 4s 左右才消失,

最优输入整形器的加入使系统在 2s 内抑制末端残留振动,且振幅

小于 10 mm,柔性臂末端弹性振动位移如图 7 所示。

与采用模糊 PID 控制器相比,结合最优输入整形器和模糊

PID 控制器的柔性臂控制系统的末端弹性振幅减少了 46 %。

与采用典型输入整形器相比,基于最优输入整形器的柔性臂

末端弹性振动速度在 1s 内趋近于零,且响应时间缩短 66.7 %,

柔性臂末端弹性振动速度的快慢响应如图 8 所示。

仿真结果表明,与自适应模糊 PID 控制器的柔性臂振动抑制

系统相比,输入整形器的引入抑制了柔性臂的振动,且最优输入

整形器缩短了典型整形器带来的延迟时间。

柔 性 臂 振 动 抑 制 的 实 验 平 台 硬 件 部 分 包 括 PC 机、 固 高

GT400-SV 运动控制卡、柔性臂、伺服电机、伺服驱动器、示波

器以及带激光头的高速测振仪 Polytec-OFV5000;软件设计部分

是在 VC++6.0 环境下对柔性臂的运动轨迹进行规划,如图 9 所示。

第35页

49

机器人关键部件

图 9 柔性臂振动抑制的实验平台 图 10 基于 Fuzzy-PID 控制的柔性臂末端振动位移

图 11 基于 Fuzzy-PID 和 IS 控制的柔性臂末端振动位移

柔性臂在水平面上进行 90 °的旋转点位运动,用激光测振仪 图 12 基于 Fuzzy-PID 和 OIS 控制的柔性臂末端振动位移

测量柔性臂末端的振动情况,输出量在示波器上显示,输出单位

为 200 μm\/v,对如表 4 的 3 种控制方案进行实验研究,测量结

果如图 10-12 所示。

从 图 10-12 所 示 的 实 验 结 果 可 知, 设 定 末 端 振 动 位 移

0.12mm 为最终稳定标定幅值。由于激光测振仪对大幅度的位

移无法检测,所以图 10 所示的前部分柔性臂振动位移为限幅值

4mm,基于模糊 PID 控制的柔性臂末端振动位移到达标定值的时

间为 5.25s;图 11 表示基于模糊 PID 和典型输入整形器的末端振

动状况,经过 1.78s 后末端位移达到 0.12mm;图 12 中表示加入

最优输入整形器后柔性臂末端振动位移量,其到达标定幅值的时

间为 0.26s。

结论

针对柔性臂末端振动抑制存在响应时间延迟的问题,采用模

糊 PID 控制器作为反馈控制器建立了柔性臂的角度控制器,并将

设计的最优输入整形器作为前馈控制器,前馈控制结合反馈控制

构建了柔性臂的振动抑制系统。研究结果表明,最优输入整形器

与模糊 PID 控制器相结合的新型控制策略能更好地抑制柔性臂末

端的振动,减少系统的时间延迟,加快系统响应速度。

第36页

50

机器人技术与应用

基于五自由度并联机器人的

自动抛光机床研究

抛光是零件加工的最后一个环节,材料去除量很少,抛光有电化学抛光、磁流变抛光、等离子抛光、超声波研磨抛光和机

械抛光等,而机械抛光的效率最高且可控性好,本文提出基于并联机器人技术的自动抛光机床系统设计方案并研制样机,

进行了抛光实验。

文 \/ 哈尔滨工业大学深圳研究生院 王颖 林伟阳

本文提出基于并联机器人技术的自动抛光机床系统设 并联抛光机床系统方案设计

计方案,系统地研究新型自由曲面抛光机床的机构综合、

工作空间分析、运动学动力学性能计算和分析等工作,设 自由曲面零件她光任务要求执行机构至少具备 3 个移

计和研制基于并联机器人的自动抛光机床,并对并联抛光 动和 2 个转动的运动自由度。目前绝大部分的自动抛光设

机床进行抛光实验和性能评定。研究内容主要包括以下几 备都是基于串联机构设计的,虽然串联机构的灵活工作空

个方面:从复杂自由曲面抛光任务要求出发,提出能够实 间大,但由于串联机构开环特性产生的载荷和误差累加性,

现自由曲面恒力抛光的自动抛光机床系统方案;合理的运 导致自由度越多其末端平台的误差累积性越严重,其需要

动支链布局方式避免了单运动支链的集中受力问题;在运 增加串联机构体积和质量,以足够好的刚度来保证末端执

行平台的精度。开环串联机构的大惯量和弱刚度,使得基

动学分析的基础上,结合凯恩方程和矢量方法建立并 于串联机构的自由曲面抛光动态特性较差。

联机构逆动力学模型;最后,研制并联自动抛光机床样机,

对自由曲面零件进行恒力抛光实验,抛光精度能达到 11 级 为了克服基于传统串联机构的自由曲面抛光系统的载

抛光粗糙度。 荷和误差累加特性,提出基于并联机构的自动抛光系统整

体方案,并联抛光机床包括丁 3 R2 运动类型的大转角空间

综上所述,为了使机器人示教系统具有很好的自适应 新型并联机构、数控转台和安装在动平台上的具有力反馈

性及鲁棒性,即机器人能按照示教动作,在不同起始点上 的直线抛光移动平台,实现大零件自由曲面解耦抛光任务。

仍按照示教的轨迹回到终点位置,使得机器人具有一定的

智能性及自学习能力,并针对上述算法的缺点,本文选用 并联抛光机床的机械本体部分主要由五自由度并联机

教学研究型机器人 NAO 为实验平台,采用扳动其手臂关 构、旋转数控工作台和具有力反馈的直线运动平台组成。

节的方式进行示教,同时构建了以极限学习机为核心算法 图 1 是并联抛光机床的内部结构图。图 2 是动平台的结构图,

的机器人示教系统,并通过实验验证了该算法能使系统具 其中在并联移动平台和抛光主轴中间安装了一个力传感器

有一定的泛化能力。 和直线电机,力传感器和直线电机是用于在抛光过程中实

现抛光力控制,以保证自由曲面的抛光精度。(如图 1,2)

第37页

51

机器人技术与应用

图 1 并联抛光机床的内部结构图 (3) 力反馈直线运动平台并联机构动平台上的直线运动

平台由直线驱动电机、抛光主轴及连接直线电机动子和抛

图 2 动平台的局部图 光主轴之间的力传感器组成。对于抛光任务,抛光力的控

制在整个抛光过程中是至关重要的,此方案的直线运动平

(1) 五自由度并联机构五自由度并联机构是具有 3 个 台,利用力传感器向控制系统反馈抛光过程中抛光力信息,

移动和 2 个转动运动自由度的纯并联机构,并联机构五个 结合高分辨率和高动态特性的直线电机,根据实时的力反

支链的驱动方式均采用中空电机驱动丝杆的方式,这种先 馈信息调整抛光主轴的位置,实现对抛光过程中的恒抛光

进的驱动方式可以大大地提高支链的驱动长度,从而增大 力控制。

并联机器人的运动空间。支链与运动平台相连接的万向节

运动副采用的是羊角形式的运动副类型,羊角形式的万向 (4) 系统控制部分并联抛光机床控制系统由控制 7 个

节能够进行大范围的转动,特殊关节设计大大提高了并联 伺服驱动电机的德国 PowerAutomation 实时 CNC 控制

机构运动平台转动自由度的运动范围。 系统、基于 F PGA 的绝对值关节测量系统和力传感器采集

系统组成,其中 CNC 系统开放了软 PLC 功能,让用户实

(2) 旋转数控工作台新型的并联机构的三个空间移动自 现数控系统的 10 逻辑编程,同时开放了 CompileCycle 接

由度和一个俯仰旋转自由度的运动范围都很大,而另一个 口,可以让用户用 C\/C++ 进行运动轨迹控制等算法的编写。

左右摆角自由度的运动范围较小,为了扩大该并联机构的 关节角度测量系统为系统控制提供冗余的反馈信息,而力

加工范围,在静平台上冗余了一个用于卡紧零件的数控转 传感器采集系统为抛光力控制提供反馈数据。

台。新型并联机器人配合数控转台,可实现工件的五面加工,

数控转台不仅能够扩大零件加工空间的能力,同时还能实 自由曲面抛光并联机构

现并联机器人避奇异的轨迹规划。

并联抛光机构是由一个 4URHU-1URHR 运动支链组

成的纯并联机构和一个冗余直线运动平台组成的。图 3 是

新型并联抛光机床的方案图,并联抛光机床的纯并联部分

是由动平台,机床床身和五个运动支链组成。为了实现抛

光过程中抛光力的控制,并联抛光机床中引入了直线伺服

电机,直线伺服电机带动安装有抛光工具的电主轴来进行

抛光力调节。另外,在机床床身上安装了数控转台。

图 3 并联抛光机床机构组成

第38页

52

机器人技术与应用

图 4 是并联抛光机床结构示意图,并联机床由五个 全局坐标下动平台速度和加速度过程中,中央支链的各关

运 动 支 链 组 成, 其 中 中 央 运 动 支 链 L1 的 运 动 副 分 布 为 节转角变量 θ11θ12θ13θ14θ15 被当作中间变量,用于简化动

URHR,即由一个万向节副 U,电机动子旋转副 R,螺旋 平台速度和加速度与广义变量之间的关系。可以得到如下

副 H 和一个连接动平台的转动副 R 组成的,它是一个五自 方程(1):

由度的运动支链,三个移动和两个转动自由度 ; 其他四个

相同的运动支链 Li(i=2,3,4,5) 的运动副分布为 URHU,它 图 5 并联机构中央支链与分支链(i=1,2,3,4,5)

们和中央支链 L1 不同在于,它们是通过万向节副 U 与动

平台相连接的,它们是六自由度的运动支链。根据螺旋理

论的自由度线性相关理论,并联机床动平台的自由度和中

央支链的运动自由度一致,即并联机构的运动自由度是 T3

R2 三移动两转动无在并联抛光机构的末端安装了具有力反

馈的直线移动平台,实现抛光力的解耦控制。

(1)

图 4 并联抛光机床机构简图 根据以上几何关系进行计算,建立了并联机构的逆解

五自由度并联机构的运动模型 运动学模型,进行机构各刚体构件的速度和加速度分析,

如图 5 所示,P 表示中央支链 L。在动平台上旋转副 在运动学分析的基础上,应用高效的凯恩方程建立并联抛

R 的中心点,设其在全局坐标系下的坐标为 xp,yp,zp;θ 表

示中央支链 L1 丝杠绕 e14 方向的轴旋转角;φ 表示动平台 光机构刚体逆动力学模型,将动力学方程转化为控制状态

绕 e15 方向的旋转角度。抛光系统纯并联部分的中央支链

比其他四个支链少了一个旋转自由度,为了统一中央支链 方程,并将控制状态方程运用于并联机构运动轨迹跟踪控

和其他四个支链的运动学和动力学公式推导,对中央支链

增加一个虚拟的转动副 R,并令 θ16=0。对于任务空间, 制, 综 合 高 效 的 计 算 力 矩 法、 最 优 控制和

选择 x xp,yp,zp,θ 和 φ 为并联机构的广义变量。

鲁棒控制的各自优点,将建立的基于计算力矩法的 混合方

用 Bij 表示第 i 个支链中第 j 个刚体,其中 Bi1 代表万

向节的第一个旋转刚体;Bi2 表示中空电机定子;Bi3 表示 法应用于并联机构的逆解动力学运动轨迹跟踪控制,以实

中空电机的转子;Bi4 代表滚珠丝杠;而 Bi5 表示羊角万向

节部件,当 i=1 时,即 B15 代表动平台。用广义坐标描述 现高速高精度的并联机构轨迹控制算法。

恒力抛光的力反馈控制方案

为了实现恒抛光力控制,在并联机床动平台上安装了

配有高分辨率光栅的伺服直线电机,同时在抛光工具和直

线电机动子之间安装了三维力传感器,如图 6 所示。通过

第39页

53

机器人技术与应用

三维力传感器的力反馈利用直线电机调整抛光工具的位置, 并联抛光机床抛光实验

从而实现抛光工具的恒力抛光控制。由于动子和抛光工具

固连平台的总体质量比较大,因此在动子和运动平台之间 应 用 并 联 抛 光 机 床 对 自 由 曲 面 零 件 进 行 抛 光 实 验,

添加了一个弹簧,以平衡动子及其固连平台的重力,减小 将零件自由曲面的离散点和离散点法向矢量数据保存为文

直线电机的静态驱动电流。 件,导入到用 Matlab 开发的分形路径生成模块中,生成

Hilbert 分形轨迹曲线,再将由 Matlab 产生的分形轨迹曲

图 6 恒力抛光动平台结构 线文件导入到并联抛光机床仿真软件中,得到自由曲面上

的 Hilbert 分形轨迹。并联抛光机床仿真软件将自动根据

图 7 是并联抛光机床移动平台的模型简图,其中动子 输入的数据计算最优任务灵活度的自由曲面抛光轨迹,并

平台由弹簧连接到并联移动平台上。并联移动平台和重力 自动生成如下的 G 代码数据文件。

方向的夹角为 a,设动子和动力平台的质量为 m。,抛光

工具及保持架的总质量为 m,弹簧的刚度为 k,阻尼为 c。 图 8-a 是只经过抛光布进行杂质处理,但没有经过并

动子平台受到弹簧力和阻尼力分别为 fk 和 fc,抛光过程中 联抛光机床抛光的零件表面部分的粗糙度检测结果,其粗

抛光工具受到的抛光压力和抛光力矩分别为 ft 和 mt,传 糙度 Ra= 0.1735μm,轮廓最大高度 Rz=0.3839μm,该

感器受到的内力为 Fs,其可以通过力传感器本身测量得到 精度为粗糙度 9 级精度。图 8-b 是经过并联抛光机床抛光

的。 的零件表面部分的粗糙度检测结果,其粗糙度 Ra=0.0431

μm,轮廓最大高度 Rz= 0.1194μm,该精度为粗糙度 11

级精度。由此可以看见,经过并联抛光机床的分形轨迹抛

光工艺和恒力抛光加工后,能将经过抛光布抛抛光后零件

表面粗糙度从 9 级提高到 11 级精度。

从抛光实验的效果可以说明,本文提出自动抛光系统

应用新型并联抛光机构实现抛光移动平台的位置执行装置,

使用具有抛光力反馈的恒力抛光平台对自由曲面零件进行

抛光,高刚度的并联机构和解耦的恒力抛光平台能够实现

自由曲面的高精度抛光加工。

a. 抛光前效果 b. 抛光后效果

图 8 并联抛光机床实验样件

图 7 并联抛光机床移动平台受力分析

第40页

54

机器人技术与应用

手机 3D 曲面玻璃表面

处理解决方案

文 \/ 深圳市泰达机器人有限公司

尽管 iphone8 还没有问世,但新机型选用 3D 曲面玻璃作为盖板和背板,已经是件比较确定的事情了。

苹果对 3D 曲面玻璃的选择,一定程度上也将引领手机机身的科技发展。

图 1 已上市的部分 3D 玻璃手机

目前出售的智能手机多在使用铝制机身,3D 玻璃为 也配合做成 曲面的形状以增加盖板与 OLED 之间的贴合

什么会成为手机的新宠呢?一般认为,玻璃具有闪、透、亮、 度。而相比陶瓷而言,玻璃因其加工成形性更优而最早被

炫等特色,加之弧形边缘的触控功能,都将大大的提升消 选为金属的替代材料。

费者的握感体验。(如图 1)

3D 玻璃盖板市场需求增长迅猛目前市场上主要有三

除 了 3D 玻 璃 自 身 的 优 点 之 外,5G、 无 线 充 电 及 款 3D 玻璃盖板手机,包括三星 GALAXYS6edge,S7,

OLED 等相关技术的发展与成熟也促使了 3D 曲面玻璃的 vivoxplay5。预计未来还会有更多的手机厂商选择柔性显

应用成为未来的趋势,具体分析如下: 示屏,3D 玻璃盖板需求一触即发。

1.随着 5G 等新通讯技术的使用临近,无线频段越来 3D 玻璃盖板市场规模快速扩大,在 3D 玻璃盖板市

越复杂,金属机壳屏蔽成为重大瓶颈,背板材料需要更换 场规模方面,2016 年,国内配备 3D 玻璃盖板的手机约占

成玻璃、陶瓷等非金属材料; 智能手机的比例为 4%,预计 3D 玻璃盖板的市场规模约为

17 亿元。2018 年将成为 3D 盖板的爆发年预计到 2020 年,

2.无线充电技术的应用需要非金属背板,因为金属 3D 玻璃盖板手机渗透率将超过 54%,随着 3D 玻璃盖板

背板的屏蔽效果同样制约了无线充电技术的应用,而以往 加工技术的成熟,3D 单价会逐年下降,导致渗透率快速提

使用的塑料背板因容易发热老化的缺陷并不适宜,从材料 升,但市场规模增长缓慢,到 2020 年约为 192 亿元。

角度来看,玻璃和陶瓷为首选;

3.新一代的手机将采用 OLED 屏幕,这就需要盖板

第41页

55

机器人技术与应用

喷涂技术的机会 图 3 喷涂技术在 3D 曲面玻璃制成后处理的应用优势

现在用 3D 玻璃去做,传统工艺就会出现问题,这就 占了 3 比 7,只有 30% 是曲面 3D 的,有更多的是平面的,

为喷涂技术带来机会,它主要用于在 3D 曲面玻璃制成后 所以这种技术只是解决了市场上有跟没有,但是不可能做

处理这方面提供服务。(如图 2) 大批量生产的。

图 2 喷涂在 3D 曲面玻璃制成后处理的创新应用 3D 玻璃机器人喷涂工作站 FlexPainter

传统工艺用现在的喷涂工艺取代后的比较优势。(如 针对用 3D 玻璃在手机行业的应用带来的最新工艺需

图 3) 求,泰达机器人专门定向研发出面向 3D 玻璃机器人喷涂

工作站 FlexPainter,这是一套针对 3D 手机盖板玻璃的油

以 3D 玻璃内外表面处理为例,用 3D 玻璃去做的话 漆、油墨、光阻油墨、AF(防指纹油)、AG(防眩光)等

传统的工业就会出现问题,传统的工艺是用平面印刷去做 涂料的精细喷涂设备。主要在数字化、智能化、网络化等

的,但是 3D 玻璃的话平面印刷是没办法做的,那只能想 方面进行创新。具体分析如下。(如图 4)

办法用其他方法来解决,最早的三星是用真空镀膜的方式

来去做的。但是镀膜的话也有两个问题,一个镀膜速度慢, 图 4 FlexPainter 外观图

一个成本太高,这两个都不符合整个大批量生产的需求。

1.FlexPainter 技术特点:

就像三星最早推出 3D 玻璃的这个镀膜工艺,但是实 (1) 超 高 精 度 六 轴 机 器 人: 重 复 定 位 精 度 0.02

际上来讲同一款手机像 S5 平面和 3D 的出货量的话大概只

mm;

(2)PLASMA 机器人氮旋喷技术:3D 曲面仿形,

低温等离子,磁悬浮喷头结构;

(3)超精细 3CNANO 氮喷技术:氮纳米雾化技术,

第42页

56

机器人技术与应用

<10cc\/min 精细流量,3-15 微米雾化粒子;

(4)超精密 PisFlo 微计量技术:闭环流量监控,双

行程精密计量输送系统,MIN 3ml\/min 微米流量;

(5)压力式涂料输送系统:氮气加压,真空脱泡,

快捷更换涂料、清洗简单。(如图 5,6)

图 5 FlexPainter01-03 模块 图 7 测试数据

图 6 烘烤技术特点 3D 玻璃盖板市场规模快速扩大,在 3D 玻璃盖板市

场规模方面,2016 年,国内配备 3D 玻璃盖板的手机约占

2. 工艺水平: 智能手机的比例为 4%,预计 3D 玻璃盖板的市场规模约为

泰达经过多个客户的现场测试,工艺参数均达到客户 17 亿元。2018 年将成为 3D 盖板的爆发年预计到 2020 年,

3D 玻璃盖板手机渗透率将超过 54%,随着 3D 玻璃盖板

需求水平,特别是喷涂的核心工艺。(如图 7) 加工技术的成熟,3D 单价会逐年下降,导致渗透率快速提

升,但市场规模增长缓慢,到 2020 年约为 192 亿元。

应用展望

自 2001 年以来,深圳市泰达机器人有限公司为客户

随着 3D 玻璃市场需求量的爆发,3D 曲面玻璃产业链 提供专业的喷涂自动化整体解决方案,现已经成为中国最

亦会飞速完善,加工产业也势必大有可为。FlexPainter 不 具专业技术的工业表面处理领域系统集成商和自主品牌的

仅可以用在手机行业,同时也可以拓展至 3C 行业、航天 设备提供商。公司业务遍布于轨道交通,航空航天,海事

航空、医疗器材、视觉行业,帮助企业降低用工成本,改 装备,汽车及汽车零部件,重工,军工,3c,家具,五金

进产品质量。 等行业。公司拥有二十多项国家专利技术,被评为国家高

新技术企业,在流体控制技术、力觉控制技术、视觉控制

技术、模拟仿真技术、自动编程技术、远程诊断技术等建

立了处于领先地位的核心技术体系。特别是在泰达机器人

的流体控制已经实现了对范围在每分钟 0.2cc-2000cc 流量

流体的精准闭环控制,致力于以深厚的工艺积累提供绿色

环保的喷涂服务,标本兼治,为客户和社会创造长久的价值。

第43页

57

机器人技术与应用

安保机器人

技术发展与应用前景

文 \/ 中智科创机器人有限公司 梅涛 杨春丽 陈剑 陈宏炬 李雁晖

安全防范是面向社会、企业、家庭和个人预防和制止盗窃、抢

劫、爆炸、火灾等安全事件的活动,安保产业对于维护公共安

全具有极其重要的作用。

“十二五”期间我国安保行业发展迅速,市场规模从 同特点。因此大量聘用协警已经成为常态,目前约有 150

2011 年的 2800 亿元增长到 2016 年的 5400 亿元。以视 万名协警,与警察数量相当。其中相当数量的协警布局在

频监控、入侵报警为核心的“技防”系统已经遍布大街小巷, 路面巡防,如苏州市的协警 60% 在路面巡防。协警的待遇

现有安保企业 3 万多家,为平安城市建设作出了重要贡献。 差,流动性极大,有的县年流动率高达 20-30%。

以保安站岗、巡逻为特征的“人防”手段已经进入各个小区、

厂区和园区,现有 450 多万保安员,是看家护院的主力军。 因此需要发展新的技术手段来弥补传统技防和人防的

不足。以移动机器人为平台,搭载安全监控设备和现场警

然而,传统的技防系统存在以下不足:1、视频监控 示与处置装置,与现有的安保监控系统结合能够发展出基

系统均为固定安装,存在死区,容易被破坏或躲避;2、 于安保机器人的动态安保服务运营体系。从而实现全方位、

传统的巡更系统技术陈旧,安装繁杂,维护成本高;3、 多参数智能监控,同时具备抵近侦查和现场处置能力,大

发生警情时不能及时进行现场处置,阻止犯罪和警情扩大 幅度提高处警能力,提升全社会安保能力。

作用有限。传统的人防措施存在以下缺陷:1、存在思想

麻痹、玩忽职守、监守自盗等隐患,巡检工作不易实时监 从市场销售来看,安保机器人目前尚处于市场培育阶

督;2、防盗值班和在危险环境巡逻时人身安全风险高;3、 段。2013 年全球销售额约合为 2.2 亿人民币,主要是小批

保安人员招聘难、文化层次低、流动性大,带来管理隐患。 量销售和样机试用。中国仅在变电站巡检机器人方面形成

据统计,50% 以上的危险品仓库事故是由于人工管理疏漏 了批量销售。从市场竞争上看,目前行业龙头企业尚未形成,

造成的。 为众多进入者提供了均等的机会,优势企业的发展空间巨

大。从市场需求上看,安保机器人具有广阔的发展前景。

另一方面我国内地的警力严重不足,目前仅占人口比 根据我们初步的市场调研和分析,我国安保机器人的总需

例的 0.12%,而发达国家警察占人口 0.3%,香港则达到 求量将达到百万台,市场容量超过千亿元。

0.4%,警力严重不足无疑已成我国基层公安队伍的一个共

第44页

58

机器人技术与应用

产品现状

目前国内外已经有数十家机器人

和安保领域的企业陆续开展了安保机

器人的产品研发和应用,其中美国具

有明显的技术和市场优势。早在 1999 a. MDARS 机器人 b.SMP 机器人 c.K5 机器人 d.T34 机器人

图 1 国外典型的安保机器人

年 美 国 的 Cybermotion 公 司 就 与 美

国陆军签订了一项为期 7 年的合同,

生 产 25 个 系 统 100 台 MDARS-I 机

器人(图 1a),用于美国 18 个不同

的军用仓库中。MDARS-I 的最低速度

为 3 公里 \/ 时,一次充电可连续工作 a. 电站巡检机器人 b. 国自巡检机器人 c. 民航巡逻机器人 d. 新松巡检机器人

8 小时,能够在 360 度范围内发现 10

米远的物体,可以通过无线局域网络

与控制站的通信。机器人装有入侵者

探测用的微波雷达、热成像仪、声音

传感器、CCD 摄像机、红外照明器和 a. 守护神一号 b.AnBot 机器人 c.SPR 安保巡逻机器人 d.SSR 安保服务机器

图 2 国内主要的安保机器人

旋转及倾斜平台,还有超声波传感器

及导航传感器等。可发现烟、火及入侵者,并可确定所存

物品的状况及位置,发现问题及时发出警报。美国旧金山 在变电站巡检方面发展迅速,已经得到一定规模的应用。

2002 年国家电网公司电力机器人技术实验室在国家“863

的 SMP 公司与硅谷创新中心合作开发了 S5 巡逻机器人(图 计划”的支持下,研制出第一代变电站设备巡检机器人。

该机器人携带可见光摄像机和红外热像仪等传感器,沿一

1b),该机器人具有自主巡逻、自动避障、全景视频监控 条闭合磁轨迹单向巡视,能够进行仪表读数和发现监测设

备过热等异常现象。并于 2010 年研发出第四代巡检机器

系统、PTZ 自动跟踪拍摄、低噪音电机驱动等功能,目前 人(图 2a),系统性能和可靠性显著提高。浙江国自机器

人公司开发的智能巡检机器人(图 2b)具有类似功能,已

已在迪拜运用。成立于 2013 年 4 月的美国 Knightscope 经实现小批量销售。沈阳新松机器人公司通过在其原有的

AGV(自动引导小车)上安装视频监控系统研制出智能巡

公司通过融合音视频、室外定位、避障等传感器技术、物 检机器人(图 2c)。

联网技术、大数据技术,开发出可以在公共场所采集数据 2006 年 6 月 中 国 民 航 地 面 特 种 设 备 研 究 基 地 机 器

人研究所研制出安保巡逻机器人(图 2d),并被评选为

和执行任务的安全警卫机器人 K5(图 1c)。该机器人已 2006 年度安保领域创新产品。该机器人可以实现自主环境

探测、自主避障导航及自主充电功能,能够按照工作人员

经佩戴警徽上路巡逻,按每小时收费 6.25 美元的租赁模式 的具体要求在非人工干预的情况下自主完成固定线路巡逻、

随机线路巡逻及重点部位察看任务,具有全方位视觉的处

运营。2015 年我国的安保企业东方网力公司通过其香港子 理判断能力,以及视觉及双向语音信息的远程传输与监控,

可检测环境烟雾及火灾情况并进行异常情况报警。广州尚

公司以 500 万美元入股 Knightscope 公司,获得 5.98%

股权。

日本 Tmsuk 机器人公司与 Alacom 安保公司于 2009

年合作开发了 T-34 安保机器人(图 1d)。该机器人最高

时速 10 公里,配备有探测装置,可根据人体温度和声音侦

察周围情况,并将相应图像实时地显示于手机屏幕。用于

商场、楼宇的安保巡逻,发现可疑人员后,它可在主人的

遥控指挥下,朝可疑人员喷撒一张蜘蛛网式的大网。

我国在安保机器人方面的研究比国外起步略晚,但是

第45页

59

机器人技术与应用

云公司在 2015 年安博会期间推出了“守护神一号”智能 安全保护 '+' 安全监测 '+' 防护 '+' 防卫 '+' 安检 '+' 巡检 '+'

巡逻机器人(图 2e)。国防科技大学于 2016 年 4 月推出 巡逻 '+' 侦测 '+' 侦查 '+' 预警 '+' 报警 '+' 看家 '+' 监控 '+'

了“AnBot”智能安保服务机器人(图 2f),该机器人集 替身 '+' 反恐 '+' 军用 '+' 除暴 '+' 排爆 '+' 拆弹 '+' 消防 '+'

成了地图同步构建及定位、动态路径规划、深度学习智能 救援 '+' 救灾 '+' 搜救 '+' 营救 ')*' 机器人

大脑、视频智能分析等先进技术,具有自主巡逻、智能监

控探测、声光报警、身份识别、自主充电等多种功能。并 外文文献和专利检索式 :TS=(\"security\"or\"inspectio

在机器人身上配备的带电防暴叉,终端操控人员可通过远 n\"or\"detection\"or\"monitor\"or\"surveillance\"or\"warnin

程遥控,对犯罪嫌疑人进行威慑或将其制服。 g\"or\"substitute\"or\"patrol\"or\"bomb-disposal\"or\"anti-

terrorism\"or\"explosive-handling\"or\"explosive

中国安防技术有限公司(CSST)是一家专业从事安全 ordnance disposal\"or\"firefighting\"or\"fire-

防范和平安城市建设运营的综合型企业,于 2012 年开始 fighting\"or\"fire fighting\"or\"military\"or\"rescue\")AND

与香港中文大学徐扬生院士的机器人研究团队开展合作, TS=(\"robot\"or\"robots\"or\"robotics\")

面向安保领域研发了地面巡逻、水上巡逻、危险救援、替

身等多种机器人。2015 年该公司以机器人研究院为核心组 时间范围:1985 年至 2016 年

建了中智科创机器人有限公司,并于年底正式推出了两款 2. 科技文献

安保机器人产品,适用于室外的 SPR 系列安保巡逻机器人

(图 2g)和适用于室内的 SSR 系列安保服务机器人(图 图 3 1985-2016 年中文和外文文献年度发文趋势

2h)。这两款机器人集成了国内外安保机器人的多项优点,

并结合该公司长期从事安保业务的优势,在机器人的环境 (1)发文情况

适应性、使用方便性、应用有效性方面突破了一系列的关 采 用 本 文 的 检 索 方 式 对 1985 年 至 2016 年 中 文 和

键技术,目前已经实现了批量销售。 外文文献进行数据检索,共得到的文献量分别为 6136 和

17043 篇。根据检索结果可知,国际上安保机器人研究从

科技情报分析 1991 起步,1996 年起有明显的发展,2004 年进入成长

期后发展迅速,目前远未达到饱和期和衰退期,创新潜力

科技文献和专利是最大的技术信息来源之一,是技术 巨大;中国的安保机器人研究起步比国外晚 10 年,但是后

创新的表达形式,具有前沿性和时效性,通过科技文献和

专利信息研究分析可以合理分析一个行业技术发展的现状、 图 4 1985-2016 年外文文献前五名国家年发文趋势

预测行业技术发展的动向。本文通过文献计量学研究方法,

分别对安保机器人中文和外文的核心学术论文与专利的产

出结果,进行了分析讨论,提出了在安保机器人研究领域

的研究热点和方向,分析了我国安保机器人发展的机遇与

挑战,为安保机器人产业发展提供了参考。

1. 数据信息

数据来源

科技文献:WEB OF SCIENCE 和 CNKI 数据库

中 国 专 利: 智 慧 芽 专 利 信 息 分 析 平 台(http:\/\/

passport.patsnap.cn\/)

国际专利:德温特专利数据库(DII)

检索式 : 中文文献和专利检索式 : (' 安保 '+' 安保 '+'

第46页

60

机器人技术与应用

续发展迅猛,中国人发表的外文论文数量 2007 年超过了 在安保机器人研究中移动系统、控制系统、视觉系统、导

日本,2014 年超过美国成为世界第一大论文产出国;美国、 航系统、检测系统、救援系统及传感器系统等关键词所涉

中国、日本、德国和韩国的总发文量较多,其在安保机器 及的研究方向是国内外安保机器人领域学者研究的重点,

人理论和技术方面的研发实力雄厚,其中,美国在发表论 同时也表明了这些领域是安保机器人研究中重点考虑的技

文总数方面处于领先地位,主要在大学研究,前瞻性较强, 术研究方向。

在基础研究领域优势明显。 3 专利分析

(2)关键词分析 (1)专利申请

本文利用文献计量学词频分析法,采用 CiteSpace 软 通过对 DII 专利数据库和智慧芽数据库进行检索,

件对与安保机器人相关的中外文学术论文和文献进行分析。 共检索到与安保机器人研究相关的专利分别为 19397 和

关 键 词 分 析 是 学 术 期 刊 评 价 的 重 要 指 标, 用 来 分 析 学 术 32720 件(检索时间为 1985-2016 年),由图 5 可以看出,

研究的热点,揭示研究内容之前的内部联系。本文选择对 安保机器人专利申请量整体持快速增长态势,说明了安保

2010 年至 2016 年安保机器人中外文献的关键词进行分析, 机器人技术生命周期尚处于技术发展期,未来发展存在巨

其中,2010 年至 2016 年共检索到中文和外文的文献总量 大前景。在 20 世纪 90 年代末,国内安保机器人专利申请

分别为 4100 和 9677 篇,通过关键词词频统计,确定安保 量快速增加。近年来,国内对专利保护的重视度也逐渐增强。

机器人领域的研究方向。运行 CiteSpace 软件,将具有相 其中,国内专利申请类型中,发明、实用新型和外观专利

同意义的关键词合并,按照关键词词频进行降序排列,得 的占比分别为 74%、25% 和 1%,创新能力潜力巨大。

到排名前 15 的高频关键词表(见表 1.1)。

统计显示,在外文文献中,关键词词频较高的为:安 图 5 1985-2016 年国内和国际安保机器人年度专利申请趋势

保机器人移动、系统、视觉、检测、网络、导航 \/ 自主导航、

巡检、设计、定位 \/ 即时定位等。在中文文献中,控制系统、 (2)申请人排序

巡检、救援、视觉、监控系统、目标跟踪、移动、路径规 根据统计分析得出 2010 年至 2016 年间国内和国际

划、目标检测等词出现的频次较高。如果某一个关键词在 专利申请人排名,从国际专利权人的申请量可知,日本在

安保机器人领域文献中出现的频次较高,那么该关键词所 专利申请方面遥遥领先,主要在大企业研发,实用性较强,

表征的研究主题是安保机器人领域的研究前沿。由此可知, 明显处于技术竞争的优势地位。

由我国专利的申请情况可知,我国安保机器人专利产

出单位除了国家电网公司和山东鲁能公司,大部分还是集

中在高校科研院所,我国安保机器人领域的产业化还有待

于进一步推进。中国安防拥有安保机器人相关专利 189 项。

安保机器人具有抵近侦察和主动介入的能力,将给安

保行业带来新的发展机遇,推动动静结合的智能安保服务

体系建设,市场潜力巨大。

第47页

61

智能系统

智能机器人

及其关键技术分析

文 \/ 深圳市优必选科技有限公司

深圳市优必选科技有限公司是一家集人工智能和人形机器人研发、平台软件开发运用及产品销售为一体的全球性高科技企

业。2008 年,优必选从人形机器人的核心源动力伺服舵机研发起步,逐步推出了消费级人形机器人、商用服务人形机器人

和 Jimu 系列品牌机器人,并成功入驻全球部分 Apple Store 零售店。2017 年,优必选与清华大学成立智能服务机器人联

合实验室,与悉尼大学成立人工智能研究院,在人形机器人驱动伺服、步态运动控制算法、机器视觉、语音 \/ 语义理解、情

感识别、U-SLAM(即时定位与地图构建)等领域深度布局,积极打造“硬件 + 软件 + 服务 + 内容”机器人生态圈,致力

实现让机器人走进千家万户的梦想。

阿尔法系列机器人 阿尔法系列机器人涉及的关键技术:

(1)数字舵机控制技术

该机器人主要用于家庭、学校教育及娱乐市场,操作 采用空心杯电机来设计大扭矩的数字舵机,在性能和

灵活多变。具有 PC 端 3D 可视化动作编辑软件,支持人机

互动;可以手机 APP 端蓝牙高速连接,实现语音指令操作, 成本上达到平衡,作为机器人的核心器件,将有效的控制

兼容 iOS & Android。机器人内置强大的核心源动力“伺 机器人整体成本,真正实现商业化。包括高性能电机的设计,

服舵机”,控制精度高,机身灵活多变,获得多项发明专利。 采用稀土钕铁硼永磁材料,让电机实现高转矩密度、高功

低功耗设计,充电时间短,续航能力强。(如图 1) 率密度、低重量和小体积的目标;采用有限元仿真的方法,

对电机定转子结构优化设计,降低反电动势谐波,实现波

图 1 人形机器人阿尔法一代、阿尔法二代、Lynx 形正弦性,提升电机效率、平稳性;基于解析法和有限元法,

采用无齿槽结构设计,绕组贴在光滑的铁芯表面,从原理

上消除齿槽转矩。电机变频控制算法包括通用传感器设备

信息采集及基于算法的传感器采样信息处理,基于矢量化

的电机控制算法设计相应的驱动控制系统,完成对电机的

转速、转矩及舵机位置的控制。

(2)多关节联动和平衡技术

人形机器人集机、电、材料、计算机、传感器、控制

技术等多门学科于一体。在机器人跳舞、行走、起卧、武

术表演、翻跟斗等杂技以及各种奥运竞赛等动作中,多关

节联动和平衡技术是重点。阿尔法机器人采用 20 个伺服

舵机作为机器人的运动控制。(如图 2)

第48页

62

智能系统

图 2 舵机示意图 器人获取允许数据或用户使用习惯数据是通过集成统计分

析 SDK 方式实现的,以安卓应用统计分析为例,下载并解

(3)基于互联网的语音云交互技术 压缩 SDK,将 SDK 导入智能机器人。然后进行基本功能集

用户发出语音指令后,机器人的语音采集设备采集语 成:新增场景类型设置接口、添加权限、应用启动的统计。

音信号并进行预处理,通过互联网将信息传输至云端(语 如果应用在后头允许超过一定时间再回到前端,将被认为

音 云 服 务 器 )。 云 服 务 器 端 进 行 的 处 理 包 括: 语 音 识 别 是两个独立的启动,例如用户回到主界面,或者进入其他

(ASR),即让计算机能够“听懂”人类的语音,将语音 程序,经过一段时间后再返回之前的应用。

中包含的文字信息“提取”出来。语音合成,又称文语转

换(TTS)技术,涉及声学、语言学、数字信号处理、计 Jimu 机器人

算机科学等多个学科技术,是中文信息处理领域的一项前

沿技术,解决的主要问题是如何将文字信息转化为可听的 Jimu 机器人是唯一在全球 500 多家苹果直营店销售

声音信息,也即“让机器像人一样开口说话”。 的中国品牌机器人,代表了业界最高水平的教育类机器人

(4)智能感知及调节技术 该系列机器人结合了机械结构、电子技术、传感器技术、

阿 尔 法 机 器 人 智 能 感 知 技 术 包 括: 系 统 存 储 空 间 检 自动控制技术、人工智能等多种学科知识的高技术载体,

查 -- 当机器人的存储空间不足时,通过机器人的立体声喇 是 STEAM 教育理念下机器人的代表。(如图 3)

叭播报“剩余空间不足,无法拍照,请先帮我清理内存”;

人脸检测 -- 如果机器人在当前视野范围内,未检测到人脸, 图 3 Jimu 机器人

系统会控制机器人头部转动以寻找待拍照的用户,如果在

头部转动范围内未检测到人脸,机器人会提示“我无法看 Jimu 机器人涉及的关键技术如下:

到你,请站到机器人前面哦”。当机器人检测到自身电池 (1)伺服舵机控制系统

电量偏低时,机器人发出电量低的提示语,并自动从工作 Jimu 机器人综合了多学科的发展成果,其中核心零部

状态转换为休息状态,以减少耗电量;当机器人检测到未

连接网络或者网络连接中断时,提示用户网络未连接,并 件数字舵机内置 MCU 系统,含有伺服控制系统,行星减

自动进行连接,播报处理结果等。 速系统,传感反馈系统,直流驱动系统;自主改进 PID 算法,

(5)用户行为智能学习技术 体积小,扭矩大,控制精度高。其中舵机的关键指标如“扭

阿尔法机器人能够获取用户使用习惯数据,基于用户 力 \/ 体积”值、控制精度优于日韩欧美同类产品,而且价

数据进行学习分析,进而可以为用户提供更好的体验。机 格不到其三分之一。动作执行采用数字舵机作为输出,主

控盒采用 STM32 芯片作为主控制芯片,以及红外、陀螺仪、

超声波、触碰等丰富的传感模块。各传感器模块化与舵机、

主控之间实时流畅通讯。

(2)结构轻量化技术

Jimu 机器人的外观装饰件采用的是拼接卡扣式的零

第49页

63

智能系统

件,上百种零件之间可以做到无缝连接,契合精度高。简 Cruzr 机器人

单易上手的零部件,能让受众能在快速熟悉了解产品。产

品采用耐磨自润滑的特殊材料,开模精度高。 Cruzr 机器人主要用于家庭、公司、展馆,集安防、

娱乐、迎宾、宣传功能于一体,机器人具有移动功能,安

Jimu 机器人采用镂空部分刚轮结构的方式减少刚轮重 装有摄像头、麦克风、超声波、烟雾等传感器,可进行基

量,同时减少交叉滚子轴承的重量;刚轮的外部和波发生 于 wifi\/3G 的无线通信,可以自动充电。机器人具备以下

器轮毂使用铝合金材料,来减轻重量。 功能:自动巡逻、人体检测、人体跟踪、人脸识别、远程

遥控、远程视频、烟雾探测等安防功能,同时具有触屏交

(3)可视化回读动作编程技术 互控制、语音交互控制、家电遥控、音视频播放、投影仪

Jimu 机器人采用移动端蓝牙连接,简单易懂的 PRP 等与人互动的能力。(如图 4)

(position、record、play)动作编辑功能以及逻辑编程模块,

用户在进行逻辑编程的同时也可以看到相应的模块以 swift 图 4 Cruzr 机器人

语言展现出来。第一次将可视化回读动作编程技术以及模

块化的逻辑编程应用于百变,大大降低了编程门槛,目前 Cruzr 机器人涉及的关键技术如下:

该技术还没见有文献述及。 (1)复杂机器人系统架构设计与集成

(4)针对孩子的交互设计技术 为了实现自然化的客服接待交互、引导带路等多种综

操作可见性(a. 模型列表大卡片设计,简单滑屏的手

势交互,增加了对孩子都模型的吸引力。b. 运用可交互元 合功能,Cruzr 机器人系统复杂。在硬件方面:由大量不

素,使用动效或者投影的视觉效果,增加孩童认知)。减 同传感器、交互设备、供电、运动控制、运算处理等部件

少用户选择(孩童不比大人,对于问题的思考不全,所以 组成。在软件方面:需要同时采集多路不同传感器的大量

比较复杂的页面,尽量拆分开不同的步骤,因为判断题永 信息,同时执行不下数十种智能算法,实时处理包括命令、

远会比选择题容易得分)。适时的动效设计以及操作指引(在 交互、碰撞等在内的多种事件,还要进行不同任务的响应

不同模块之间的跨度比较难以连接,需要做一些操作指引 与切换。随着功能的增多,机器人的系统庞大而复杂,以

来指引用户),App“3D 动态搭建”图纸功能通过每个 修补的方式开发和升级机器人,会使得系统越来越复杂,

分解的步骤指引爱好者搭建出无穷的创意。 越来越不稳定。Cruzr 机器人从全局出发,设计标准化、

(5)全球社区分享和智能云端技术 高效率、开放式的机器人系统架构,解决以打“补丁”的

社区模块:所有的用户都可以将自己搭建的模型共享 方式开发升级机器人带来的问题。

到这个平台,对于共享的模型,我们会采用积分奖励的制

度,同样这个积分也可以在商城进行实物兑换。对于用户

发布的模型或者帖子,可以点赞或者评论,获得相应积分,

积分可兑换。打通线上线下模块:线上报名线下活动,让

不同的积木兴趣爱好者聚集起来。

智能云端:官方模型列表获取,根据不同国家 \/ 地区

进行过滤,显示不同的语言。文件同步,根据同一个用户,

所创建的模型,程序,动作等,在不同设备之间进行同步。

零件导入,同步用户套件零件数据,智能判断用户所搭的

模型零件是否支持。

第50页

64

智能系统

(2)计算机视觉核心技术 室内环境信息、障碍物信息、机器人本体、目的地位置信息,

传统的采用 2D 图像的人体检测方法,准确率还达不 建立具有学习能力的,可以定位、导航、避障,可以自主移动、

到应用级别的要求;传统的入侵检测方法通常也只适用于 自动充电的机器人平台。

固定摄像头。Cruzr 机器人采用深度摄像头、彩色摄像头

与多种其他传感器相结合,改进与利用最近几年的国际上 (5)自然化人机交互与控制技术

的突破性技术,以实现低成本、高准确率、可应用的人体 对于机器人而言,通过摄像头、麦克风等传感器,结

检测、入侵检测、人脸识别、导航避障等功能。 合多种图像识别、声音识别技术,感知环境并实现与人的

(3)多模信息融合与智能决策 交互以及互动控制,进而实现与人类以及环境的自然化交

Cruzr 机器人集成了各种摄像头、人体红外感应器、 互控制,是机器人智能化动作功能的前提。Cruzr 机器人

超声阵列、烟雾探测器、麦克风、障碍感应器等多种传感器, 集成 3G\/WIFI 无线通讯模块,设计良好的用户交互界面,

要实现的功能模式也是多样化的,如何综合利用这些信息, 使主人可以通过远程的电脑、手机等设备实时查看家内情

进行智能化的决策,也是关键问题之一。 况,并控制机器人。集成语音交互、触摸屏交互、动作交

(4)复杂场景室内定位导航技术 互等多种人机交互模式。能在人多嘈杂的公共场景下,如

移动机器人的相关技术研究中,导航技术可以说是其 何将语音识别、人脸识别、手势识别、机器人控制等技术

核心技术,也是其实现真正的智能化和完全的自主移动的 有机融合,进行客户的定位,进而提供自然化的交互服务

关键技术。在室内导航方面,传统的激光导航的方式价格 与动作。

昂贵,难以被普通用户接受。Cruzr 机器人融合深度摄像头、

红外摄像头、超声传感器阵列、障碍感应器、码盘获知的

云展网——上百万用户在此分享了PDF文档。上传您的PDF转换为3D翻页电子书,自动生成链接和二维码(独立电子书),支持分享到微信及网站!
收藏
转发
下载
免费制作
其他案例
更多案例
免费制作
x
{{item.desc}}
下载
{{item.title}}
{{toast}}