helper

发布时间:2023-10-24 | 杂志分类:其他
免费制作
更多内容

helper

{{`发布时间:2023-10-24`}} | 云展网企业画册制作 公司宣传册 其他 helper
1 功能概述极智 DaaS BI 产品是依托智慧足迹 DaaS(Data as a Service)能力开放平台为基础开发的 B/S 结构服务。为各垂直行业的深度数据应用“发烧友”,提供安全可控的数据建模接入渠道。通过友好的前端界面对接数据操作,最大程度的省去客户侧接口开发等基础工作,更好的专注于数据建模工作。通过“模型超市”功能实现模块化快速建模结果输出;引入 BI 工具,聚焦 GIS 相关制图样式,在点选拖拽的极简操作下,轻松实现数据可视化;以实现“人人都是数据分析师”的产品愿景。1、分析建模分析建模页面提供了编写、管理、执行 SQL 语句的功能,支持特定需求的数据统计与建模分析。页面左侧是以文件夹的形式来管理不同的项目脚本,切换到字段查询可以查看分配的数据库、表及字段结构。页面右侧的 SQL 脚本编辑器,支持从本地加载脚本,编辑时提供自动补全、关键词高亮、格式美化等功能。提交执行的 SQL 任务会在后台大数据计算集群上运算,页面显示名称、内容、状态、时间和进度信息。执行中的任务可以取消,执行完成可以查看预览并保存到数据管理模块。2、模型超市模型超市页面预置了规划、商企、政府、旅游... [收起]
[展开]
helper
粉丝: {{bookData.followerCount}}
文本内容
第1页

智慧足迹

极智 ( JI Smart )

数据分析帮助文档

Version 1.1.0 2021-06-01

智慧足迹数据科技有限公司

第2页

1 功能概述

极智 DaaS BI 产品是依托智慧足迹 DaaS(Data as a Service)能力开放平台为基础开发

的 B/S 结构服务。为各垂直行业的深度数据应用“发烧友”,提供安全可控的数据建模接入渠

道。通过友好的前端界面对接数据操作,最大程度的省去客户侧接口开发等基础工作,更好

的专注于数据建模工作。通过“模型超市”功能实现模块化快速建模结果输出;引入 BI 工具,

聚焦 GIS 相关制图样式,在点选拖拽的极简操作下,轻松实现数据可视化;以实现“人人都

是数据分析师”的产品愿景。

1、分析建模

分析建模页面提供了编写、管理、执行 SQL 语句的功能,支持特定需求的数据统计与

建模分析。页面左侧是以文件夹的形式来管理不同的项目脚本,切换到字段查询可以查看分

配的数据库、表及字段结构。页面右侧的 SQL 脚本编辑器,支持从本地加载脚本,编辑时

提供自动补全、关键词高亮、格式美化等功能。提交执行的 SQL 任务会在后台大数据计算

集群上运算,页面显示名称、内容、状态、时间和进度信息。执行中的任务可以取消,执行

完成可以查看预览并保存到数据管理模块。

2、模型超市

模型超市页面预置了规划、商企、政府、旅游等多个行业的人口数据统计模型,可以通

过简单的参数配置实现人流量、人群画像、人口分布、人口流动等各个维度的统计功能。页

面以卡片形式展示模型的缩略图、名称和简介,点击模型卡片会进入到模型执行页面,显示

对应的参数配置和说明窗口。模型参数支持填写文本、数值,下拉框条件,日历时间,地图

选点等;模型可以设定参数后立即运行或者定时管理指定时间运行。

3、表盘配置

表盘配置页面提供了使用统计数据表快速绘制两类表盘的工具。一类为普通图表,包括

柱状图、饼状图、折线图、雷达图等,只需指定维度和度量字段,图表类型,配置图表的显

示效果即可保存导出。另一类为专题地图,包括网格热力、行政区域图、标准热力、OD 动

线图等,绘制时根据地图类型配置位置和数值字段,调整颜色分级和底图风格等样式,其中

位置字段支持经纬度,关联平台的位置码表或者用户上传的自定义码表。表盘还可以另存为

模板,支持替换数据表实现快速制图输出。

第3页

4、报表展示

报表展示提供将不同形式的图表、文本框、本地图片添加到同一个页面,生成一定主题

的数据报表的功能。新建报表可以添加在表盘配置页面编辑保存的表盘,也可以通过添加新

表盘进入到创建表盘的编辑页面。此外,还可以添加图片和文本,图片支持替换,文本支持

选中后进行字体、格式、颜色等编辑。所有新添加的报表元素会追加到页面尾部,并可调整

位置和大小。对于表盘的修改会被实时自动保存,完成编辑后可以导出成 PDF 文件下载或

者分享为网页。

5、数据管理

数据管理可以保存从平台查询计算输出的数据结果和从本地上传的数据文件。文件格式

支持 csv、txt、shp、geojson,大小不能超过 100MB。对于已保存的表,除了预览数据内容,

还可以切换到字段设置,修改字段名和数据类型,添加字段描述。通过合并表功能,用户能

够使用图形化界面设置关联条件、筛选条件、输出字段,实现将两张表关联。使用同步表功

能,用户能将数据从 BI 平台同步到后台计算集群自动建表。所有数据表还都可以导出成 CSV

文件下载。

平台操作说明参见《智慧足迹极智(JI Smart)使用手册》或平台帮助文档页面。

2 数据能力概述

极智平台开放了基于联通全量手机用户信令数据通过 SS 大数据平台处理生成的用户驻

留和出行位置数据,辅以用户入网基础属性和通信相关偏好属性,结合消费等多源数据,为

全面进行人口分析提供决策支撑。

2.1 数据字典逻辑简介:

(1)用户位置状态:用户一天的状态分为驻留和出行。原则上用户在同一位置停留超

过 30 分钟形成驻留,部分情况可能出现驻留时间小于 30 分钟(具体见使用 QA),用户每

日的驻留记录在 stay_month 表,每一条记录为用户一次驻留行为,包含用户的驻留位置网

格,驻留起止时间、编号、类型等信息。

(2)stay_poi 表为用户月度驻留行为的汇总,包含用户月度所有驻留位置的编号、位

置网格、类型、分时段驻留时长、频次等信息。

(3)驻留与驻留之间的出行行为记录在 move_month 表中,包含用户每次出行的编号、

第4页

起止位置网格、起止时间、类型、时间、距离等信息。

(4)根据用户出行途径的基站点与路网进行空间拟合,得到用户出行轨迹的最可能路

网节点,记录到 move_rn(由于信令定位的精度限制,算法会优先与主干道路进行匹配),

通过与 route_node 表进行关联,获取到路径经纬度信息,可以实现不同区域或者道路上出

行量的统计。

(5)用户属性信息:用户基础属性,通过 uid、date、city 字段与其余位置表进行关联,

以实现不同区域不同时间段的画像特征统计。

(6)ss_city_grid,为方便数据统计和地图展示,预置了以城市边界范围绘制的标准 250

米网格,可以通过经纬度关联将用用户位置网格进行替换,并在极智平台上进行制图展示;

客户也可以自行上传并同步不同大小形式的网格或者研究区域进行计算和展示。

备注:所以位置数据均采用 WGS84 坐标系

详细数据内容见“智慧足迹极智 DaaSBI 数据字典标准_2020.xlsx”

3 基础分析应用场景及示例

3.0 基础空间数据准备

说明:相关操作均以 ArcGIS 软件为例

3.0.1 区域边界

a) 在 ArcMap 软件中打开 Catalog 窗口,在指定本地目录下新建 Shapefile 文件,命名,设

置地理要素类型为 Polygon,编辑坐标系为“4326”,即“GCS_WGS_1984”.

第6页

b) 添加底图参考

通过网络获取 ArcGIS 官方提供的天地图底图服务,地址:

https://www.arcgisonline.cn/arcgis/home/search.html?t=content&q=tags%3A%22%E5%A4%A9

%E5%9C%B0%E5%9B%BE%22&start=1&num=20

点击在 ArcMap 中打开选项,下载地图启动文件“item.pkinfo”到本地,双击该文件即自动打

开 ArcMap 并默认添加了底图,在图层名称上点击右键进行复制,可将该图层粘贴到已打开

的 ArcMap 窗口中。

第7页

c) 缩放到相关区域,打开编辑器,通过绘制工具添加面要素,编辑完成保存并退出编辑状

d) 右键图层名称,打开属性表,增加字段,重新打开编辑器,进入编辑状态,编辑字段内

容,如名称,WKT(特定格式的经纬度坐标串),保存并退出编辑

第8页

e) 将数据表保存为本地的文本文件,选择保存类型为“TextFile”

第9页

f) 将文本文件上传到“极智”DaaS BI 平台,通过“同步表”操作,同步到 DaaS 后台大数据计

算集群

第10页

g) 平台也支持上传 zip 格式压缩的 shapefile 文件,

3.0.2 规则格网

a) 通过工具栏“搜索”图标,打开搜索窗口,输入“fishnet”查找出网格工具

第11页

b) 在网格工具中填写相应参数,网格绘制方式有两类,一种指定行列边长,边长单位与图

形要素的坐标系一致,一种是指定行列数量,输出的类型为 polygon

第12页

3.1 区域人口统计

3.1.1 行政区划居住人口统计

create table demo_011_popu as

select d.city_name,d.zone_name,count(a.uid) ucnt,round(sum(b.weight)) usum

from stay_poi a

join user_attribute b on a.uid = b.uid

join grid c on a.final_grid_id = c.grid_id

join area_code d on c.zone_id = d.zone_id

where a.date = 20200101 and a.city = 'V0110000'

and a.is_core = 'Y' and a.ptype = 1

and b.date = 20200101 and b.city = 'V0110000'

and c.city = 'V0110000'

and d.city_code = 'V0110000'

group by d.city_name,d.zone_name;

select city_name,zone_name,ucnt,usum from demo_011_popu;

3.1.2 点位区域到访人口分天统计

说明:生成并上传点位操作请参考 3.0.1

--1)区域边界与用户位置点进行空间包含关系判断,获取用户月度在区域的驻留信息

drop table demo_area_poi;

create table demo_area_poi as

select b.pid,b.pname,a.uid,a.date,a.poi_id,a.ptype

from stay_poi a

join demo_area b on 1=1

where a.city = 'V0110000' and a.date = 20200101

and

Default.ST_Contains(Default.ST_GeomCollection(b.wkt),Default.ST_Point(a.weighted_centroid

_lon,a.weighted_centroid_lat));

第13页

--2)用户月度区域到访驻留信息关联日度驻留

create table demo_area_stay as

select b.pid,b.pname,a.date,b.uid

from stay_month a

join demo_area_poi b on a.uid = b.uid and a.poi_id = b.poi_id

where a.city = 'V0110000' and a.date between 20200101 and 20200131

and (a.ptype = 0 or a.is_core = 'N');

--3)关联用户属性表获取权重,并按区域日期进行人数汇总

create table demo_area_stay_day_cnt as

select b.pid,b.pname,b.date,count(b.uid) ucnt,round(sum(a.gw)) usum

from user_attribute a

join demo_area_stay b on a.uid = b.uid

where a.city = 'V0110000' and a.date = 20200101

group by b.pid,b.pname,b.date

order by b.pid,b.date;

--4)导出点位分天到访人数

select pid,pname,date,ucnt,usum from demo_area_stay_day_cnt;;

3.1.3 规则网格人口分时统计

3.1.3.1 标准 250 米边长网格

说明:生成并上传网格参考 3.0.2

--1)用户位置落入标准网格判断

drop table demo_poi_fnid;

create table demo_poi_fnid as

select a.city,a.uid,a.poi_id,a.ptype,a.is_core,c.fnid

from stay_poi a

join ss_city_grid_attr b on a.city = b.city_code

第14页

join ss_city_grid c on (floor((a.weighted_centroid_lon - b.city_lon_ori) / b.city_lon_interval) +

gcol_ori =c.gcol

and floor((a.weighted_centroid_lat - b.city_lat_ori) /b.city_lat_interval) + grow_ori =c.grow)

and c.city_code=a.city

where a.city= 'V0110000' and a.date = 20200101

and c.city_code = 'V0110000';

--2)用户日度驻留与网格关联,获取特征天各类人群的用户数量

drop table demo_poi_fnid_dwell;

create table demo_poi_fnid_dwell as

select b.city,b.fnid,a.uid,c.period

from stay_month a

join demo_poi_fnid b on a.uid = b.uid and a.poi_id = b.poi_id

join time_one_hour_period c on 1=1 -----时间配置表(1 个小时)

where a.city = 'V0110000' and a.date = 20200106

and b.ptype = 2 and b.is_core = 'Y'

and hour(a.stime)<= c.end_h and hour(a.etime) >= c.start_h;

--3)分网格汇总统计

drop table demo_poi_fnid_cnt;

create table demo_poi_fnid_cnt as

select b.city,b.fnid,b.period,count(b.uid) ucnt,round(sum(gw)) usum

from user_attribute a

join demo_poi_fnid_dwell b on a.uid = b.uid

where a.city = 'V0110000' and a.date = 20200101

group by b.city,b.fnid,b.period

having round(sum(gw)) > 14;

--4)导出全北京 7-20 时工作人口网格分布

select city,fnid,period,usum from demo_poi_fnid_cnt where period between '0708' and '1920';

第15页

--5)导出西城区全天工作人口分布

select b.city_code,b.fnid,period,usum

from demo_poi_fnid_cnt a

join ss_city_grid b on a.fnid = b.fnid

where b.city_code = 'V0110000' and b.county_code = '110102';

3.1.3.2 Geohash7 网格

--1)通过 Geohash 编码函数将经纬度点转成 geohash 网格编号

create table demo_poi_geohash as

select

a.uid,a.poi_id,a.ptype,a.is_core,Default.Geohash(a.weighted_centroid_lat,a.weighted_centroid

_lon,7) geohash7

from stay_poi a

where a.city = 'V0110000' and a.date = 20200101;

--2)用户日度驻留与网格关联,获取特征天各类人群的用户数量

create table demo_poi_geohash_dwell as

select b.geohash7,a.uid,c.period

from stay_month a

join demo_poi_geohash b on a.uid = b.uid and a.poi_id = b.poi_id

join time_one_hour_period c on 1=1 -----时间配置表(1 个小时)

where a.city = 'V0110000' and a.date = 20200106

and b.ptype = 2 and b.is_core = 'Y'

and hour(a.stime)<= c.end_h and hour(a.etime) >= c.start_h;

--3)分网格统计

create table demo_poi_geohash_cnt as

select b.geohash7,b.period,count(b.uid) ucnt,round(sum(gw)) usum

from user_attribute a

第16页

join demo_poi_geohash_dwell b on a.uid = b.uid

where a.city = 'V0110000' and a.date = 20200101

group by b.geohash7,b.period

having round(sum(gw)) > 14;

--4)导出

select geohash7,usum from demo_poi_geohash_cnt where period = '0910';

3.2 交通小区 OD 统计

3.2.1 上传交通小区图层边界

a) 在数据管理页上传交通小区 csv 文本格式文件,其中空间字段用 wkt 格式表示

b) 数据表同步到大数据计算集群

3.2.2 SQL 数据处理

--1)用户驻留与交通小区空间关系

create table demo_traffic_zone_polygon as

select tz_id,wkt,Default.ST_GeomCollection(wkt) poly

from demo_traffic_zone;

create table demo_poi_pt as

select

a.uid,a.date,a.poi_id,Default.ST_Point(a.weighted_centroid_lon,a.weighted_centroid_lat) as

第17页

poi_pt

from stay_poi a

where a.city = 'V0440100' and a.date = 20200101;

create table demo_od_poi as

select b.tz_id,Default.ST_X(Default.ST_Centroid(b.poly))

tz_cx,Default.ST_Y(Default.ST_Centroid(b.poly)) tz_cy,a.uid,a.date,a.poi_id

from demo_poi_pt a

join demo_traffic_zone_polygon b on 1=1

where Default.ST_Contains(poly,poi_pt);

--2)用户出行与交通小区空间关系

create table demo_od_move as

select a.date,a.uid,a.move_id,a.stime,a.etime,a.is_core,a.start_ptype,a.end_ptype,

b.tz_id o_tz_id,c.tz_id d_tz_id,b.tz_cx o_tz_cx,b.tz_cy o_tz_cy,c.tz_cx d_tz_cx,c.tz_cy d_tz_cy

from move_month a

join demo_od_poi b on a.uid = b.uid and a.start_poi = b.poi_id

join demo_od_poi c on a.uid = c.uid and a.end_poi = c.poi_id

where a.city = 'V0440100' and a.date between 20200101 and 20200131;

--3)按天统计跨区职住 OD 矩阵

create table demo_od_day_cnt as

select b.date,b.o_tz_id,b.d_tz_id,

b.o_tz_cx,b.o_tz_cy,b.d_tz_cx,b.d_tz_cy,

count(b.uid) ucnt,round(sum(a.gw)) usum

from user_attribute a

join demo_od_move b on a.uid = b.uid

where a.city ='V0440100' and a.date = 20200101

and b.is_core = 'Y' and b.start_ptype in (1,2) and b.end_ptype in (1,2)

group by b.date,b.o_tz_id,b.d_tz_id,b.o_tz_cx,b.o_tz_cy,b.d_tz_cx,b.d_tz_cy,;

第18页

--4)输出某个特征天跨区 OD 数量

select date,o_tz_id,d_tz_id,o_tz_cx,o_tz_cy,d_tz_cx,d_tz_cy,usum from demo_od_day_cnt

where o_tz_id != d_tz_id and date = 20200102;

---5)分小时 OD 矩阵(示例中统计了工作日和非工作日特征天人流情况)-----

create table demo_od_hour as

select a.date,a.o_tz_id,a.d_tz_id,c.period,count(a.uid) ucnt

from demo_od_move a

join time_one_hour_period c on 1=1 -----时间配置表(1 个小时)

where a.date in (20200101,20200102)

and hour(a.stime)<= c.end_h and hour(a.etime) >= c.start_h

group by a.date,a.o_tz_id,a.d_tz_id,c.period

3.3 画像统计

3.3.1 基础画像统计

-- 位置表关联属性表

drop table demo_area_stay_attr;

create table demo_area_stay_attr as

select b.pid,a.uid,a.gender,a.age,a.arpu,a.area,a.id_area,a.brand,a.type,a.home_district,a.gw

from user_attribute a

join (select pid,uid from demo_area_stay group by pid,uid) b on a.uid = b.uid

where a.city = 'V0110000' and a.date = 20200101 and gender !=3;

select * from demo_area_stay_attr limit 10;

--(1)性别

select pid,

case when gender = '01' then '1:男'

when gender = '02' then '2:女' end as gender_type,

第19页

round(sum(gw)) usum

from demo_area_stay_attr

group by pid,

case when gender = '01' then '1:男'

when gender ='02' then '2:女' end;

--(2)年龄

select pid,

case when age in ('01','02','03','04') then '1:<18'

when age in ('05','06') then '2:19-29'

when age in ('07','08') then '3:30-39'

when age in ('09','10') then '4:40-49'

when age in ('11','12') then '5:50-59'

when age in ('13','14','15','16') then '6:>=60'

end as age_type,

round(sum(gw)) usum

from demo_area_stay_attr

group by pid,

case when age in ('01','02','03','04') then '1:<18'

when age in ('05','06') then '2:19-29'

when age in ('07','08') then '3:30-39'

when age in ('09','10') then '4:40-49'

when age in ('11','12') then '5:50-59'

when age in ('13','14','15','16') then '6:>=60' end

;

--(3)话费

select pid,

case when arpu < 50 then '1:<50'

when arpu >= 50 and arpu < 100 then '2:50-100'

第20页

when arpu >= 100 and arpu < 150 then '3:100-150'

when arpu >= 150 and arpu < 200 then '4:150-200'

when arpu >= 200 then '5:>=200' end as arpu,

round(sum(gw)) usum

from demo_area_stay_attr

group by pid,

case when arpu < 50 then '1:<50'

when arpu >= 50 and arpu < 100 then '2:50-100'

when arpu >= 100 and arpu < 150 then '3:100-150'

when arpu >= 150 and arpu < 200 then '4:150-200'

when arpu >= 200 then '5:>=200' end;

--(4)来源地

--1)根据常住地

select pid,b.province_name,b.city_name,round(sum(a.gw)) usum

from demo_area_stay_attr a

join area_code b on a.home_district = b.zone_id

group by pid,b.province_name,b.city_name;

--2)根据手机号归属地

select pid,b.province_name,b.city_name,round(sum(a.gw)) usum

from demo_area_stay_attr a

join unicom_area_code b on a.area = b.area

group by pid,b.province_name,b.city_name;

--3)根据户籍归属地

select pid,b.province_name,b.city_name,round(sum(a.gw)) usum

from demo_area_stay_attr a

join id_code b on a.id_area = b.id_area

group by pid,b.province_name,b.city_name;

第21页

4 数据应用场景及示例

4.1 表盘展示

4.1.1 行政区域人口展示

(1) 执行 SQL,执行成功后在执行结果中,将结果表保存到数据管理中

(2)在数据管理页面,通过左侧目录树,打开相应数据表,点击右上角“新建表盘”

1)新建普通图表

第22页

通过分布将位置字段和数值字段拖拽到图表边界区,调整配图效果进行保存

2)新建专题地图

在专题地图配置页面进行相关配置,具体步骤如下:

a) 选择地图类型,本场景统计的行政区划人口,因此地图类型是区域面图

b) 设置位置字段,对于本场景,数据中保存的是“city_name“和”zone_name“字段,分别对

应的是系统预置的“城市名称”和“区县名称”,通过下拉选项做好关联

c) 设置数值字段,对扩样人数进行展示则选择“usum”字段,目前支持求和统计

d) 设置标注字段,选择“zone_name”在地图上对行政区县面进行标注

e) 点击确定按钮,请求数据,数据结果会以默认显示效果进行展示

f) 调整显示效果,支持调整以下内容

 图层透明度,

 分段数量

 分段方式,比如采用“自然分段”方法可以跟保证分组的组间差别最大

 分段的色带

 轮廓

 图列

 底图

第23页

4.1.2 点位到访人口分天展示

通过将数据结果存储到数据管理,并通过“新建表盘”创建普通图表,配置如下:

第24页

具体操作包括,在维度栏对“date”字段进行升序排列,在筛选器中增加对点位名称的

筛选“pname”这选择某一个点位,可以看到点位到访人流量随时间变化的情况。

4.1.3 规则网格人口分时统计

4.1.3.1 标准 250 米网格

查询结果保存到数据管理:

数据管理中新建表盘,选择类型为专题地图,点击确定。

由于网格统计的结果数据集较大,可能存在绘制较慢的情况。

第25页

4.1.3.1.1 单时间段绘制全量网格

a) 选择绘制地图类型是“方格热力图”

b) 进入编辑页面,通过字段筛选器,指定 period 字段到某一个时间段,如“0910”。

c) 配置位置字段,由于采用了系统预置的250米边长边长标准网格,且网格是按城市划分,

所以出图时位置字段的配置如下:

d) 配置数值字段,数值选择“usum”,即展示扩样人口

e) 信息框可配置展示 usum,即当鼠标移动到网格要素上时,可以弹框显示网格人数

f) 点击确定请求数据,以默认样式进行渲染

g) 调整渲染样式,包括分段数、色带、网格边界,底图等

第26页

h) 填写表盘标题,保存时填写表盘名称

4.1.3.1.1 多时间段网格热力播放

数据源使用西城区 250 米网格统计表

a) 设置表盘类型为“方格热力图”

b) 由于北京市网格数据量巨大,为加快渲染,我们重点查看人数高于 100 的网格,因此在

字段筛选器中对“usum”进行数值筛选:

c) 字段配置,同上一小节

d) 时间播放配置:指定时间字段为 period,时间播放间隔为 1 秒,点击确定请求数据

e) 调整渲染样式,点击下方的时间播放器按钮,可以时间顺序播放热力效果

第27页

4.1.3.2 Geohash 网格绘制标准热力

数据源采用 geohash7 网格统计,导出一个小时片段的结果

a) 设置表盘类型为“标准热力图“

b) 配置字段,位置字段选择对应的“geohash”类型,数值字段为”usum”

备注:目前仅支持 geohash7 级别,为标准编码,无须指定城市

c) 点击确定请求数据

d) 调整渲染,包括将分段方法调整为“平均分段”,调整颜色色带为红到绿渐变,设置颜色

反转、修改热力半径获得更忧的显示效果等

第28页

4.2 交通小区 OD 展示

(1)添加交通小区图层

a) 打开交通小区数据表,新建图表时选择专题地图

b) 选择 wkt 字段,设置位置字段类型为“自定义“

c) 调整渲染样式,不显示填充色,调整边界轮廓颜色

第29页

d) 图层命名为交通小区,保存专题地图名称为“交通小区 OD”

(2)添加 OD 动线图层

a) 在“表盘配置”页面打开“交通小区 OD”,右上角选择编辑表盘

b) 在边界页面添加图层,选择对应的数据表

c) 为图层命名,按需配置字段,如图表类型为“OD 图”,起止位置的类型均为经纬度,数值

字段为人数

第30页

d) 点击确定,获取数据,以默认样式进行渲染

e) 调整渲染样式,包括颜色分级、色带、底图等

第31页

4.2 报表展示

(1)在“报表展示”页面新建报表,通过“添加表盘”功能,将已绘制的专题图表添加到本页面。

(2)调整表盘位置和大小,优化展示效果

第32页

(3)报表分享,通过分享可以将报表生成为可交互的网页,将链接复制到浏览器地址栏,

输入密码,即可在线浏览数据的可视化效果。

4.3 审核下载

对于已完成建模分析,统计数据表结果保存在后台大数据集群上,如果要实现导出,对

于大小不超过 10MB 的小批量数据可以直接在分析建模页面通过“Select”语句查询后导

出,如果数据量较大,则可以通过申请审核下载实现快速导出。

(1) 进入“用户中心”,打开“下载申请”页面

第33页

(2) 通过新增申请指定导出数据的分隔符,表名、填写表说明和字段说明方便审核人

员快速了解数据内容

(3) 审核通过后,即可在该页面点击下载。

第34页

5 Q&A

数据安全部分:

Q1:平台对于建模跑出的结果集的下载,是否有限制?

A1:用户通过平台自动下载的单次文件大小要求<10M,总的数据量目前是人工审核每天同

一账户的下载量,如果存在一个月内累计大量数据下载的行为,会封账号,平台预期会在春

节前更新网关程序,设置自动熔断机制,监测数据下载总量。

Q2:用户是否可以上传自有的数据源?

A2:可以,目前支持在“数据管理”模块中以数据表的形式来上传,平台上传支持的文件类型

为 csv,单文件大小要求<100M。数据上传后的存储在 BI 平台,可以与 BI 平台上的数据通

过“合并表”操作进行 JOIN 关联。如果要让数据表参与集群建模计算,则需要通过“同步表”功

能将数据同步到后台数据计算集群。

Q3:平台对于 SQL 脚本的编写有哪些限制?

A3:1) 每次提交执行的脚本任务中可以有多条“CREATE TABLE”语句来创建多个中间过程数

据表,但是创建的数据表只在 DaaS 集群存储,不回传到 BI 平台;需要将数据结果在 BI

平台显示和保存时,使用”SELECT”语句会将查询的结果返回到 BI 平台,可以在任务执行状

态窗口的“运行结果”选项中查看,每次执行任务只能有一条“SELECT“语句;

2) “CREATE TABLE”在 DaaS 的数据集群创建数据表支持使用“CREATE TABLE AS SELECT”,

且“SELECT”查询的字段中,如果有“UID”(用户 ID 标识)字段,则不允许对“UID”字段起字

段别名;

3) “SELECT”查询表并请求数据结果到 BI 平台时,查询的字段不能有“UID“字段,”UID“出现

只能是在”COUNT(UID)“和”COUNT(DISTINCT UID)“的聚合函数中使用;

4) 任何时候使用“SELECT”查询,不支持“SELECT*FROM“的查询方式。

Q4:当用户确实需要导出较大数据量的汇总结果集的时候,是否有方法操作?

A4:DAAS-BI 的设计目的是让用户根据自己的统计/分析需求,灵活地在明细数据基础上

进行建模,最终取走所需的统计级结果集,而非类明细数据的直接导出。

(1) 对于小数据量导出,可以直接在“分析建模”页面执行“Select”语句,输出内容不能明

细数据,单次导数数据量不超过 10MB;

第35页

(2) 对于固定需求,需要周期性跑出大量结果集时,可以提交项目负责人部署到模型超

市,实现参数化定时执行,自动导出到数据管理模块;

(3) 对于临时大数据量结果导出需求,则可在“用户中心-下载申请”页面进行申请,由

项目交付负责人审核下载内容符合数据安全规定后进行审批通过。

说明:用户个人明细数据是中国联通安全法规严令禁止对外导出的,客户应遵守相关规

定,避免出现数据安全问题影响后续合作。

Q5:分配给用户的一个账号,是否可以共享给多个操作人员?

A5:不可以,平台会做单点登录机制,同一个账号,只会保持最后一个登录的人可以正常

使用,当有新用户登陆后,之前的操作人员会掉线。

Q6: 建表是否支持不同的模式?

A6: DaaS 由于开发模式和安全权限管理的原因,不支持开放多数据库形式,建议采用表名

前缀的形式来区分。

数据字典部分:

Q1:表 grid 中字段 wkt 值内容为什么是 5 个经纬度坐标点?

A1:grid 是正方形,有 5 个点是因为除了 4 个顶点外,在起点重复了一次构成闭合。

Q2:表 grid 中各个正方形区域会有重合或交叉的部分吗?

A2:表 grid 是根据基站的分布和参数生成的,length(边长)不同的 grid 会存在重合的部分,

比如一个 500 米的网格会跟 4 个 250 米的网格重合。

Q3:grid、route_node、stay_poi 的经纬度字段使用的是哪种坐标系?

A3:grid、route_node、stay_poi 的经纬度字段使用的是 wgs84 坐标系。

Q4:在 stay_month 表中,有一部分记录的驻留结束时间 etime - 驻留开始时间 stime 小

于 30 分钟,为什么会有这种情况?

A4:一般情况下驻留时长大于等于 30 分钟,在特殊情况下,会出现小于 30 分钟的驻留,

例如:

(1)一个用户从家前往某地,短暂停留后立刻返回家中,途中没有在其他地点停留超过 30

分钟,此时系统会在出行的最远端添加一个驻留点,作为出行的目的地,用以记录该用户的

出行行为,新添加的驻留时长小于 30 分钟;

(2)一个用户出行一段距离,系统发现从起点到终点的时间消耗远小于应有的时间,推测

用户在出行的中间某地应该停留了一段时间,但是停留期间的信令没有达到生成驻留(最少

第36页

30 分钟)的条件,此时系统会根据信令发生情况在出行中间某地生成一个隐含驻留,新生成

的驻留时长小于 30 分钟。

(3)一个用户一天中只有一个驻留点。

Q5:stay_month 的 is_core 判断条件是什么?

A5:is_core 表示是否为核心用户,当一个自然月内用户在该省出现超过 10 天时被记为核心

用户。

Q6:为什么部分用户在 stay_month 中没有驻留信息?

A6:因为数据是按省份处理,用户出差到外省或者本身来自外省的情况下,由于用户在外省

的驻留数据没有被抓取到,在本省的驻留不是每天都有。

Q7:stay_month、stay_poi 的 poi_id 具体在什么位置?

A7:(1)通过表 stay_poi 中的字段位置网格编号 final_grid_id 关联到表 grid, 可以查询出

所在的网格;

(2)通过表 stay_poi 中的字段加权质心纬度 weighted_centroid_lat 和加权质心经度

weighted_centroid_lon 可以查询出精确位置。

Q8:表 stay_month 中的字段 poi_id 值是怎么确定的?

A8:poi_id 来源于表 stay_poi 月度出现的所有驻留的编号(poi_id),stay_month 通过

uid,poi_id,province,月份 与 stay_poi 进行关联。

Q9:表 stay_month 中 uid 不同, 相同的 poi_id 表示的兴趣点相同吗?

A9:poi_id 是针对每个 uid 各自编号的,不表示相同兴趣点。

Q10:stay_month 和 stay_poi 是什么关系?

A10:stay_month 是每天的数据,字段 date 表示某天;

stay_poi 是对 stay_month 的月度汇总统计,字段 date 表示某月。

Q11:根据 stay_poi, 怎么生成格网热力图?

A11:stay_poi 表中记录了每个用户基于多基站加权的算法推测经纬度位置,可以自定义一

套边长更小(如 250 米)的规则格网,将用户 poi 坐标点落到自定义规则格网中,以生成各

类热力图。

Q12:stay_poi 的 uid 值有一部分在 user_attribute 中没有找到配置的数据,是什么原因造

成的?

A12:stay_poi 数据来源于信令,user_attribute 数据来源于客户 CRM 管理系统。uid 值不

匹配的原因有以下几种:

第37页

(1)stay_poi 中部分信令可能是由智能硬件产生,没有相对应的 CRM 信息;

(2)当月新增用户或者换卡用户的 CRM 更新滞后,会在下个月的 CRM 中上传;

Q13:通过 stay_poi 的 uid 值在 user_attribute 中查找到不同月份的个人信息差别很大,

是什么原因造成的?

A13:正常情况下,user_attribute 中一个 uid 同一个月只有一条记录。在极少数特殊情况

下,各个月的属性值会有变化,产生变化的原因可能是实名制推广造成的信息更新,或者是

手机 SIM 卡过户后转交给他人使用。

Q14:表 move_rn 中字段 time (经过节点对的时间) 表示什么含义?

A14:是从第一个道路节点到当前道路结点所花费的时间,单位是秒。

Q15:表 move_month 中出行方式 mode 是根据什么速度范围分类的?

A15:出行方式不是单纯依靠速度标准,判断条件包括群体用户出现信令事件发生时间的聚

类特征,与相关基站的关联等。地铁出行是根据信令事件与地铁基站的关联来确定;飞机出

行是根据出行速度来确定;铁路出行是根据群体信令事件发生时间的聚集特征以及与基站的

关联来确定,当大量出行用户几乎同时在相同基站间切换时,出行方式会被定位铁路出行;

上述 3 中出行方式之外依据速度标准将出行判断为公路出行。不符合以上几种情况的出行

被判定为其他。一次出行(两个驻留点之间是一次出行)只能被判定为一种出行方式。

Q16:表 move_rn 中路径标识 moi_id, route_id 是什么含义?

A16:(1)moi_id 表示从一个驻留 poi_id 到另一个驻留 poi_id 的出行,例如 moi_id=

10000*2+5=20005 表示从 poi_id 为 2 的位置到 poi_id 为 5 的位置的出行。

(2)路径标识 route_id 用来对 uid 和 moi_id 相同但交通方式 mode 不同的出行进行区

分。例如用户从 A 地到 B 地有公路和铁路两种出行方式,则 route_id 会有 1 和 2 共两条记

录。

Q17:从表 move_rn 中如何确认一条道路的开始节点和结束节点?

A17:move_rn 记录的是一次出行的所有结点,没有道路信息。使用时可以先通过道路位置

确定道路结点,再关联 move_rn 获取经过道路的用户。

Q18:驻留、出行是怎么定义的?

A18:(1)先判断驻留,如果通过信令事件判断用户始终在同一个位置网格,则用户处于驻

留状态;

(2)当用户的信令事件发生位置偏离原驻留位置时,且持续偏离(排除信号来回切换),

则判断用户处于出行的状态。

第38页

Q19:在 G1 分别停留 25 分钟、35 分钟,然后前往 G2,会生成驻留和出行吗?

A19:(1)G1 停留 25 分钟:由于在 G1 停留时间少于 30 分钟,因此不会产生驻留。在 G1

的停留只会是从上一个位置开始的更长的一次出行中的经过点。

(2)在 G1 停留 35 分钟:会在 G1 生成一个驻留,另外生成一个 G1 到 G2 的出行。

Q20:表 user_attribute 中权重 weight 和 别权重 gw 具体是什么含义?

A20:(1)由于我们的数据只有联通用户,当需要全量人数统计时,可以通过权重(weight)

将联通用户数外推到全量人数;

(2)因为联通用户的性别比例与实际人口的性别比例有差异,所以当需要统计某区域分性

别的全量人口数时,可以通过性别权重(gw)来做外推。

Q21:move_month 中的出行速度,对于步行是不准确的

A20:速度对于长距离的出行会准确一些,像步行的情况,因为移动的距离太短,基站信令

切换识别的距离和时间跟用户实际步行的距离和时间是不匹配的。

数据建模部分:

Q1:是否支持用户创建非 SQL 的建模脚本?

A1:支持使用 Java、Scala、Python 调用 Spark 相关 API 进行程序化建模,用户需按照程序

建模规范和样例编写相应的处理程序,相关模块权限请联系项目负责人开通。

Q2:用户提交了有问题的 SQL 脚本,不想再继续执行了,是否可以手动停止?

A2:可以在“执行结果”页面,强制停止该任务,无论此任务是刚上传至网关尚未执行,还是

已经提交到计算集群计算中,都可以手动停止。

Q3:用户执行的 SQL 执行失败了,如何查看具体错误原因?

A3:可以在“执行结果”页面查看“任务状态信息”,如果是 SQL 语法错误,通过双击状态栏的

内容,会弹框显示具体的报错信息,同时执行进度栏也会显示当前出错的 SQL 的条数。

Q5:在分析建模中支持删除表语句吗?

A5:支持,使用 drop table [if exists] 表名 语句进行删除。

Q6:在分析建模中是否支持执行 union 语句?

A6:支持,但是union关键字不能出现在最外层的查询语句中,需要在外层再包一层select。

Q7:在分析建模中创建表成功了,在\"分析建模—字段查询\"中为什么看不到创建的表?

A7:\"分析建模—字段查询\"中的内容不是实时更新的,会有一定的延迟。

百万用户使用云展网进行图文电子书制作,只要您有文档,即可一键上传,自动生成链接和二维码(独立电子书),支持分享到微信和网站!
收藏
转发
下载
免费制作
其他案例
更多案例
免费制作
x
{{item.desc}}
下载
{{item.title}}
{{toast}}