搜狗搜索日志分析

1. 概述

本文利用搜狗搜索日志的500w条数据,对搜索日志进行了一系列的分析。主要分为两个阶段,第一阶段是数据准备、数据预处理和数据加载阶段,第二阶段为分析阶段。

第一阶段首先下载数据,并在自己电脑上安装好实验所需的环境,然后通过数据扩展和数据过滤对原数据进行预处理,得到含有单独年、月、日、小时等字段且关键词和UID不为空的数据,最后将数据加载到HDFS上,并在Hive上创建数据库和数据表,将过滤后的数据灌入Hive中对应的表中,因而后续便可以通过在Hive中执行SQL语句对日志数据进行查询分析。

第二阶段为分析阶段,也分为两部分,一部分是单维度的数据描述性分析,另一部分时多维度的用户行为分析。在单维度的数据描述行分析中,分别针对总的条数、时间、关键词、UID、URL、RANK等单个的字段进行描述统计,例如对每个时间段的查询条数、关键词搜索排行榜、UID搜索排行榜、URL搜索排行榜等进行了查询统计,从而对数据有了一个大概的全局的把握;在多维度的用户行为分析中,以查询最多的用户、点击最多的网址、指定的关键词等为切入点进行深入的用户行为分析,例如在对查询最多的用户的用户行为分析中,通过其搜索的关键词及其频次,得到其目前的兴趣点等,通过其在每个时段的搜索次数,得到其大致的时间行为规律,这对于理解用户行为,描述用户画像,从而定向地针对性地进行广告推荐都是有一定的意义的。

2. 数据准备

2.1 实验环境

Cloudera QuickStart VM将包含所需的所有内容,例如CDH,Cloudera Manager,Cloudera Impala和Cloudera Search等,还包括教程,示例数据和入门脚本。Cloudera QuickStart虚拟机(单节点集群)可以轻松快速地进行CDH实验,以便进行测试,演示和自学,并包括Cloudera Manager以管理您的集群。

本文的使用的Cloudera QuickStart VM的版本是:

Cloudera-quickstart-vm-5.5.0-0-virtualbox

操作系统:Red Hat 64 bit)

内存大小:4096MB

处理器:2

所使用的virtualbox的版本是:VirtualBox-4.3.12-93733-Win

Cloudera QuickStart VM开启后的截图如下:

 

Hive查询操作页面截图如下:

2.2 数据描述

本文选取搜狗实验室提供的搜狗搜索日志数据,共计五百万条,每一行为一条记录,每条记录基本上含有ts、uid、rank、order、url等字段,字段的具体意义如表1所示。

表1 搜索日志中的内容

名称

内容

ts

用户点击发生时的日期时间

uid

由系统自动分配的用户识别号

rank

该URL在返回结果中的排名

order

用户点击的顺序号

url

用户点击的URL

其中,UID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户识别号。

3. 数据预处理

3.1 数据扩展

将原数据中包含时间的字段拆分并拼接,添加年、月、日、小时字段,以便后续在HDFS中进行分块存储。分割时间字段的shell脚本sogou-log-extend.sh的具体代码如下:

#!/bin/bash

infile=$1

outfile=$2

awk -F ‘ ‘ ‘{print $0″ “substr$1,0,4)” “substr$1,4,2)” “

substr$1,6,2)” “substr$1,8,2)}’ $infile > $outfile

在终端执行此shell脚本:

[cloudera@quickstart ~]$ bash /home/cloudera/sogou-log-extend.sh /home

/cloudera/500w/sogou.500w.utf8 /home/cloudera/500w/sogou.500w.utf8.ext

则sogou.500w.utf8.ext文件即为在原数据的基础上添加年、月、日、小时字段的文件。

3.2 数据过滤

完成数据扩展后,然后过滤UID和keyword字段为空的记录。数据过滤的shell脚本sogou-log-filter.sh的具体代码如下:

#!/bin/bash

infile=$1

outfile=$2

awk -F ” ” ‘{if$2 != “” && $3 != “” && $2 != ” ” && $3 != ” “) print $0}’ $infile > $outfile

在终端执行此shell脚本:

[cloudera@quickstart ~]$ bash /home/cloudera/sogou-log-filter.sh /home

/cloudera/500w/sogou.500w.utf8.ext /home/cloudera/500w/sogou.500w.utf8.

flt

则sogou.500w.utf8.flt即为过滤后的数据文件。

3.3 数据加载

将原数据文件sogou.500w.utf8和过滤后的数据文件sogou.500w.utf8.flt加载到HDFS上。在系统终端执行如下代码:

hadoop fs -mkdir -p /sogou/20111230

hadoop fs -put ./sogou.500w.utf8 /sogou/20111230

hadoop fs -mkdir -p /sogou_ext/20111230

hadoop fs -put ./sogou.500w.utf8.flt /sogou_ext/20111230

由此,已将数据加载到HDFS系统中,然后在Hive上创建日志数据的数据表。

首先在终端启动hive,在hive环境下创建数据库sogou:

hive> create database sogou;

hive> use sogou;

然后,创建扩展4个字段(year, month, day, hour)数据的外部表:

hive> CREATE EXTERNAL TABLE sogou.sogou_ext_20111230

> ts STRING,

> uid STRING,

> keyword STRING,

> rank INT,

> order INT,

> url STRING,

> year INT,

> month INT,

> day INT,

> hour INT

> )

> COMMENT ‘This is the sogou search data of extend data’

> ROW FORMAT DELIMITED

> FIELDS TERMINATED BY ‘ ‘

> STORED AS TEXTFILE

> LOCATION ‘/sogou_ext/20111230’;

创建带分区的表:

hive> CREATE EXTERNAL TABLE sogou.sogou_partition

> ts STRING,

> uid STRING,

> keyword STRING,

> rank INT,

> order INT,

> url STRING

> )

> COMMENT ‘This is the sogou search data by partition’

> partitioned by

> year INT,

> month INT,

> day INT,

> hour INT

> )

> ROW FORMAT DELIMITED

> FIELDS TERMINATED BY ‘ ‘

> STORED AS TEXTFILE;

最后,把HDFS中的数据灌入到刚刚创建的表中:

hive> set hive.exec.dynamic.partition.mode=nonstrict;

hive> INSERT OVERWRITE TABLE sogou.sogou_partition PARTITIONyear,month,

day,hour) select * from sogou.sogou_ext_20111230;

到现在为止,已把经过预处理的数据加载到hive中,后续便可以在hive中执行SQL语句进行查询分析。

4. 单维度数据描述性分析

4.1  条数统计

查看前10条数据:

hive> select * from sogou.sogou_ext_20111230 limit 10;

 

前10条数据的具体信息如下:

查询数据的总条数:

hive> select count*) from sogou.sogou_ext_20111230;

查询非空查询条数:

hive> select count*) from sogou.sogou_ext_20111230 where keyword is not null and keyword !=”;

 

查询无重复总条数(根据ts、uid、keyword、url)

hive> select count*) from select ts,uid,keyword,url,count*) as cnt from sogou.sogou_ext_20111230 group by ts,uid,keyword,url) a where a.cnt==1;

 

查询UID唯一的条数:

hive> select countdistinctuid)) from sogou.sogou_ext_20111230;

 

可知,a) 本数据文件中共包含500万条数据;

b) 非空查询条数为5000000条,即所有的数据的keyword都不为空;

c) 以ts、uid、keyword、url字段作为判断记录是否重复的标准,得到的无重复总条数为4998321条;

d) UID唯一的条数共有1352664条,即在此段时间内共有1352664个用户进行来搜狗搜索。

4.2   时间分析

查询每个时间段查询的条数:

hive> select year,month,day,hour,count*) as cnt from

 sogou.sogou_ext_20111230 group by year,month,day,hour order by

 year,month,day,hour;

得到的结果如下:

time

cnt

time

cnt

2011123000

90752

2011123017

289648

2011123001

65702

2011123018

295207

2011123002

45880

2011123019

340115

2011123003

34242

2011123020

353099

2011123004

27922

2011123021

328949

2011123005

28213

2011123022

270842

2011123006

32988

2011123023

194554

2011123007

52832

2011123100

64

2011123008

165616

2011123101

5

2011123009

279104

2011123102

1

2011123010

315973

2011123103

2

2011123011

276103

2011123104

2

2011123012

274234

2011123106

3

2011123013

295936

2011123109

1

2011123014

306242

2011123116

2

2011123015

318645

2011123120

2

2011123016

317120

   

根据上面的得到的数据,绘制2011年12月30日这一天各时间段的查询条数的条形图如下:

可知,a) 2011年12月30日这一天中共有4999918条,而2011年12月31日仅有82条,可能本数据集中采集的12月31日的数据不全;

b) 在2011年12月30日这一天中,0-4时的的查询次数逐渐减少,到4时达到最低,然后慢慢上升,特别在7-9时的增加特别显著,到9-10时逐渐趋于稳定,每个小时大概有300000次查询,到21时后查询次数开始减少。基本符合人们的作息时间;

c) 在查询次数稳定的时间段内,即9-21时,中间有两次低谷,分别在11-12、17-18,这可能是因为此时间段是人们的中饭、晚饭时间,所以表现出查询次数的略微减少。

4.3  关键词分析

查询关键词的长度指的是用户提交的查询中包含几个词语或字(用空格隔开的)。

查询关键词的平均长度

hive> select avga.cnt) from select sizesplitkeyword,’\s+’)) as cnt from sogou. sogou_ext_20111230) a;

可知查询关键词的平均长度为1.0869984,这说明用户输入的查询通常比较短,这也意味着中文搜索引擎得到的用户需求信息更少,需要对用户需求有更多的分析和经验,才能更加准确地返回用户需求的信息。

查询关键词各长度的条数

hive> select a.cnt,count*) as total from select uid,sizesplitkeyword,

‘\s+’)) as cnt from sogou.sogou_ext_20111230) a group by a.cnt order by a.cnt;

得到的结果如下:

a.cnt

total

a.cnt

total

a.cnt

total

1

4672047

11

175

21

10

2

260746

12

125

22

6

3

48424

13

82

23

11

4

11359

14

50

26

14

5

3288

15

38

27

3

6

1522

16

33

31

6

7

859

17

24

32

3

8

506

18

41

36

1

9

328

19

8

45

1

10

263

20

27

 

 

图表表示如下:

可知,a) 查询关键词的长度最短为1个词,最长为45个词;

b) 关键词长度为1的条数为4672047条,关键词长度为2的条数为260746,关键词长度为3的条数为48424,关键词长度为4的条数为11359条,关键词长度为5的条数为3288,关键词长度为6的条数为1522,而关键词长度大于6的条数低于1000条,关键词长度大于12的条数低于100条,关键词长度为36、45的条数仅为1条;

c) 查询关键词长度为1的条数占总查询条数的93.44%,查询关键词长度为2的条数占5.21%,即查询关键词的长度小于等于2的条数为98.65%,几乎占据了所有的查询条数,这也再次说明了用户的查询关键词长度一般为1-2个词,与上面得到的查询关键词平均长度为1.087相符;

d) 从图中也可以看出,关键词长度为1的条数远大于关键词长度为2的条数,可知,大多数查询还是只用一个关键词。

查询查询频度最高的前1000词:

hive> select keyword,count*) as cnt from sogou.sogou_ext_20111230 group by keyword order by cnt desc limit 1000;

得到的部分结果如下(截取前50):

keyword

cnt

keyword

cnt

百度

38441

龙门飞甲

3917

baidu

18312

qq个性签名

3880

人体艺术

14475

张去死

3848

4399小游戏

11438

cf官网

3729

qq空间

10317

凰图腾

3632

优酷

10158

快播

3423

新亮剑

9654

金陵十三钗

3349

馆陶县县长闫宁的父亲

9127

吞噬星空

3330

公安卖萌

8192

dnf官网

3303

百度一下 你就知道

7505

武动乾坤

3232

百度一下

7104

新亮剑全集

3210

4399

7041

电影

3155

魏特琳

6665

优酷网

3115

qq网名

6149

两次才处决美女罪犯

3106

7k7k小游戏

5985

电影天堂

3028

黑狐

5610

土豆网

2969

儿子与母亲不正当关系

5496

qq分组

2940

新浪微博

5369

全国各省最低工资标准

2872

李宇春体

5310

清代姚明

2784

新疆暴徒被击毙图片

4997

youku

2783

hao123

4834

争产案

2755

123

4829

dnf

2686

4399洛克王国

4112

12306

2682

qq头像

4085

身份证号码大全

2680

nba

4027

火影忍者

2604

将查询频度最高的前1000词用词云可视化如下:

可知,a) 用户搜索百度时最常用的关键词时“百度”,共有38441条,其他的还有“baidu”、“百度一下”、“百度一下 你就知道”也比较常用,其中“百度一下”和“百度一下 你就知道”用作关键词的频次差不多。这几种关键词加起来共有71362条,说明百度时人们搜索东西时的首选的搜索引擎;

b) 从关键词前50来看,4399游戏分别以“4399小游戏”关键词出现了11438条、“4399” 关键词出现了7041条、“4399 洛克王国” 关键词出现了4112条,可见,目前4399是比较受欢迎的小游戏网站,特别是“洛克王国”这个小游戏更是受欢迎;

c) 从关键词前50来看,优酷网站分别以“优酷”关键词出现了10158条,“优酷网”关键词出现了3115次,“youku”关键词出现了2783次,可见,目前优酷时比较受欢迎的视频网站;

d) 从关键词前50来看,目前大众比较关注的新闻热点时“馆陶县县长闫宁的父亲”、“新疆暴徒被击毙图片”等;

e) 从关键词前50来看,目前大众比较关注的电视剧或电影是“新亮剑”、“龙门飞甲”、“凰图腾”、“金陵十三钗”等。

4.4 UID分析

UID平均查询次数:

hive> select suma.cnt)/counta.uid) from select uid,count*) as cnt from sogou.sogou_ext_20111230 group by uid) a;

 

可知,一个UID的平均查询次数为3.6964094557111005次。

 

查询1次、2次、3次、大于3次的UID个数:

hive> select SUMIFuids.cnt=1,1,0)),SUMIFuids.cnt=2,1,0)),

SUMIFuids.cnt=3,1,0)),SUMIFuids.cnt>3,1,0)) from select uid,count*) as cnt from sogou.sogou_ext_20111230 group by uid) uids;

 

则可知,a) 查询次数为1次的用户总数为549148,查询次数为2次的用户总数为257163,查询次数为3次的用户总数为149562,查询次数大于3次的用户总数为396791。

b) 查询次数大于2次的用户总数为149562+396791=546353,且占比为546353/549148+257163+149562+396791) = 546353/1352664=0.4039,这意味着有40.39%的用户的搜索次数大于2次,而有一半多的用户都仅进行了1-2次的搜索行为。

用户搜索次数排行榜:

hive> select uid,count*) as total from sogou.sogou_ext_20111230 group by uid order by total desc limit 50;

 

uid

total

uid

total

02a8557754445a9b1b22a37b40d6db38

11528

7b634a16c60058536990c0c55c79eb42

340

cc7063efc64510c20bcdd604e12a3b26

2571

6a7d4670dd26d878e12b2c048c280648

337

9faa09e57c277063e6eb70d178df8529

2226

fb3b5f51387932c8996baca6abd54921

337

7a28a70fe4aaff6c35f8517613fb5c67

1292

13140b934a265e8967344050a4d6ddca

322

b1e371de5729cdda9270b7ad09484c4f

1277

a519967011de16ee5f1aa257f25271b9

313

c72ce1164bcd263ba1f69292abdfdf7c

1120

779752cf3d115b126f33d2dab9a1351a

312

2e89e70371147e04dd04d498081b9f61

837

e6e112274223c10e22fd7a117c6b1b60

312

06c7d0a3e459cab90acab6996b9d6bed

720

efcfeccce2328288693568905be5ebfd

298

b3c94c37fb154d46c30a360c7941ff7e

676

f3075aeb9962db17cea21b14797ee19b

289

beb8a029d374d9599e987ede4cf31111

676

b9095a863d4d1a8bd16d4977c4ee9e7b

289

f41fd2711156d4b255f2dcf236d6bb39

641

2b4d3ef902df2dc0ac6993460075384b

288

c65b26d0ceb14896ad901d3c4265e23d

590

02eb52814598699374d8a8e60796415c

288

5342261d204710ccaabd3425bc1c5c2c

502

3330efbf34dd148f14a02e0e7bf8032a

286

d53f50eeda326b5ac64c8782c9935f1b

480

f2941355b9bd97ba9cd6f1fb1f31079e

286

910c5227f0d2ffd870e5b7a9ade789c6

477

ffadcf2db46dc5fc9d7787656ebd7aa4

283

91e62d9148c8d9f71110a4248176a769

472

a9c13627ae747fffc1f1d5d4c08d1fba

279

deff5f2f6b0dd83d6c0609f0ac5a77b3

464

6056710d9eafa569ddc800fe24643051

277

1cf709c4444193f4e4f4f8704ec0ef48

458

120f417c9fbc95e6d95ebd3faf89a05e

276

91de518dad55cd180bba4f1be54c470b

429

e6a6f8003b3c768e6d13be4b4fed97bb

275

4f38c9cc4b139f69722a1afd95053105

425

ee3649c13d209ab84d474c812c680082

272

0d56cf20da81670adf923373d50b7dbc

422

4fb363d1939017db6cd9e8406e6528e0

270

1fbbbcd2587944e60d0dcd4ccac76a78

420

637b29b47fed3853e117aa7009a4b621

266

b4251b30f49e932818bcebf6e15aa9c7

394

d60806329cb0e4383d52f6753cef98b4

259

955c6390c02797b3558ba223b8201915

391

ba64758bfc5ca184c143d1344da7323a

257

8a5bdb441ad0fa41599caf0c3dbdde9e

388

0422c6b3504addf0e90bd6835285f2b9

251

 

可知,a) 查询次数最多的UID为02a8557754445a9b1b22a37b40d6db38,查询了11528次;

b) 查询次数最多的用户查询了11528次,查询次数第二的用户查询了2571次,查询次数第三的用户查询了2226次,查询次数第四的用户查询了1292次,查询次数第五的用户查询了1277次,查询次数第六的用户查询了1120次,其他的用户均小于1000次;

c) 查询次数最多的用户的查询次数远远大于查询次数第二的用户;

d) 从查询次数第15的用户开始,用户间查询次数的差别不大,基本保持在10以内的差别;

4.5 URL分析

url点击排行榜:

hive> select url,count*) as cnt from sogou.sogou_ext_20111230 group by url order by cnt desc limit 50;

得到的结果如下:

url

cnt

url

cnt

http://www.baidu.com/

73737

http://10086.cn/service/

3559

http://www.4399.com/

19015

http://www.qiyi.com/

3441

http://www.hao123.com/

14338

http://sfz.8684.cn/

3408

http://www.youku.com/

14086

http://www.12306.cn/mormhweb/

3401

http://qzone.qq.com/

12920

http://www.ccb.com/

3342

http://www.7k7k.com/

8326

http://dzh.mop.com/whbm/20111230/0/FgSO8zI2887052Fz.shtml

3295

http://weibo.com/

7547

http://tv.sogou.com/series/wxt4vu5644qlxs6nxtgnu.html?p=40230600

3275

http://cf.qq.com/

7544

http://www.qzone.cc/gexing/qian/

3262

http://www.xixiwg.com/

7043

http://www.jprenti.com/

3199

http://www.12306.cn/

6961

http://www.10010.com/

3136

http://dnf.qq.com/

6835

http://site.baidu.com/

3126

http://bbs1.people.com.cn/postDetail.do?id=112546724

6325

http://news.ifeng.com/mainland/special/hetianpaichusuozaoxi/content-3/detail_2011_07/20/7804125_0.shtml

3104

http://www.a67.com/

6048

http://www.dytt8.net/

3087

http://www.qqwangming.org/

6004

http://www.nbtxt.com/detail/12477/

2942

http://tv.sogou.com/series/wxt4vu5644qnbqwbyg62g.html?p=40230600

5508

http://www.icbc.com.cn/

2838

http://www.tudou.com/

5444

http://tv.youku.com/

2821

http://www.zhibo8.com/

4930

http://www.qzone6.com/

2785

http://www.taobao.com/

4928

http://cf.qq.com/act/a20111109happy/new.htm

2670

http://tv.sogou.com/series/wxt4vu5644qlvwv27q.html?p=40230600

4589

http://mail.163.com/

2647

http://www.4399.com/flash/32979aa.htm

4128

http://www.qzone.cc/gexing/name/

2620

http://www.qqgexing.com/

4062

http://www.sina.com.cn/

2606

http://tv.sogou.com/movie/wxt5hmbaxxymd2wkv3ep33wo.html?p=40230600

3847

http://mail.qq.com/

2605

http://movie.youku.com/

3817

http://sports.sina.com.cn/nba/

2558

http://www.5173.com/

3748

http://tv.sogou.com/movie/wxt5hmbazkt4dnndwor3hthm.html?p=40230600

2507

http://baike.baidu.com/view/2414016.htm

3724

http://10086.cn/

2491

可知,a) 用户最后选中url为百度网站的条数为73737条,与在关键词分析中得到的所有查询百度关键词的条数71362条基本吻合,这可能是因为在关键词分析中除了前50中出现的用户在搜索百度网站时用到的关键词外,还有少量用户用了一些少见的关键词来搜索;

b) 用户最后选中url为4399小游戏网站的条数为19015条,这与在关键词分析中得到的以“4399小游戏”关键词出现了11438条、“4399” 关键词出现了7041条,共18479条的数据基本吻合。此外,7k7k小游戏的url点击次数为此类网站第二,为8326次,可能是其潜在的竞争对手;

c) 用户最后选中url为优酷网站的条数为14086条,居此类网站第一,这意味着优酷网站基本上是人们看视频的首选网站;

d) 此外,人们常用的网站还有qq空间、微博、12306、淘宝等。

直接输入URL作为查询词的条数:

hive> select count*) from sogou.sogou_ext_20111230 where keyword  like ‘%www%’;

直接输入URL的查询中,点击的结果就是用户输入的URL的网址的条数:

hive> select SUMIFinstrurl,keyword)>0,1,0)) from select * from

 sogou.sogou_ext_20111230 where keyword  like ‘%www%’) a;

 

可知,a) 直接输入URL作为查询词的条数为73979条,占总记录的1.48%;

b) 直接输入URL的查询中,点击的结果就是用户输入的URL的网址的条数为27561条,占37.26%,从这个比例可以看出,很大一部分用户提交含有URL的查询是由于没有记全网址等原因而想借助搜索引擎来找到自己想浏览的网页。因此搜索引擎在处理这部分查询的时候,一个可能比较理想的方式是首先把相关的完整URL地址返回给用户,这样有较大可能符合用户的查询需求。

4.6  RANK分析

Rank在10以内的条数:

hive> select count*) from sogou.sogou_ext_20111230 where rank < 11;

由得到的结果可知,Rank在10以内的条数为4999869,占总记录的99.997%。这意味着用户在搜索时常常只翻看搜索引擎返回结果的前10个结果,即返回结果页面的第一页。这个用户行为决定了尽管搜索引擎返回的结果数目十分庞大,但真正可能被绝大部分用户所浏览的,只有排在最前面的很小一部分而已。所以传统的基于整个结果集合查准率和查全率的评价方式不再适用于网络信息检索的评价,我们需要着重强调在评价指标中有关最靠前结果文档与用户查询需求的相关度的部分。

5.  多维度用户行为分析

5.1 查询次数最多的用户的用户行为分析

由UID分析部分的结果可知,在2011年12月30日这一天中查询次数最多的用户是02a8557754445a9b1b22a37b40d6db38,下面来具体分析其用户行为。

查看用户02a8557754445a9b1b22a37b40d6db38所查询的关键词及其频次

select keyword,count*) as cnt from sogou.sogou_ext_20111230  where

 uid=’02a8557754445a9b1b22a37b40d6db38′ group by keyword order by cnt

 desc;

得到的部分结果为(频次最高前50):

keyword

cnt

keyword

cnt

幼交小说

41

baidu

11

我和草原有个约定广场舞

37

小说下载 txt 电子书 免费下载

11

伦理快播

36

cf官网

11

遮天

29

五菱荣光商务车报价

11

保险公司的内勤都是靠关系才能进的吗

28

沙特女人吃饭

11

联想u260 二手

25

601106

11

新亮剑

24

2012年会搞笑创意节目

10

百度

24

154四肖

10

人体艺术

23

韩金军

10

qq头像

20

芭比公主

10

E52如何用灵图9

17

赛尔号

10

宁夏金源伟业科技有限公司

17

网上订火车票

10

qq空间

17

低保证明怎么写

10

优酷

16

1683168

10

快播

15

qq网名

10

后宫甄嬛传

13

4399洛克王国

10

钱多多嫁人记

13

中国移动

10

酒店工程部个人工作计划

13

cf

10

沙特女人

13

大魔头

10

新浪微博

12

天目湖旅游度假区开发与水环境保护

9

凰图腾

12

4399

9

http://72dnc.com

11

理赔内勤

9

龙门飞甲

11

雪豹

9

金陵十三钗

11

玛哈嘎拉图片

9

百度一下 你就知道

11

三国杀

9

将查询次数大于等于5的关键词可视化为词云如下:

 

可见,a) 此用户近段时间比较感兴趣的广场舞是“我和草原有个约定”;

b) 此用户近段时间可能有意向找保险公司内勤类的工作;

c) 从词云上可以看出,此用户比较喜欢用长度较长的词语作为关键词进行搜索行为;

查看用户02a8557754445a9b1b22a37b40d6db38在2011年12月30日这一天的各时间段内的查询次数:

 

select hour,count*) as cnt from sogou.sogou_ext_20111230  where

 uid=’02a8557754445a9b1b22a37b40d6db38′ group by hour order by hour

 desc;

得到的结果如下:

hour

cnt

hour

cnt

0

239

12

638

1

186

13

663

2

62

14

661

3

44

15

723

4

29

16

753

5

40

17

697

6

49

18

711

7

90

19

892

8

308

20

885

9

529

21

887

10

591

22

740

11

610

23

501

 

可见,a) 用户在3-7时处于搜索行为的低谷期,基本维持在每小时40条左右的搜索量;

b) 用户在8时、9时的搜索增长速率最大,之后在16时之前保持稳步上升;

c) 用户在17时和18时的搜索量出现局部最低,可能时用户的晚饭时间,因而搜索量减少;

d) 用户在19-21时的搜索量达到一天中的最高峰,用户搜索行为最活跃,可考虑在此时段投放推荐广告等。

5.2 所有url为百度的网站搜索的关键词是什么

由URL分析部分的结果可知,在2011年12月30日这一天中点击次数最多的网站是http://www.baidu.com/,下面来进行具体分析。

 

查看用户点击http://www.baidu.com/所用的搜索关键词及其计数:

hive> select keyword,count*) as cnt from sogou.sogou_ext_20111230 where url=”http://www.baidu.com/” group by keyword order by cnt desc;

得到的结果如下:

keyword

cnt

keyword

cnt

百度

35498

百度网

48

baidu

17560

baibu

45

百度一下 你就知道

6880

badu百度

41

百度一下

6673

baudu

39

www.baidu.com

1446

baudu百度

39

BAIDU

794

www。百度

39

bdu百度一下

256

baud百度一下

36

百度 一下 你就知道

247

百度一下,你就知道

36

baid

220

beidu

34

bai

177

baiud

32

www

160

baidu]

31

百度首页

160

bai du

31

156

badu

30

白度

121

百度地图

30

www。baidu.com

107

baiu

30

www.baidu

106

www。baidu

28

百度、

94

wwwbaiducom

26

摆渡 百度一下

94

bidu

26

百度 一下

93

about:百度

25

baidu

87

百度一下首页

25

www。baidu。com

86

baidui

25

搜索 baidu

82

baiducom

24

搜索 百度

61

百度知道

23

baodu

61

baiduyixia

22

摆渡

53

百度。com

22

 

可见,用户在搜索一个网站时可能出现各式各样的搜索关键词,因而模糊匹配到用户想要的网站很重要,建议模糊匹配频次较高的搜索词。

查询点击http://www.baidu.com/各个时间段的条数:

 

hive> select hour,count*) as cnt from sogou.sogou_ext_20111230 where url=”http://www.baidu.com/” group by hour order hour;

hour

cnt

hour

cnt

0

1588

12

3986

1

1428

13

4297

2

1146

14

4569

3

989

15

4626

4

788

16

4741

5

795

17

4438

6

717

18

4732

7

699

19

4962

8

2038

20

4918

9

3367

21

4461

10

3995

22

3800

11

3695

23

2962

 

可见,搜索百度网站的在时间上的分布基本上与所有搜索行为在时间上的分布大概一致,这也从侧面说明了百度为人们广泛应用。

5.3 查询关键词“仙剑奇侠传”的用户行为分析

查询搜索过“仙剑奇侠传”的uid

hive> select uid,count*) as cnt from sogou.sogou_ext_20111230  where keyword=’仙剑奇侠传’ group by uid order by cnt desc;

得到的结果如下:

uid

cnt

uid

cnt

653d48aa356d5111ac0e59f9fe736429

6

3bc04a0444c08239fca551ad95ca08ae

1

e11c6273e337c1d1032229f1b2321a75

5

3c9a09e25828ca7fa441c9ef16c66a80

1

4d1af2d521b2e72978a68815087dd550

3

45e623de82433688a756275af9be61cc

1

ab90b6700c0f205c520f07e4cc1d7b96

3

50152c1874febb5c7b81075b6437fae0

1

2b71bae0c544d0049be8b2bde01b795f

3

51815c0afe0237b8c43f8aa12011a60a

1

81f26b22a6e52f14c40647c25feb269c

3

5dbe046d05d4397adb2d8dda0b421773

1

82bf38b33596975e1511b8c1f9519644

3

a296f675947f027625f1a4d60ae67e23

1

ba64758bfc5ca184c143d1344da7323a

3

bc615ad74bc05647e59f46ab4da92af6

1

6901e38fa48949c6e3450c1042dc0c73

3

dc953c98270ec152dbdae786160c6a2e

1

02f1e94feaa001f5a19d6d97a5f25f9f

2

fb570c116c556ddb3d712142bcd652b2

1

0ee5179ff89b568dbce2c73136c535c5

2

0d84be52ca3783cd87ac9e9b04e200c6

1

1e57f18af1d9b646c8a003f66720aaa5

2

3b5295a9c7dc63d10a235bab9c04995b

1

2ae3984c3f82650b6c0189e6763be408

2

3fcf0f637c1e97445ae53d0813274771

1

80b65ac2d2f993af78e5484c766e4119

2

5da853c2fa6535b2a03382afd493a4d7

1

99313ba2ea15907e0a8f335c6d74f314

2

7b61cc65359eef75581b86f766a644dd

1

a4f3dbfb256bd25c7e58a1b030c8d95d

2

84724ec293a70aeff25c5983141ea52d

1

ad5cfe784c8aa492eb57c4db6a932ad0

2

b05e49b63ca201549b53a7b7be6b22cb

1

b4b379f3719ce038655c2e816a4542d4

2

b4b0b57023f41c9c232af15feec897aa

1

ea7d6638294045636fcf92c161d51050

2

c78d90abb6d97eef073e70c8ad143a35

1

17533946097b22f09e67741b5f84a8c6

2

ecdb9ff3f0046824d8ff90da47e6bcb0

1

785934a66a53fbe6bc135275283868c1

2

f231ab96f2bf7c18f527506ecc5ee1a7

1

908dd24c58050e2e3f0b132b387e9fdd

2

00160e665054e5f5168183d2766a483c

1

91881679246d00f7b34f0e3313ee0439

2

108414df6fe049fb5f0811d6ac600424

1

9ded72abf69dc3efe556fcbf752df92f

2

3cb06a2751e4c2f5d9fc7032edc8d531

1

c0c82a8fc022c2d64f14188f550954a0

2

55361f45e44caa332157b6e8941179da

1

c9f632be1d7c5f188323f35dfc4264ea

2

57208ce9ef99e760b5bdd9ba992ffe6d

1

f7336296dc7c69a2ffc2178e7c8a7e94

2

863fae4c7c86dc6daa5b55dd1ffe3eb9

1

10fc3f82e8175a90e8c41e3a2cd86812

2

9931ab69327e87878283a1dbc13c9619

1

a530d6385be5967da6dc74f38012a610

2

bac9b55d9b7107dd5b0cdd5ce388d169

1

bc5817fbcd5e2b5d20dc50a29470c262

2

c4acf1919ed442fb11b8c1a32dd91def

1

db6eb39cf39d747b4446fe83bc9fe1c3

2

c5a8bc8c1bcc742cb1bd98bb560f2d91

1

03dcbe547d94f80cafdd1ea7c91c1680

1

cbea098bc581fcf1ecf85922a8b08df5

1

04356f4d2ecaa3774c8024619fb37d30

1

dc4b344aaa0dc765bb5ecee4eca377cc

1

1875e8e340b25647b03a9e4edf05d34f

1

e15cb20f47f519832254d707c36ffbab

1

2f1636d6e198ddf154526ca96a0f99fc

1

e7c8fee27af3d4d3ad778106660b47e2

1

375e1d62e8696d5cf3379c557fbf64f2

1

e9dfe73b154e0a3c99a28427d196e439

1

可知,查询“仙剑奇侠传”较多的用户是653d48aa356d5111ac0e59f9fe736429,为6次,和用户e11c6273e337c1d1032229f1b2321a75,为5次;下面来进一步分析这两个用户的用户行为。

查找uid为653d48aa356d5111ac0e59f9fe736429的相关搜索记录:

hive> select * from sogou.sogou_ext_20111230 where

 uid=’653d48aa356d5111ac0e59f9fe736429′;

得到的结果为:

keyword

url

放羊的星星

http://tv.sohu.com/s2010/fydxx/

放羊的星星

http://tv.sogou.com/series/wxt4vu5644qlpror6k24jugh2ddq.html?p=40230600

放羊的星星

http://tv.sohu.com/s2010/fydxx/

我可能不会爱你

http://tv.sohu.com/s2011/wknbhan/

仙剑奇侠传

http://www.163dyy.com/detail/500.html

仙剑奇侠传

http://www.tvmao.com/drama/WVgxbA==/episode

7聊

http://www.7liaos.com/

7聊

http://www.7liaos.com/

仙剑奇侠传

http://www.163dyy.com/detail/500.html

仙剑奇侠传第一部全集

http://tv.sogou.com/series/wxt4vu5644qm7sn5updont6awsv3lwwsxozl6.html?p=40230600

仙剑奇侠传第一部

http://www.youku.com/playlist_show/id_16700878.html

仙剑奇侠传1

http://tv.sogou.com/series/wxt4vu5644qm7sn5updont6awsv3lwwsxozl6.html?p=40230600

仙剑奇侠转1

http://www.youku.com/playlist_show/id_3549043.html

仙剑奇侠传

http://www.163dyy.com/detail/500.html

仙剑奇侠传

http://www.114dyw.com/teleplay1/xianjianqixiachuan/

仙剑奇侠传

http://www.163dyy.com/detail/500.html

可见,a) 用户653d48aa356d5111ac0e59f9fe736429搜索“仙剑奇侠传”的目的是为了观看影片;

b) 用户653d48aa356d5111ac0e59f9fe736429 希望观看仙剑奇侠传第一部;

c) 同时,放羊的星星也是用户653d48aa356d5111ac0e59f9fe736429目前比较感兴趣的电视剧。

查找uid为e11c6273e337c1d1032229f1b2321a75的相关搜索记录:

hive> select * from sogou.sogou_ext_20111230 where

 uid=’e11c6273e337c1d1032229f1b2321a75′;

得到的结果为:

keyword

url

仙剑奇侠传4官网

http://pal4.52pk.com/

仙剑奇侠传4结局

http://zhidao.baidu.com/question/196334214

仙剑奇侠传4

http://baike.baidu.com/view/10142.htm

仙剑奇侠传3

http://baike.baidu.com/view/33571.htm

仙剑奇侠传2

http://baike.baidu.com/view/246644.htm

仙剑奇侠传

http://baike.baidu.com/view/2188.htm

仙剑奇侠传三外传

http://baike.baidu.com/view/246650.htm

仙剑奇侠传四动画

http://www.56.com/w77/play_album-aid-1824744_vid-MTY3MjkwOTc.html

仙剑奇侠传3结局动画

http://v.youku.com/v_show/id_XNDczMTU3Ng==.html

仙剑奇侠传3结局

http://zhidao.baidu.com/question/143395514

仙剑奇侠传三

http://baike.baidu.com/view/4219.htm

仙剑奇侠传三游戏剧情

http://zhidao.baidu.com/question/106721096

仙剑奇侠传三

http://baike.baidu.com/view/4219.htm

仙剑奇侠传四

http://baike.baidu.com/view/31425.htm

仙剑奇侠传

http://baike.baidu.com/view/2188.htm

仙剑奇侠传二

http://baike.baidu.com/view/246644.htm

仙剑奇侠传

http://baike.baidu.com/view/2188.htm

阿奴

http://baike.baidu.com/view/47446.htm

仙剑奇侠传

http://baike.baidu.com/view/2188.htm

仙剑奇侠传二

http://baike.baidu.com/view/246644.htm

仙剑奇侠传

http://baike.baidu.com/view/2188.htm

Grenade

http://baike.baidu.com/view/2086505.htm

北京庐舍宾馆

http://baike.baidu.com/view/4916228.htm

北京庐舍宾馆

http://www.zhuna.cn/hotel-23516.html

北京庐舍宾馆

http://www.17u.cn/HotelInfo-27993.html

北京庐舍宾馆

http://www.sunnychina.com/hotel/hotel_15894.html

北京庐舍宾馆

http://www.yoostrip.com/hotel/hotel_17602.html

北京庐舍宾馆

http://hotel.elong.com/detail360_cn_00101382.html

如家

http://www.homeinns.com/

东洛杉矶学院

http://baike.baidu.com/view/4932647.htm

东洛杉矶学院

http://www.elac.edu/

可见,a) 用户e11c6273e337c1d1032229f1b2321a75搜索“仙剑奇侠传”的目的更可能是对名为“仙剑奇侠传”的游戏感兴趣;

b) 用户653d48aa356d5111ac0e59f9fe736429 对仙剑奇侠传3和仙剑奇侠传4的结局比较感兴趣;

c) 此外,用户653d48aa356d5111ac0e59f9fe736429对北京庐舍宾馆的搜索次数达到6次,可能其近期要出行。

5.4 较活跃的时间段的行为分析

由时间分析部分的结果可知,在2011年12月30日这一天中搜索行为最活跃的时间段为19-21时,下面来进行具体分析。

在活跃时间段内点击网址排行榜:

hive> select url,count*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in 19,20,21) group by url order by cnt desc;

得到的结果如下(前50):

url

cnt

url

cnt

http://www.baidu.com/

14341

http://www.qzone.cc/gexing/qian/

750

http://www.4399.com/

4606

http://www.nbtxt.com/detail/12477/

744

http://www.youku.com/

3356

http://sfz.8684.cn/

739

http://www.hao123.com/

2836

http://www.5173.com/

719

http://qzone.qq.com/

2188

http://10086.cn/service/

716

http://www.7k7k.com/

2092

http://www.zhibo8.com/

703

http://cf.qq.com/

1490

http://www.dytt8.net/

691

http://www.qqwangming.org/

1463

http://tv.sogou.com/movie/wxt5hmbazkt4dnndwor3hthm.html?p=40230600

672

http://www.xixiwg.com/

1435

http://tv.youku.com/

666

http://www.a67.com/

1413

http://www.qzone.cc/gexing/name/

646

http://tv.sogou.com/series/wxt4vu5644qnbqwbyg62g.html?p=40230600

1401

http://www.jprenti.com/

606

http://weibo.com/

1355

http://tv.sogou.com/series/wxt4vu5644qmplvw4c3obpg6zdf3zry.html?p=40230600

604

http://tv.sogou.com/series/wxt4vu5644qlvwv27q.html?p=40230600

1226

http://www.10010.com/

600

http://www.tudou.com/

1202

http://www.ffdy.cc/

578

http://www.12306.cn/

1094

http://www.ct10000.com/

573

http://www.qqgexing.com/

1040

http://site.baidu.com/

570

http://movie.youku.com/

1000

http://www.ccb.com/

565

http://dzh.mop.com/whbm/20111230/0/FgSO8zI2887052Fz.shtml

975

http://bugu.cntv.cn/live_cctv5/index.shtml

530

http://dnf.qq.com/

949

http://tv.sogou.com/series/wxt4vu5644qmrs5vxxf4jsvo.html?p=40230600

517

http://www.qiyi.com/

921

http://www.qzone6.com/

515

http://baike.baidu.com/view/2414016.htm

901

http://www.touxiang.cn/

505

http://www.taobao.com/

889

http://cf.qq.com/act/a20111109happy/new.htm

505

http://www.4399.com/flash/32979aa.htm

886

http://10086.cn/

504

http://tv.sogou.com/series/wxt4vu5644qlxs6nxtgnu.html?p=40230600

850

http://www.12306.cn/mormhweb/

504

http://tv.sogou.com/movie/wxt5hmbaxxymd2wkv3ep33wo.html?p=40230600

827

http://web.sanguosha.com/

501

可见,a) 在19-21时的活跃时间段内,点击量前5的网站分别是百度、4399游戏、优酷、好123网址导航、QQ空间,可以考虑此时段在这几个网站上投放广告等;

b) 在19-21时的活跃时间段内,百度网站的点击量为14341次,占全天总次数73737次的19.49%;

在活跃时间段内搜索关键词排行榜:

hive> select keyword,count*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in 19,20,21) group by keyword order by cnt desc;

得到的结果如下(前50):

keyword

cnt

keyword

cnt

百度

7172

新亮剑全集

811

baidu

3516

电影

792

4399小游戏

2781

快播

769

人体艺术

2627

优酷网

736

优酷

2507

电影天堂

706

新亮剑

2333

youku

689

公安卖萌

2159

cf官网

679

qq空间

1732

吞噬星空

672

4399

1666

新疆暴徒被击毙图片

662

魏特琳

1608

qq分组

660

黑狐

1580

土豆网

658

百度一下 你就知道

1573

武动乾坤

655

qq网名

1534

凰图腾全集

652

7k7k小游戏

1524

仙逆

645

百度一下

1449

儿子与母亲不正当关系

644

李宇春体

1267

张去死

640

龙门飞甲

1205

火影忍者

620

qq头像

1017

赛尔号

598

新浪微博

1011

钱多多嫁人记

574

hao123

967

迅雷看看

559

123

909

季莫申科情人 图

556

qq个性签名

904

遮天

549

凰图腾

901

身份证号码大全

541

金陵十三钗

874

失恋33天

535

4399洛克王国

870

土豆

527

可知,a) 在19-21时的活跃时间段内,用户搜索的最多的关键词依旧是百度,这说明百度已是用户的首选搜索引擎;

b) 在19-21时的活跃时间段内,用户搜索的关键词排行与全天的用户搜索关键词的排行并无较大区别。

在活跃时间段内用户排行榜:

hive> select uid,count*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in 19,20,21) group by uid order by cnt desc;

得到的结果如下:

uid

cnt

uid

cnt

02a8557754445a9b1b22a37b40d6db38

2664

0d56cf20da81670adf923373d50b7dbc

99

cc7063efc64510c20bcdd604e12a3b26

590

91e62d9148c8d9f71110a4248176a769

91

7a28a70fe4aaff6c35f8517613fb5c67

305

116773275003fd2abffc4288f13b1745

90

b1e371de5729cdda9270b7ad09484c4f

292

b7dce820ccdb4b3a75a64cbf9dcc11c5

90

c72ce1164bcd263ba1f69292abdfdf7c

254

7b634a16c60058536990c0c55c79eb42

89

9a12bf7ee5ea954660092df0ef34acb4

177

ba8c0225b1b6062e892e04982073db7a

87

ef86311727c54aa1d1bda5cc4ffcd329

173

648754a2563bd5b36e028afbe927dfd1

87

84e781a747ac7d0d723c8b9f0cc6b87f

169

9ded8ab2cc8504e1d6cf87903f5e25b8

86

13140b934a265e8967344050a4d6ddca

156

e6e112274223c10e22fd7a117c6b1b60

86

3e6a34613757d1ce0f6d6d97102ebaad

142

2aa714ded74edc258a7dd5c5e2c75015

84

deff5f2f6b0dd83d6c0609f0ac5a77b3

130

02eb52814598699374d8a8e60796415c

83

f41fd2711156d4b255f2dcf236d6bb39

124

f3075aeb9962db17cea21b14797ee19b

83

b3c94c37fb154d46c30a360c7941ff7e

123

4f38c9cc4b139f69722a1afd95053105

82

06c7d0a3e459cab90acab6996b9d6bed

120

c25a84ec0f90088b35a34d5d7d3264dd

81

c3ac142de38ded8dfe7f24f927ea4829

120

955c6390c02797b3558ba223b8201915

81

779752cf3d115b126f33d2dab9a1351a

116

878158a83a09246e78d920129f83f77c

81

d53f50eeda326b5ac64c8782c9935f1b

114

6ff3b606c01fff5ebff1e2b2bbef2d31

81

b08b9d292d1aa0986f01b50bc5b4cec3

110

a53cc832a80241ba08754401331b3d87

80

91857a446849a86f2722f1ed885814d9

108

d524ac3d106082da06ec70b45e40d8af

77

b4251b30f49e932818bcebf6e15aa9c7

105

ab754186afd495ff1eccb3ecea0d2898

76

9907a0874dec6825bc797a73eb0d6d29

103

9223efff33f092f888106e3f5ce4912b

76

f050339e5fd8c08948b3474b7fc67eb7

101

beb8a029d374d9599e987ede4cf31111

75

71907d498018fad5c612c72606130681

101

e425eb5aebfdcec0f8f4aa05aba21e64

75

7bd1088c653b53934dc4e1d31aa911eb

100

91de518dad55cd180bba4f1be54c470b

73

c65b26d0ceb14896ad901d3c4265e23d

99

ffadcf2db46dc5fc9d7787656ebd7aa4

73

可知,a) 在19-21时的活跃时间段内,进行搜索行为最多最活跃的用户是02a8557754445a9b1b22a37b40d6db38,与全天进行搜索行为最多最活跃的用户是同一个;

b) 在19-21时内,最活跃用户02a8557754445a9b1b22a37b40d6db38的搜索次数远大于排名第二的用户,此情形与全天的搜索排行情况相同。

5.5 Rank与Order的相关性分析

被用户第一次点击的总条数:

hive> select count*) from sogou.sogou_ext_20111230 where order=1;

Rank 前10的被第一次点击的条数

hive> select count*) from sogou.sogou_ext_20111230 where rank<11 and order=1;

Rank 前5的被第一次点击的条数

hive> select count*) from sogou.sogou_ext_20111230 where rank<6 and order=1;

Rank前3的被第一次点击的条数

hive> select count*) from sogou.sogou_ext_20111230 where rank<4 and order=1;

Rank前1的被第一次点击的条数

hive> select count*) from sogou.sogou_ext_20111230 where rank<2 and order=1;

可知,a) 被用户第一次点击的条数为3465833条;

b) Rank为前10、5、3、1的网站被第一次点击的条数分别为3465784条、3197784条、2898900条、1942685条,分别占所有被用户第一次点击的总条数的99.9986%、92.266%、83.64%、56.05%,Rank为前1的条目被点击的概率已达到56.05%,说明Rank为前1的条目被点击的概率是很大的,而且用户第一次点击的几乎所有都是Rank在10以内的条目,可考虑将重要更匹配用户搜索字段的条目放在Rank前10的位置。

所有Rank为1的条数:

hive> select count*) from sogou.sogou_ext_20111230 where rank=1;

Rank为1的条目在1次内被点击的条数:

hive> select count*) from sogou.sogou_ext_20111230 where rank=1 and order<2;

Rank为1的条目在3次内被点击的条数:

hive> select count*) from sogou.sogou_ext_20111230 where rank=1 and order<4;

Rank为1的条目在5次内被点击的条数:

hive> select count*) from sogou.sogou_ext_20111230 where rank=1 and order<6;

Rank为1的条目在10次内被点击的条数:

hive> select count*) from sogou.sogou_ext_20111230 where rank=1 and order<11;

可知,a) 所有Rank为1的条数为2071720条;

b) Rank为1的条目在1次内被点击、在3次内被点击、在5次内被点击、在10次内被点击的条数分别为1942685条、2062703条、2070397条、2071720条,分别占Rank为1总条数的93.77%、99.56%、99.94%、100%,Rank为1的条目在1次内被点击的概率已达到93.77%之高,而在3次内被点击的概率达到99.56%,说明Rank为1的条目基本上三次内便会被用户点击到,可见rank为1的条目的重要性,可考虑将更重要更匹配用户搜索字段的条目放在此处。

由此可知,Rank与Order有一定的相关性,一般来讲,被放在越前面的条目更可能被用户点击到,即rank越小,order倾向于越小。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注