淘宝网语义分析产品、技术介绍 -...

38
淘宝网语义分析产品、技术介绍 王天舟(空海) 淘宝网-交易线-语义分析

Upload: others

Post on 17-Jun-2020

22 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

淘宝网语义分析产品、技术介绍

王天舟(空海)

淘宝网-交易线-语义分析

Page 2: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

个人介绍 • 花名空海

Page 3: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

淘宝网中的文本

□ 淘宝主站:

• 30亿店铺、宝贝浏览

• 10亿计的在线宝贝数

• 千万量级交易笔数

□文本数据:

•用户评论

•商品标题、详情页

•用户query数据

•SNS、论坛等其他数据

Page 4: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

海量文本数据带来的价值和挑战

有限框架数据的补充、用户UGC信息

如何结构化、高效计算

呈现文本数据挖掘文本价值

文本源数据

抽取特征、

构建向量 评估、展现

向量算法

Page 5: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

语义分析平台架构总览

评价 详情页 SNS/分享数据 文本 数据

层次聚类 谱系聚类 聚类算法

SVM/ANN/决策树/贝叶斯

分类算法

大家印象 U站推荐 UE反馈 产品

分词/新词 特征计算层

商品标题

词之间相关 序列标注 句法分析 实体语义

北极圈

Kmeans KNN

Page 6: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

今天的话题

□相关业务场景: 标签、内容、分类打标

□相关算法和问题

□文本技术拓展

Page 7: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

文本标签服务

内容相关、相似 框架提取

文本分类

Page 8: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

单品标签 “大家印象”

Page 9: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

商品导购标签

标签范围不确定:卖家自填商品标签;买家行为标签 通过算法圈定标签,如搜索query: 1、关键字聚合(商品重合度\购买人群重合度) 2、关键字筛选(搜索UV\商品数量\购买转化) 标签范围确定:买家自然属性 BI根据以往数据确定标签范围(如:18岁以下\18岁—25岁\25岁-35岁\35岁以上)

怎么样的标签的规模是合适的,长尾标签怎么处理? 需要BI提供数据模型,对标签的规模、数量提供界定范围; 根据标签覆盖的商品数来确定需要增加的标签。

根据商品和标签的关联性,对商品进行打标。

如用户偏好点击、购买、收藏的商品;商品的标题、属性相关性;商品与商品之间的关联性

商品打标 名校大学生

北京白领

白富美 牙痛

情侣 苍老师

头层皮

惠美

小清新

海宁

真皮 深

V

禅 西湖

美女送货

24

夜市

复古

胖妞

独家

广货

村姑

原创

卡通

果粉

陌陌

大妈

宅男

高端

90后

婆婆

甜蜜蜜

夜店

结婚

那些事

Page 10: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

业务主线—人的维度重组推荐

逛店铺.业务框架:

类目list 类目+属性list 频道页 大促聚合结果list Combo Shortcut …

消费者

标签重组

找到店铺

机器挖掘

标签

赞同标签

消费目的 达成

产生标签

和好友互动

标签偏好

语义分析+词库

数据转换文本

自发现

店铺导购标签

Page 11: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

标签当中的问题

标签的来源 标签的属性词义 标签的关系

Page 12: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

标签来源、分词问题

□一元分词

□二元分词

□CRF分词

夏季 新款 女装 雪纺 连衣裙

夏季 新款 女装 雪纺 连衣裙

夏季 新款 女装 雪纺 连衣裙

B E B E B E BE BM E

Page 13: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

标签中的短语、新词来源

• 互信息、聚合度、左右熵发现二元

• 前缀树发现长字符串模式

Page 14: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

序列标注问题

隐马尔可夫模型(Hidden Markov Model,HMM)

最大熵模型(Maximum Entropy Model,MEM)

条件随机场(conditional random fields,CRF)

均可以看做概率图模型的不同表现形式

Page 15: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

实体识别的标注问题

Page 16: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

标签间的关系 手机套和手机外壳 手机壳和Iphone4S 手机壳

共同的购买人群(协同过滤)…

超薄和女士

合并

标签的结构化: 类目、来源、变化、内容

从属 关联

Page 17: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

标签词语之间关系问题

Page 18: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

产品框架

数据源

标签系统

搜索

交易

用户特征

标题

详情

评价

资讯

专辑

日记

百科

功能层:

模型层: 筛选 剔出 合并

打标商品范围确定 商品重合比例 人群选择 人群重合比例

管理层: 类目、来源、变化速度、内容…

业务场景 首页 频道 搜索 场景、主题页

List …

Page 19: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

其他文本标签问题

• 标签质量判定

• 标签排序、相关性展现

• 标签合并去重

Page 20: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

内容相关、提取问题

U站内容推荐

相似Query查询

特定内容提取

Page 21: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

如何分析相关内容

• 人的行为

• 词之间相关性

• 句子、段落之间相关性

Page 22: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

同义词、近义词、词之间关系

• 基于统计

• 基于词法分析

• 基于行为

Page 23: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

句法分析

□ 短语句法分析

head-rule, lexicalize, grammar-based un-lexicalize

□ 依存句法分析

memory based,classifier-based,

feature-verification

Page 24: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

语义推荐

Page 25: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

内容提取问题

• 关键词、中心词

• 特定场景地址、礼物

Page 26: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

分类打标问题

Page 27: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性
Page 28: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性
Page 29: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

分类打标问题

Page 30: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

t2

t3 D1

D2

D10

D3

D9

D4

D7 D8

D5

D11

D6

Q

单词向量化问题

Page 31: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

机器分类问题

... C6 C7 C5 C4 C1 C3 Cn C2

d3 d1 dm

Page 32: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

词库建设

Page 33: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

小结

• 互联网环境下的语义

• 词库的构架和沉淀

• 基础相关算法

Page 34: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

文本技术相关介绍

Page 35: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

数据聚类、天然类目、类目团蔟

Page 36: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

谱系、层次聚类

Page 37: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

图片语义应用

Page 38: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性

谢谢