腾讯信息流平台学习笔记

兴趣点图谱,信息流推荐

门户时代:手动文本分类

搜索时代:关键词计算,倒排索引,TFIDF

智能时代:知识图谱,解决歧义问题,实体消歧

个性化推荐

基于好友的推荐:微信看一看

基于用户的推荐:构建用户画像,文章描述内容,通过算法进行匹配(NLP技术)

文本分类 tag抽取 知识图谱消歧

主题和tag输入用户模型

问题:用户点击文章一定是对汽车感兴趣吗,一定是某一款车型吗

人是怎么解决的

本田思域 现代伊兰特

价位 经济耐用 省油 福克斯 尼桑

概念:有一类相同属性的集合

已有的工作

ProBase 微软团队,概念图谱

DBpedia 实体间的关系,实体链指

问题:英文hearst patterns不符合中文习惯,没有从用户视角,ugc问答类、论坛类、query类数据,query类有时效性

提出兴趣点图谱ConcepT

中间添加一层概念层,上文位关系,推理意图

期望

1.用户视角,通过搜索数据

2.例行化更新,反应用户concept变化趋势

KDD2019论文中挖掘了20万user-centered concept,每天新增1万多个概念,目前线上70万,每天新增几百个

概念挖掘

query-concept

文章除了提取tag还提取了concept,只推荐tag范围小,concept范围大效果好

算法

三类方法挖掘候选,通过判别器生成结果(过滤粒度粗的词)

pattern-concept bootstrapping

定义了几种pattern比如十大xxx,xxx排行榜,挖掘用户concept。所有query找到关键字,再找包含关键字的query,再生成pattern,给pattern打分,容易发生语义偏移,准确率高,覆盖面少

query-title alignment

query-用户点击结果-筛选匹配的词-通过n-gram挖掘出概念,容易出现噪音

sequence labeling

序列标注模型,没有训练样本,用前两种的数据自动标注训练样本

如何从文章预测出concept

关键词提取-匹配concept-通过推理

关键词实体

GBRank,统计特征,词性,tfidf,ner特征,用word2vec连接成子图,Re-ranked重排序

用实体预测概念

实体isA关系找到concepts,概念和实体共现次数,超过一定值,说明有联系;

推理的方式

通过实体周围的词,对concept分词,建立倒排索引;上下文概率累加公式,实体-上下文-concept判断重要程度

概率分布建设一二层联系,用户点击网页半监督建设二三层联系

增强搜索引擎

用户搜索concept返回关键词实体,插入一些实体作为query的搜索结果

用户搜索是实体,返回更多相关concept的实体

基于概念的推荐系统,提取概念的相关文档,通过CTR rank后推荐给用户

实验

对比几种方法,英文正规文本效果不好,没有从用户角度出发

每天96700新文章,有35%的文章能抽取概念

每个concept包含3.44个实体,isA准确率96.59%

线上系统

IPV IUV CPV CUV线上指标均有提升

总结

1.从用户视角挖掘出概念的集合,能预测到文章,加入用户模型中做推荐

2.提升短文本长文本理解

3.在粗粒度分类,抽取式关键词基础上,能够推理、联想,理解用户背后意图

4.从不规范的UGC query中提取concept