兴趣点图谱，信息流推荐

门户时代：手动文本分类

搜索时代：关键词计算，倒排索引，TFIDF

智能时代：知识图谱，解决歧义问题，实体消歧

个性化推荐

基于好友的推荐：微信看一看

基于用户的推荐：构建用户画像，文章描述内容，通过算法进行匹配（NLP技术）

文本分类 tag抽取知识图谱消歧

主题和tag输入用户模型

问题：用户点击文章一定是对汽车感兴趣吗，一定是某一款车型吗

人是怎么解决的

本田思域现代伊兰特

价位经济耐用省油福克斯尼桑

概念：有一类相同属性的集合

已有的工作

ProBase 微软团队，概念图谱

DBpedia 实体间的关系，实体链指

问题：英文hearst patterns不符合中文习惯，没有从用户视角，ugc问答类、论坛类、query类数据，query类有时效性

提出兴趣点图谱ConcepT

中间添加一层概念层，上文位关系，推理意图

期望

1.用户视角，通过搜索数据

2.例行化更新，反应用户concept变化趋势

KDD2019论文中挖掘了20万user-centered concept，每天新增1万多个概念，目前线上70万，每天新增几百个

概念挖掘

query-concept

文章除了提取tag还提取了concept，只推荐tag范围小，concept范围大效果好

算法

三类方法挖掘候选，通过判别器生成结果（过滤粒度粗的词）

pattern-concept bootstrapping

定义了几种pattern比如十大xxx，xxx排行榜，挖掘用户concept。所有query找到关键字，再找包含关键字的query，再生成pattern，给pattern打分，容易发生语义偏移，准确率高，覆盖面少

query-title alignment

query-用户点击结果-筛选匹配的词-通过n-gram挖掘出概念，容易出现噪音

sequence labeling

序列标注模型，没有训练样本，用前两种的数据自动标注训练样本

如何从文章预测出concept

关键词提取-匹配concept-通过推理

关键词实体

GBRank，统计特征，词性，tfidf，ner特征，用word2vec连接成子图，Re-ranked重排序

用实体预测概念

实体isA关系找到concepts，概念和实体共现次数，超过一定值，说明有联系；

推理的方式

通过实体周围的词，对concept分词，建立倒排索引；上下文概率累加公式，实体-上下文-concept判断重要程度

概率分布建设一二层联系，用户点击网页半监督建设二三层联系

增强搜索引擎

用户搜索concept返回关键词实体，插入一些实体作为query的搜索结果

用户搜索是实体，返回更多相关concept的实体

基于概念的推荐系统，提取概念的相关文档，通过CTR rank后推荐给用户

实验

对比几种方法，英文正规文本效果不好，没有从用户角度出发

每天96700新文章，有35%的文章能抽取概念

每个concept包含3.44个实体，isA准确率96.59%

线上系统

IPV IUV CPV CUV线上指标均有提升

总结

1.从用户视角挖掘出概念的集合，能预测到文章，加入用户模型中做推荐

2.提升短文本长文本理解

3.在粗粒度分类，抽取式关键词基础上，能够推理、联想，理解用户背后意图

4.从不规范的UGC query中提取concept