兴趣点图谱,信息流推荐
门户时代:手动文本分类
搜索时代:关键词计算,倒排索引,TFIDF
智能时代:知识图谱,解决歧义问题,实体消歧
个性化推荐
基于好友的推荐:微信看一看
基于用户的推荐:构建用户画像,文章描述内容,通过算法进行匹配(NLP技术)
文本分类 tag抽取 知识图谱消歧
主题和tag输入用户模型
问题:用户点击文章一定是对汽车感兴趣吗,一定是某一款车型吗
人是怎么解决的
本田思域 现代伊兰特
价位 经济耐用 省油 福克斯 尼桑
概念:有一类相同属性的集合
已有的工作
ProBase 微软团队,概念图谱
DBpedia 实体间的关系,实体链指
问题:英文hearst patterns不符合中文习惯,没有从用户视角,ugc问答类、论坛类、query类数据,query类有时效性
提出兴趣点图谱ConcepT
中间添加一层概念层,上文位关系,推理意图
期望
1.用户视角,通过搜索数据
2.例行化更新,反应用户concept变化趋势
KDD2019论文中挖掘了20万user-centered concept,每天新增1万多个概念,目前线上70万,每天新增几百个
概念挖掘
query-concept
文章除了提取tag还提取了concept,只推荐tag范围小,concept范围大效果好
算法
三类方法挖掘候选,通过判别器生成结果(过滤粒度粗的词)
pattern-concept bootstrapping
定义了几种pattern比如十大xxx,xxx排行榜,挖掘用户concept。所有query找到关键字,再找包含关键字的query,再生成pattern,给pattern打分,容易发生语义偏移,准确率高,覆盖面少
query-title alignment
query-用户点击结果-筛选匹配的词-通过n-gram挖掘出概念,容易出现噪音
sequence labeling
序列标注模型,没有训练样本,用前两种的数据自动标注训练样本
如何从文章预测出concept
关键词提取-匹配concept-通过推理
关键词实体
GBRank,统计特征,词性,tfidf,ner特征,用word2vec连接成子图,Re-ranked重排序
用实体预测概念
实体isA关系找到concepts,概念和实体共现次数,超过一定值,说明有联系;
推理的方式
通过实体周围的词,对concept分词,建立倒排索引;上下文概率累加公式,实体-上下文-concept判断重要程度
概率分布建设一二层联系,用户点击网页半监督建设二三层联系
增强搜索引擎
用户搜索concept返回关键词实体,插入一些实体作为query的搜索结果
用户搜索是实体,返回更多相关concept的实体
基于概念的推荐系统,提取概念的相关文档,通过CTR rank后推荐给用户
实验
对比几种方法,英文正规文本效果不好,没有从用户角度出发
每天96700新文章,有35%的文章能抽取概念
每个concept包含3.44个实体,isA准确率96.59%
线上系统
IPV IUV CPV CUV线上指标均有提升
总结
1.从用户视角挖掘出概念的集合,能预测到文章,加入用户模型中做推荐
2.提升短文本长文本理解
3.在粗粒度分类,抽取式关键词基础上,能够推理、联想,理解用户背后意图
4.从不规范的UGC query中提取concept