- 将自发分步自纠错能力引入大语言模型,提升模型数学推理能力
- 在GSM8K、MATH等多个数学评估基准上提升较为显著
- 将KBQA分解为问题解析、实体链接、查询构建和答案生成四个阶段,在每个阶段设计一个基于 LLM 的端到端解决方案,完成KBQA的全流程
- 在不使用训练集的情况下,取得多个KBQA数据集的SOTA
- 设计功能词汇识别算法和主题词上下位关系计算方法
- 对1203个科技领域下的90万篇科技论文进行自动功能标引和主题标引
- 构建科技论文知识图谱,包含 190 万节点和 1640 万关系
- 千万级商品知识库上的多模态检索
- 使用CLIP,高效提取商品文本特征与视觉特征
- 使用Faiss构建向量检索索引,检索时间低于0.5s,准确率不低于85%
- 设计功能词汇识别算法和主题词上下位关系计算方法
- 对1203个科技领域下的90万篇科技论文进行自动功能标引和主题标引
- 构建科技论文知识图谱,包含190万节点和1640万关系
- 设计基于知识图谱的科技论文检索系统,支持学者的探索型检索需要
- 发表论文:Yan, Y., & Chen, C. SciGraph: A Knowledge Graph Constructed by Function and Topic Annotation of Scientific Papers[C]. EEKE@JCDL2022.
- 构建术语共现网络和术语语义网络
- 依据生成的网络形成术语的层次概念体系
- 基于层次概念体系,梳理概念粒度,完成术语概念规范化
- 负责基于语义的知识实体提取和实体链接
- 在550万篇科技论文上进行中图分类、主题词推荐、实体推荐等任务
- 爬取新冠疫情相关网络谣言,分析谣言特征,提出公信指数、微博影响力等深层特征
- 构建基于BERT的文本模型,并与情感模型、用户与传播模型集成,F1值达0.93
- 发表论文:颜聿辰,郑婧林,李轶楠,陈翀. 基于多维特征和集成学习的网络谣言识别研究. 2021年中国情报学年会.