1. 案例背景
对于今日头条等新闻类APP,用户在众多新闻,资讯中,都有一定感兴趣的类别。比如男生的历史,军事,足球等,女生的财经,八卦,美妆等。如果能将用户更感兴趣的类别新闻主动筛选出来,并进行推荐阅读,那么点击量,订阅量,付费量都会有明显增长。
基于上述原因,此类新闻APP的推荐系统中,就需要内嵌一个子任务:将短文本(新闻标题)自动进行多分类,然后想快递一样的”投递“到对应的”频道“中。本案例就是为了完成这个功能。
2. 数据集
2.1 项目数据来源
在实际项目中,数据来源基本分为3种:
- 公司内部数据部门提供
- 情况1:数据平台有预处理, 提供的是"成品数据".(很少)
- 情况2: 数据平台没有预处理, 只告诉开发人员"数据路径".
- 情况3:原始数据就没有, 需要开发人员沟通不同部分, 获取"业务数据".
- 甲方提需求, 并提供数据
- 情况1: 甲方有预处理数据, 提供的基本是"半成品数据".
- 情况2: 甲方只负责"埋点", 后续数据需要开发人员处理.
- 情况3: 甲方数据"匮乏", 甚至数据"缺失".
- 需求画大饼阶段, 没有数据, 没有GPU, 只有"蓝图"和"展望
2.2 案例数据介绍
本案例中,数据集有训练集(train.txt)、验证集(dev.txt)、测试集(test.txt)和类别名称(class.txt)
- 训练集 180000条数据
- 验证集 10000条数据
- 测试集 10000条数据
- 类别标签(10类) :finance realty stocks education science society politics sports game entertainment
数据集文件中,新闻标题文本和标签之间是按照制表符
\t
分隔,但是在打开时候部分样本中间分隔看着呈现是一个空格,需要将文件用Python读入打印即可看出