![TensorFlow知识图谱实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/115/44510115/b_44510115.jpg)
上QQ阅读APP看书,第一时间看更新
1.6.1 第一步:数据的准备
做知识图谱的第一步(也是重要的步骤)就是数据的准备。数据的来源多种多样,既有不同类型的数据集,也有根据项目需求由项目组自行准备的数据集。本例中笔者准备一份体育影视明星数据,形式如图1.28所示。
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P36_4277.jpg?sign=1739402292-6BMIgw8NG8sWGAXfIsdlDcJ2UBe7N74c-0-c0b9036ede60edb72cfc96a372a08afb)
图1.28 一份体育影视明星数据集
文本是由json这种非结构化数据构成的,不同的key值对应不同的内容。获取其内容的方法可以采用字典的形式进行。数据集中需要注意的是以下几个特定的key:
- text:文本内容。
- new_spo_list:三元组实体组合。
- s:主体。
- p:依赖关系。
- o:属性。
- entity:内容。