Skip to content

明代关联文本抽取案例

文学研究文本对读相似文本抽取异文抽取明代小说明代史料抽取文本生成文本简单模式高级模式链式生成
【案例说明】本案例的目标是从明代不同的文献中找出相似文本以及相似文本中的差异文字。本案例用三个测试案例说明了如何实现两本完整文献的关联文本对比。

1. 相似文本抽取测试

1.1 任务目标

从两段不同类型的文本中找到相似文本,并用结构化方式输出,说明相似文本段落的主题、文献名并引用原文。

1.2 原始数据说明

《西洋记》第五十回满刺伽国国王的进贡礼单:

珍珠十颗(径寸),叆叇十枚(状如眼镜,观书可以助明,价值百金),黄速香十箱,花锡一百担(本国有一大溪,溪中淘沙煎之成锡,铸成斗样,名曰斗锡,每块重一斤八两,每十块用藤缚为小把,四十块为大把,通市交易),黑熊二对,黑猿二对,白鹿十只,白麂十只,红猴二对,火鸡二十(其色紫赤,其子壳厚,重一钱有余,或斑或白,可为饮盏,能食火吐气,故名。与渤淋国不同),波罗蜜二匣(果名,实生干上,形如冬瓜,皮似栗子多刺,刺内有肉层迭,味最佳),做打麻二坛(树脂结成者,夜点有光,涂之船上,水不能入),茭蔁簟十床(茭蔁,草名,叶如刀茅,织之成簟),茭蔁酒十坛(茭蔁子如荔枝,酿之成酒)

《瀛涯胜览》和《星槎胜览》两本史料的“满剌加国”条:

土产黄速香、乌木打麻儿香、花锡之类。打麻儿香本是一等树脂,流出入土,掘出如松香、沥青之样,火烧即着。番人皆以此物点照当灯。番船造完,则用此物熔涂于缝,水莫能入……花锡有二处山坞锡场,王命头目主之,差人淘煎,铸成斗样,以为小块输官,每块重官秤一斤八两或一斤四两,每十块用藤缚为小把,四十块为大一把,通市交易皆以此锡行……海之州渚岸边生一等水草,名茭蔁。叶长如刀茅样,似苦笋,壳厚,性软,结子如荔枝样、鸡子大。人取其子酿酒,名茭蔁酒,饮之亦能醉人。乡人取其叶结竹细簟,止阔二尺,长丈余,为席而卖。果有甘蔗、芭蕉子、波罗蜜、野荔枝之类。(《瀛涯胜览》)

内有一山泉流溪下,民以流中淘沙取锡,煎销成块,曰斗块,每块重官秤一斤四两。及织蕉心簟。惟以斗锡通市,余无产物。(《星槎胜览》)

1.3 目标数据

将《西洋记》、《瀛涯胜览》和《星槎胜览》中关于“满剌加国”的记载中的相似文本抽取出来。即下面单下划线文字:

《西洋记》第五十回满刺伽国国王的进贡礼单:

珍珠十颗(径寸),叆叇十枚(状如眼镜,观书可以助明,价值百金),黄速香十箱,花锡一百担(本国有一大溪,溪中淘沙煎之成锡,铸成斗样,名曰斗锡,每块重一斤八两,每十块用藤缚为小把,四十块为大把,通市交易),黑熊二对,黑猿二对,白鹿十只,白麂十只,红猴二对,火鸡二十(其色紫赤,其子壳厚,重一钱有余,或斑或白,可为饮盏,能食火吐气,故名。与渤淋国不同),波罗蜜二匣(果名,实生干上,形如冬瓜,皮似栗子多刺,刺内有肉层迭,味最佳),做打麻二坛(树脂结成者,夜点有光,涂之船上,水不能入)茭蔁簟十床(茭蔁,草名,叶如刀茅,织之成簟)茭蔁酒十坛(茭蔁子如荔枝,酿之成酒)

《瀛涯胜览》和《星槎胜览》的“满剌加国”条:

土产黄速香、乌木打麻儿香、花锡之类。打麻儿香本是一等树脂,流出入土,掘出如松香、沥青之样,火烧即着。番人皆以此物点照当灯。番船造完,则用此物熔涂于缝,水莫能入……花锡有二处山坞锡场,王命头目主之,差人淘煎铸成斗样,以为小块输官,每块重官秤一斤八两或一斤四两,每十块用藤缚为小把,四十块为大一把,通市交易皆以此锡行……海之州渚岸边生一等水草,名茭蔁。叶长如刀茅样,似苦笋,壳厚,性软,结子如荔枝样、鸡子大。人取其子酿酒,名茭蔁酒,饮之亦能醉人。乡人取其叶结竹细簟,止阔二尺,长丈余,为席而卖。果有甘蔗、芭蕉子、波罗蜜、野荔枝之类。(《瀛涯胜览》)

内有一山泉流溪下,民以流中淘沙取锡,煎销成块,曰斗块,每块重官秤一斤四两。及织蕉心簟。惟以斗锡通市,余无产物。(《星槎胜览》)

1.4 期望输出

  1. 分条准确提取两段文字中的相似文本,包括文字相同、语义相近和主题相关的文本。

  2. 每一条需要给出相似文本的主题、文献名并引用原文。

  3. 所有字段均以文本类型输出。

1.5 表格配置

字段名称字段描述字段数据类型
文本1文本
文本2文本
相似文本 抽取出「文本1」和「文本2」中的相似字段,需给出文献名称。包括文字相同、语义相近和主题相关的文本。

格式如下:
主题:xxxxx

文本1《xxx》: “引用原文内容”
文本2《xxx》: “引用原文内容”
文本

Tips:

1.为了让抽取结果的格式更加符合期望,可以在“字段描述”中加入对于格式的说明。

2.尽量详细地说明要抽取哪些文本内容。

图1

智能化配置

  1. 选择简单模式。

  2. 选择字段类型:

    a. 输入字段:文本1、文本2

    b. 智能输出字段:相似文本

  3. 选择模型:DeepSeek R1。

图2
  1. 未添加示例。

配置文件

相似文本抽取-完整配置.json

1.6 抽取结果

相似文本抽取_关联文本.xlsx

2. 异文抽取测试

2.1 任务目标

从两段相似文本中找到差异文字,并用结构化方式输出,说明差异文字所在句子的文献名、差异点并引用原文。

2.2 原始数据说明

《西洋记》第一回:

却说这个孔夫子生在鲁之曲阜昌平乡阙里,身长九尺二寸,腰大十围,凡四十九表,眉有一十二彩,目有六十四理。其头似尧,其颡似舜,其项似皋陶,其肩似子产。学贯天人,道穷秘奥,龟龙衔负之书,七政六纬之事,包羲、黄帝之能,尧、舜、周公之美,靡不精备。删《诗》《书》,定《礼》《乐》,赞《周易》,修《春秋》。教授于洙南泗北,门徒三千,博徒六万,达者七十二人。历代诏封他做大成至圣文宣王。

《新刻出像增补搜神记》:

鲁之曲阜昌平乡阙里,身长九尺二寸,腰大十围,凡四十九表,眉有一十二彩,目有六十四理。其头似尧,其颡似舜,其项类皋陶,其肩类子产。学极天人,道穷秘奥,龟龙衔负之书,七政五纬之事,包羲、黄帝之能,尧、舜、周公之美,靡不精备。删《诗》《书》,定《礼》《乐》《系辞》《春秋》。告弟子于洙南泗北,门徒三千,博徒六万,达者七十二人。大成至圣文宣王。

2.3 目标数据

将《西洋记》和《新刻出像增补搜神记》中关于孔子的相似文本中的异文抽取出来。即下面高亮的文字:

《西洋记》第一回:

却说这个孔夫⼦⽣在鲁之曲⾩昌平乡阙⾥,⾝⻓九尺⼆⼨,腰⼤⼗围,凡四⼗九表,眉有⼀⼗⼆彩,⽬有六⼗四理。其头似尧,其颡似舜,其项皋陶,其肩子产。学天人,道穷秘奥,龟龙衔负之书,七政纬之事,包羲、黄帝之能,尧、舜、周公之美,靡不精备。删《诗》《书》,定《礼》《乐》,赞《周易》,修《春秋》。教授于洙南泗北,门徒三千,博徒六万,达者七十二人。历代诏封他做大成至圣文宣王。

《新刻出像增补搜神记》(高亮部分是异文):

鲁之曲阜昌平乡阙里,身长九尺二寸,腰大十围,凡四十九表,眉有一十二彩,目有六十四理。其头似尧,其颡似舜,其项皋陶,其肩子产。学天人,道穷秘奥,龟龙衔负之书,七政纬之事,包羲、黄帝之能,尧、舜、周公之美,靡不精备。删《诗》《书》,定《礼》《乐》、《系辞》、《春秋》。告弟子于洙南泗北,门徒三千,博徒六万,达者七十二人。大成至圣文宣王。

2.4 期望输出

  1. 分条准确提取两段相似文本中的差异文字。

  2. 每一条数据需要给出差异文字所在句子的文献名并引用原文。

  3. 所有字段均以文本类型输出。

2.5 表格配置

字段名称字段描述字段数据类型
文本1文本
文本2文本
异文抽取 把 “文本 1” 和 “文本 2” 中的相似文本中的差别文字提取出来,需 要详细到具体的字,需说明文献名称。 文本
图3

智能化配置

  1. 选择简单模式。

  2. 选择字段类型:

    a. 输入字段:文本1、文本2

    b. 智能输出字段:异文抽取

  3. 选择模型:DeepSeek R1。

图4
  1. 未添加示例。

配置文件

文本异文抽取-完整配置.json

2.6 抽取结果

文本异文抽取_异文抽取.xlsx

3. 《瀛涯胜览》与《星槎胜览》的关联文本抽取

3.1 任务目标

从《瀛涯胜览》与《星槎胜览》两本文献全文中找到相似文本及其差异文字,并用结构化方式输出,说明相似文本和差异文字所在段落、文献名并引用原文。

3.2 原始数据说明

  1. 《瀛涯胜览》是明代马欢所著的海外闻见录,成书于景泰二年(公元1451年)。本测试任务的原始数据来源为CTEXT网站上的电子文本:瀛涯勝覽 - 中國哲學書電子化計劃

  2. 《星槎胜览》是明代费信记述15世纪中外交通的史籍,约成书于正统元年(1436年)。本测试任务的原始数据来源为CTEXT网站上的电子文本:星槎勝覽 - 中國哲學書電子化計劃

3.3 目标数据

从《瀛涯胜览》和《星槎胜览》中找到相似的文本以及相似文本中的差异文字。

3.4 测试步骤

  1. 由于这两本书都是关于中国周边国家的记载,可以通过目录判断,名称相同的章节极有可能是相关的,因此可以手动把这些相关的章节放在表格中的同一行进行比较。

  2. 先抽取出相似的文本,然后从相似文本中找到差异文字。

3.5 期望输出

  1. 用表格形式呈现两篇文献中的关联文本。

  2. 以文本格式输出抽取的数据。

  3. 由于CTXT来源的文本给出了段落标号,因此需要抽取出每个引用文本所在的段落。

  4. 每一条相似文本数据需要给出相似文本的主题、文献名并引用原文。

  5. 每一条异文抽取数据需要给出差异文字所在句子的文献名并引用原文。

3.6 表格配置

定义字段

本案例选用高级模式进行抽取,因此无需在定义字段时对字段进行描述,只需将字段抽取的规则定义清楚。

字段名称字段描述字段数据类型
灞涯胜览文本
星槎胜览文本
相似文本文本
异文抽取文本
图5

智能化配置

  1. 选择高级模式

  2. 定义规则

序号模型选择模型类型提示语输入字段智能输出字段
规则1DeepSeek R1推理模型
从《灞涯胜览》和《星槎胜览》中把相似的文字找出, 每一次比较需给出相似文字的主题、文献名称和所在段落。 包括文字相同、语义相近和主题相关的文本。
灞涯胜览
星槎胜览
相似文本
规则2DeepSeek R1推理模型
从“相似文本”中把相似文本的差异文字找出来, 需要详细到具体的字,需说明文献名称和所在段落。
相似文本异文抽取
图6
图7
图8

添加示例

序号输入或输出字段字段名称内容
规则1输入瀛涯胜览占城國 39 其國卽釋典所謂王舍城也。在廣東海南大海之南。自福建福川府長樂縣五虎門開船往西南行,好風十日可到。其國開讀甚賢,西接交趾界,東北倚臨大海。國之東北百里有一海口,名新洲港,岸有一石塔為記,請趨船只到此歲泊登岸。
星槎胜览○占城國 4 永樂七年己丑,上命正使太監鄭和等統領官兵,駕使海船四十八號,往諸番國開讀賞賜。是歲秋九月,白太倉劉家港開船,十月到福建長樂太平港泊。十二月,福建五虎門開洋,張十二帆,順風十畫夜,至占城國。臨海有港曰新洲,西抵交趾,北連中國。
输出相似文本主题:地理方位与港口描述
《瀛涯勝覽》 段落39:“自福建福川府長樂縣五虎門開船往西南行...西接交趾界...國之東北百里有一海口名新洲港”
《星槎勝覽》 段落4:“福建五虎門開洋...臨海有港曰新洲,西抵交趾,北連中國。”
规则2输入相似文本
《西洋记》 第一回:
却说这个孔夫子生在鲁之曲阜昌平乡阙里,身长九尺二寸,腰大十围,凡四十九表,眉有一十二彩,目有六十四理。其头似尧,其额似舜,其项似皋陶,其肩似子产。学贯天人,道穷秘奥,龟龙衔负之书,七政六纬之事,包羲、黄帝之能,尧、舜、周公之美,靡不精备。删《诗》《书》,定《礼》《乐》,赞《周易》,修《春秋》。教授于洙南泗北,门徒三千,博徒六万,达者七十二人。历代诏封他做大成至圣文宣王。
《新刻出像增补搜神记》:
鲁之曲阜昌平乡阙里,身长九尺二寸,腰大十围,凡四十九表,眉有十二彩,目有六十四理。其头似尧,其额似舜,其项类皋陶,其肩类子产。学极天人,道穷秘奥,龟龙衔负之书,七政五纬之事,包羲、黄帝之能,尧、舜、周公之美,靡不精备。删《诗》《书》,定《礼》《乐》《系辞》《春秋》。告弟子于洙南泗北,门徒三千,博徒六万,达者七十二人。大成至圣文宣王。
输出异文抽取
1.《西洋记》"其项似皋陶,其肩似子产" vs 《新刻出像增补搜神记》"其项类皋陶,其肩类子产"(似→类)
2.《西洋记》"学贯天人" vs 《新刻出像增补搜神记》"学极天人"(贯→极)
3.《西洋记》"七政六纬" vs 《新刻出像增补搜神记》"七政五纬"(六→五)
4.《西洋记》"定《礼》《乐》" vs 《新刻出像增补搜神记》"定《礼》《乐》《系辞》《春秋》"(新增《系辞》)
5.《西洋记》"修《春秋》" vs 《新刻出像增补搜神记》"未单独列出“修《春秋》"
6.《西洋记》"教授于洙南泗北" vs 《新刻出像增补搜神记》"告弟子于洙南泗北"(教授→告弟子)
7.《西洋记》"历代诏封他做大成至圣文宣王" vs 《新刻出像增补搜神记》"仅保留‘大成至圣文宣王’"
图9
图10

配置文件

《瀛涯胜览》《星槎胜览》的文本关联抽取-完整配置-2025_4_24.json

3.7 抽取结果

《瀛涯胜览》《星槎胜览》的文本关联抽取.xlsx