Skip to content

印地语跨语种⽂本抽取案例

外国语言文学研究OCR识别印地语小说图像抽取图片生成文本简单模式双语对照信息抽取
【案例说明】本案例的⽬标是从印地语⼩说⽂本图像中提取重要信息,并翻译为中⽂,包括图像原⽂的中⽂译⽂、⼈物、地点、主题等信息。原始数据为⼀张印地语⼩说图像截图。抽取过程为,先从原始图像中抽取印地语⽂字信息,再将印地语翻译成中⽂。本案例说明了如何从图像中抽取跨语种⽂本信息。该⽅法可辅助完成跨语种⽂献处理任务。

1. 任务目标

从印地语小说文本图像中提取重要信息并翻译为中文,包括图像原文的中文译文、人物、地点、主题等。提取的信息均为文本类型。如果某项在原文中未提及,则标记为“无”。

2. 原始数据说明

以下数据条目来自印地语小说《剩饭》截图:

图1
图2

3. 目标数据

原始图像中文译文人物地点主题
图1
我们的房子与钱德拉巴恩·塔加的房子相邻。然后是几个穆斯林朱拉哈家庭。就在钱德拉巴恩·塔加的房子前面有一个小小的约哈迪(约哈德的女性形式),它在丘尔和村庄之间形成了一道分界。这个约哈迪的名字叫达布瓦里。很难说这个名字是怎么来的。但可以肯定的是,这个达布瓦里约哈迪的形状像一个大坑,一侧是塔加人的砖房的高墙,形成直角的是两三个朱拉哈家庭的泥墙房屋。之后又是塔加人的房屋。
约哈迪边缘是丘尔人的房屋,其后是村里的妇女、年轻姑娘、老年妇女,甚至新娘们都会在达布瓦里的开阔处坐下闲聊。不仅在夜晚,就连白天,低种姓的妇女们也会穿着破旧的围巾和裙子来到这个公共厕所解决需求。她们抛开所有羞耻,坐在达布瓦里边上公开地排便。在这个地方,全村的争吵打闹都会在高尔梅斯会议的形式下讨论。四周充满了恶臭,如此令人窒息以至于一分钟内就会透不过气来。巷子里游荡的猪、光着屁股的孩子、狗、日常生活的争吵——这就是我度过童年的环境。如果那些宣扬种姓制度为理想制度的人在这样的环境中生活两三天,他们的观点肯定会改变。
चन्द्रभान तगा (钱德拉巴恩·塔加)
मुसलमान जुलाहे (穆斯林朱拉哈家庭)
तगा परिवार (塔加家族)
चूहड़ (丘尔人)
गाँव की औरतें, जवान लड़कियाँ, बूढ़ी-बूढ़ी, नई नवेली दुल्हनें (村里的妇女、年轻姑娘、老年妇女、新娘)
त्यागी महिलाएँ (低种姓妇女)
डब्बावाली जोहड़ी (达布瓦里约哈迪)
चूहड़ों के बगड़ (丘尔人居住区)
तगा गलियां (塔加人的街巷)
गाँव (村庄)
बचपन का ग्रामीण परिवेश और जाति व्यवस्था की वास्तविकता
童年的乡村环境和种姓制度的现实
图2
商人的孩子们叫我"贱民"并嘲笑我。有时他们甚至无缘无故地打我。这是一种奇怪而痛苦的生活,使我变得内向、烦躁和容易发脾气。在学校,当我口渴时,我必须站在水井旁等待别人来打水。当我碰到水井时,会招来一阵骚动。男孩们会打我,老师们也会因为我碰水井而惩罚我。他们使用各种各样的手段让我逃离学校,让我从事那些据说我生来就该做的工作。根据他们的说法,来学校学习是我的违法行为。
在我的班级里还有拉姆·辛格和苏克班·辛格。拉姆·辛格是皮匠种姓,苏克班·辛格是织工。拉姆·辛格的父母在田里做工。苏克班·辛格的父亲在大学里当清洁工。我们三个一起学习,一起长大,一起经历童年的酸甜苦辣。我们三个在学习上一直名列前茅。但种姓的阴影始终笼罩着我们。
巴拉拉村里也有一些穆斯林商人。他们被称为"塔加"。穆斯林塔加的行为也和印度教徒一样。如果有人穿着干净整洁的衣服出门,就会听到嘲讽的话。这些嘲讽像利箭一样刺入内心。这种情况经常发生。如果你穿着干净的衣服去上课,班里的孩子们会说:"看,这个贱民穿着新衣服来了。"如果你穿着旧衣服去学校,他们会说:"贱民,走开,没看到有坏味道吗?"
कहानीकार ("मैं") - 叙述者("我")
राम सिंह (चमार जाति से) - 拉姆·辛格(皮匠种姓)
सुखबन सिंह (जुलाहा) - 苏克班·辛格(织工)
राम सिंह के माता-पिता (खेतों में मजदूरी करते थे) - 拉姆·辛格的父母(在田里做工)
सुखबन सिंह के पिताजी (इंटर कॉलेज में चपरासी थे) - 苏克班·辛格的父亲(在大学里当清洁工)
व्यापारियों के बच्चे - 商人的孩子们
स्स्कूल - 学校
हैंडपंप - 水井
बरला गाँव - 巴拉拉村
भारतीय समाज में जातिगत भेदभाव और निम्न जाति के बच्चों के स्कूल में अनुभव किए गए असमान व्यवहार।
印度社会中的种姓歧视以及低种姓儿童在学校所经历的不平等待遇。

期望输出

  1. 将图像中的印地语文本全文翻译为中文。

  2. 在提取人物、地点、主题等信息时,应先提取印地语原文,再对提取的内容进行中文翻译,并形成统一“印地语(中文翻译)”的输出格式。

4. 表格配置

4.1 定义字段

字段名称字段描述字段数据类型
原始图像图像
中文译文文本
人物
将“原始图像”中的人物抽取出来。用印地语抽取,并翻译成中文,必须从“原始图像”中抽取原文,如果原文没有则填写“无”。
文本
地点
将“原始图像”中的地点抽取出来,包括国家、省份、城市、村落、地理概念等。用印地语抽取,并给出中文翻译,必须从“原始图像”中抽取原文,如果原文没有则填写“无”。
文本
主题
将“原始图像”中的故事主题提出取来。用印地语生成,并给出中文翻译,必须生成符合“原始图像”中的内容的主题。
文本

Tips:

  1. 为了防止推理模型过度思考,可以在提示词中加上“没有则填无”等提示。

  2. 提示词可以给大模型强调:必须从“原始图像”中抽取原文,并给出中文翻译。

图3

4.2 智能化配置

  1. 选择简单模式

  2. 选择字段类型:

    a. 输入字段:原始图像

    b. 智能输出字段:中文译文、人物、地点、主题

  3. 选择模型:Claude 3.7 Sonnet (thinking)(2025-02-24)

图4

Tips:

  1. 因为本任务涉及到图像识别,因此需要选择视觉模型。本任务选取Claude 3.7 Sonnet (thinking)模型,针对该任务的效果较好。

4.3 配置文件

印地语测试-完整配置.json

5. 抽取结果

印地语测试_印地语测试.xlsx