宋代画作元素抽取案例

古代绘画艺术研究图像标注多模态抽取画作原图抽取图片简单模式结构化文本生成

【案例说明】本案例的目标是从宋代苏汉臣《妆靓仕女图》中提取画作中包含的元素信息和艺术手法，要求用文本格式输出为结构化数据。抽取过程采用简单模式，利用提示词技巧生成纯文本结构化数据。本案例说明了如何从图像当中抽取非文本信息。

1. 任务目标

宋代苏汉臣《妆靓仕女图》中提取画作中包含的元素信息和艺术手法，包括人物、建筑、植物、器具、颜色、笔法、构图等信息。要求用文本格式输出为结构化数据。

2. 原始数据说明

【宋】苏汉臣《妆靓仕女图》

3. 目标数据

所有抽取出来的数据都是文本类型。
人物、建筑、植物、器具、颜色、笔法等字段内容需要高度结构化，清晰简洁。
基本上完整准确地抽取出了画作中包含的信息。

4. 表格配置

4.1 定义字段

本案例选用简单模式进行抽取，需要对字段进行详细描述。为了让人物、建筑、植物、器具、颜色、笔法等字段内容结构化，需要采取一些提示词技巧，详细说明抽取的内容和格式。

字段名称	字段描述	字段数据类型
原始图像	无	图片
人物	抽取出“原始图像”中的人物信息，包括性别、年龄、身份、服饰、位置、动作等信息，将这些信息用“名称：值”的形式以列表呈现，每一个不同的值提一行生成，不同的人物赋予单独的序号如“人物1”。必须从“原始图像”中提取，若没有则填写“无”。	文本
建筑	抽取出“原始图像”中的建筑信息，包括建筑的位置、大小、功能、形状、布局等信息，将这些信息用“名称：值”的形式以列表呈现，每一个不同的值提一行生成，不同的建筑赋予单独的序号如“建筑1”。必须从“原始图像”中提取，若没有则填写“无”。	文本
植物	抽取出“原始图像”中的植物信息，包括植物的种类、位置、大小、形状等信息，将这些信息用“名称：值”的形式以列表呈现，每一个不同的值提一行生成，不同的植物赋予单独的序号如“植物1”。必须从“原始图像”中提取，若没有则填写“无”。	文本
器具	抽取出“原始图像”中的器具信息，包括器具的种类、位置、大小、形状、功能等信息，将这些信息用“名称：值”的形式以列表呈现，每一个不同的值提一行生成，不同的器具赋予单独的序号如“器具1”。必须从“原始图像”中提取，若没有则填写“无”。	文本
颜色	抽取出“原始图像”的构成颜色，需要说明颜色对应的位置、作用和RGB值，将这些信息用“名称：值”的形式以列表呈现，每一个不同的值提一行生成，不同的颜色赋予单独的序号如“颜色1”。必须从“原始图像”中抽取。	文本
笔法	抽取出“原始图像”中的笔法信息，包括笔法的名称及其在画面中的使用位置，将这些信息用“名称：值”的形式以列表呈现，每一个不同的值提一行生成，不同的笔法赋予单独的序号如“笔法1”。必须从“原始图像”中提取。	文本
构图	描述“原始图像”的构图特征。	文本

Tips：

如果某字段要输入图片，该字段的数据类型应选择“图片”。
为了防止推理模型过度思考，可以在提示词中加上“没有则填写无”。
为了让抽取结果更加结构化，我们可以采用以下技巧：
a. 说明每个字段抽取的详细内容，如：抽取出“原始图像”中的人物信息，包括性别、年龄、身份、服饰、位置、动作等信息。
b. 让这些数据以键值对的形式，用列表呈现，如：将这些信息用“名称：值”的形式以列表呈现，每一个不同的值提一行生成。
c. 给不同的对象排序，如：不同的植物赋予单独的序号如“植物1”。

4.2 智能化配置

选择简单模式。
选择字段类型：
a. 输入字段：原始图像。
b. 智能输出字段：人物、建筑、植物、器具、颜色、笔法、构图。
选择模型：设置处理图片的规则时，应选择具有视觉能力的模型。本任务选取的是Claude 3.7 Sonnet模型，针对该任务效果较好。

未添加示例。

4.3 配置文件

宋代画作抽取-完整配置.json

5. 抽取结果

宋代画作抽取_画作测试.xlsx