Download PDF

1
元数据记录的自动翻译: 德州历史数字图书馆个例分析
陈江萍 1 丁韧 2 姜山 3
1
北德克萨斯大学信息学院 丹顿 美国 76203
武汉大学信息管理学院 武汉 430072
3
中国科学院国家科学图书馆武汉分馆 武汉 430071
2
[摘要]
文章对 Google、Systran 和 Bing 三个在线翻译系统在德州历史数字图书馆元数据翻译性能上
的表现进行了人工评价。评价指标包括:流利程度、充分程度、误译数目和漏译数目。文章
最后提出了元数据记录多引擎翻译的设想,并指出了应用元数据记录的自动翻译实现数字图
书馆多语言信息存取的几种策略。
[关键词] Google Bing Systran 在线翻译系统 德州历史数字图书馆 元数据 人工评
价
[分类号] G250.73
Metadata Records Translation: The Case of the Portal to Texas
History
Jiangping Chen1
Ren Ding2
Shan Jiang3
1
College of Information, University of North Texas, Denton, U.S.A, 76203
2
School of Information Management, Wuhan University, Wuhan, 430072
3
The Wuhan Branch of the National Science Library, CAS, Wuhan, 430071
[ Abstract] In this paper, performance of online translation systems including Google, Systran and Bing
on translating metadata records derived from the digital library- Portal to Texas History- is manually
evaluated using four measures: Fluency, Adequacy, Incorrect Translation, and Missing Translation. The
authors propose exploring multi-engine machine translation for improving the quality of translation and
point out three possible strategies of implementing multilingual information access in digital libraries
applying machine translation to metadata records.
[Keywords] Google
Bing
Systran
online translation
The Portal to Texas History
metadata
manual evaluation
1 研究背景
美国的图书馆与博物馆已建立起许多数字化馆藏或数字图书馆用以保存科学文化成果
和物质遗产。它们通过对这些资料进行组织加工生成元数据记录,从而为用户提供方便的访
问服务。然而,大部分现有的数字图书馆只能以英文进行访问,只有极少数数字图书馆支持
多语言信息存取(MLIA)来帮助用户搜索、浏览、识别和使用多语言数字对象的信息技术
和策略[1] [2]。在这个日益全球一体化的信息社会中,图书馆和博物馆正寻找新的手段以服务
于自己的用户和社会团体、提供新颖的信息存取、以及快捷地传播用户所需信息[3]。实现现
有数字化馆藏中元数据的多语言信息存取,是图书馆与博物馆迈向全球化信息服务中至关重
要的第一步。
元数据记录翻译(Metadata Records Translation)是将用于描述数字馆藏对象的元数
2
据记录从一种语言转换为另一种语言的过程,它是实现数字化馆藏多语言信息存取必不可缺
的一个环节。因为无论系统采取哪种多语言信息存取策略,其用户最终都需要以他们的母语
来理解元数据。然而迄今为止,大部分的这种工作是由辛苦的人工翻译来完成的。例如,国
际儿童数字图书馆(http://en.childrenslibrary.org/)就利用建立翻译者网络来进行元数据记
录翻译工作[4]。由于人工进行元数据记录翻译需要花费相当多的时间与成本,多数图书馆和
博物馆选择其它替代方案,包括机器翻译和结合机器翻译和人工干涉的策略。
机器翻译是人工智能的一个领域。它旨在实现自然语言翻译的自动化过程,包括分析并
理解一种语言中蕴含的信息,并将其用另一种语言表述出来。翻译的难点在于需要对源语言
表达的含义进行解读,并用正确的术语和句法将其用目标语言呈现出来。近年来,机器翻译
技术取得了巨大的进步。美国联邦政府部门,如国防高级研究规划局(DARPA)和美国国
家科学基金会(NSF)
,以及大型搜索引擎公司如 Google、Microsoft 等的大量资金支持更
进一步推动了该领域技术的发展。机器翻译技术已经被广泛用于各种试验性的跨语言信息检
索系统以翻译用户的查询关键词或句子,展现出相当不错的检索效果[5][2][6]。
然而在数字图书馆领域,机器翻译没有得到实际的应用,甚至在实现了一定程度的多语
言信息存取的数字图书馆中,机器翻译也没有应用于系统的任何环节,比如查询词翻译或检
索结果翻译[2]。其原因可能有多种,但对机器翻译质量的不信任可能是一个很主要的原因。
Chen 和 Bao(2009)分析了网上用户对 Google Language Tools 的评论,发现反对者的主
要担心在于查询词翻译的质量[7]。Yates(2006)[8] 对于 1997 年底推出的在线机器翻译系
统 Babel Fish 进行了评价。她利用 Babel Fish 将一些西班牙和德文法律文本译成英文,得
出的结论是,由于翻译产生的错误太多,Babel Fish 不适合法律图书馆的大部分用户使用。
到底目前的机器翻译效果怎样?能否利用现有的免费机器翻译系统翻译数字图书馆中
的元数据以便快捷地实现元数据记录的多语言信息?目前在此领域的研究几乎是空白,我们
的研究显得更加必要。本研究使用免费的在线机器翻译系统对机器翻译的性能进行了评估,
主要目的包括:
(1)了解目前的免费在线翻译系统关于元数据记录翻译的性能;
(2)研究、
比较元数据记录自动翻译的评价指标;
(3)确认数字图书馆中元数据记录翻译的策略以实现
数字图书馆的多语言信息存取。
2 研究方法
本研究的测试数据来自于美国北德克萨斯大学图书馆的德州历史数字图书馆(The
Portal to Texas History: http://texashistory.unt.edu/)
。该数字图书馆提供了众多关于德
克萨斯州历史的数字资料以供人们查阅。该数字图书馆的月访问流量约为 115,000 人次,使
用者来自世界各地。作者从北德克萨斯大学图书馆获取了 1,000 条元数据,并从中随机抽取
了 48 条用作机器翻译的原始文本。这些元数据采用了都柏林核心格式(Dublin Core)
。表
1 给出了一个元数据样本。这 48 条元数据的描述对象为图像、报纸以及数据库中的其他数
字对象。
选择适当的机器翻译系统。目前互联网上知名的免费在线翻译系统有 Google、Bing、
Yahoo、Wordlingo 以及 Systran 翻译系统。经过前期测试,发现 Yahoo、Wordlingo 以及
Systran 的翻译结果几乎完全一致,因此我们选择了 Google、Bing 和 Systran 翻译系统进
行下一步测试。随后进行元数据记录预处理。作者从每个元数据记录中选择了如下项目送入
选定的机器翻译系统:发布者(Publisher)
、说明(Description)
、创建者(Creator)
、覆盖
范围(Coverage)
、标题(Title)和主题(Subject)
。表 1 栏二给出了该记录中送入机器翻
译系统接受翻译的项目。
表 1 元数据记录样本
3
原元数据记录
送入机器翻译系统的元数据记录
ID: metapth46004
publisher: Abilene Christian College
description: Catalog describes the governance and
campus life of Abilene Christian College in Abilene,
Texas.
format: 60 p. : ill. ; 23 cm.
language: eng
format: text
type: text_book
creator: Abilene Christian College
coverage: United States - Texas - Taylor County Abilene
coverage: new-sou
date: 1969-03
title: A catalog of general information and courses of
instruction, Abilene Christian College, Abilene, Texas,
1969-1970
title: Bulletin, Abilene Christian College, Volume 53,
Number 3, March 1969
identifier: oclc: 36047647
subject: Education - Colleges and Universities
subject: catalogues
subject: Abilene Christian University -- Curricula -Periodicals
coverage: 1969-1970
identifier: ark: ark:/67531/metapth46004
publisher: Abilene Christian College
description: Catalog describes the
governance and campus life of Abilene
Christian College in Abilene, Texas.
creator: Abilene Christian College
coverage: United States - Texas - Taylor
County - Abilene
coverage: new-sou
title: A catalog of general information and
courses of instruction, Abilene Christian
College, Abilene, Texas, 1969-1970
title: Bulletin, Abilene Christian College,
Volume 53, Number 3, March 1969
identifier: oclc: 36047647
subject: Education - Colleges and
Universities
subject: catalogues
subject: Abilene Christian University -Curricula -- Periodicals
identifier:
http://texashistory.unt.edu/ark:/67531/metapth46004/
本 研 究 采 用 了 机 器 翻 译 领 域普 遍 采 用 的 来 自 语言 学 数 据 协 会 (Linguistic Data
Consortium,LDC)的机器翻译人工评价测量指标:流利程度(Fluency)和充分程度
(Adequacy)[9]。
“流利程度”指从语法角度考虑,翻译结果符合自然语言表述习惯的程度,
而“充分程度”指翻译结果包含原文信息多寡的程度。以上两项由评判员在 1-5 分范围内对
机器翻译结果进行打分。本研究借鉴了孙连恒等[11]的人工评分细则,具体分值解释如表 2
所示。此外,本研究还增加了另外两个测试指标:误译数目(Incorrect Translation)与漏译
数目(Missing Translation)
,对翻译中的“词典错误”(Lexicon Error)进行测量[8]。误译
数目是指没有被正确翻译的词或短语数量,而漏译数目是指系统遗漏翻译的词或短语数目。
误译和漏译数目将由评判在评价过程中进行计数。这两个指标旨在保证机器翻译质量评价的
客观性。
表 2 流利程度与充分程度的分值及含义
分值
流利程度
充分程度
语序正确,非常流畅
完全表达原文意思
基本通顺,关键部分正确
基本表达原文意思是,有个别错误
3
基本通顺,关键部分有些许错误 基本表达主要意思,有些许错误
2
关键部分错误较多
主要意思错误较多
1
无法理解
4 处以上大错误
根据以上分值含义,评判员 A 和评判员 B 对每种机器翻译系统的翻译结果进行了人工
评测。两位评判员母语均为中文,拥有硕士研究生以上学历,能够熟练读写英文。两名评判
员独立进行了评测,每条元数据记录翻译结果评测的平均时间为 10 分钟。
5
4
3 评测结果
4
本节报告对 48 条元数据记录机器翻译所生成的中文记录的评测结果,并对评测结果进
行了分析。其内容包括:
(1)Inter-coder 可靠性;(2)三种机器翻译系统的性能;
(3)4
个评价指标(充分程度、流利程度、误译数目、漏译数目)之间的关联。
3.1 评测可靠性 (Inter-coder Reliability)
Inter-coder Reliability 测试是一种测试编码者间信度的统计方法,其目的是考察不同的
观察者或编码者彼此间的意见是否一致或类似。本研究的样本数据分布呈现出较好的正态分
布,因此可采用 Krippendorff 的 α 可靠性模型[11]来测算 Inter-coder Reliability。测算结果列
于表 3。结果显示,α 可靠性相当低,表示两位评判员对样本数据的评分差别较大,例如他
们对 Google 翻译流利程度的判断差异明显,其 α 值为 0.04,远小于 1。该结果与文献中反
映的利用 LDC 的充分程度和流利程度进行人工评测所存在的问题是吻合的[12]。这两个指标
具有很强的主观性。
表 3 α 可靠性分析结果
流利程度
充分程度
翻译系统
Bing
Google
Systran
Bing
Google
Systran
Krippendorff’s α
0.18
0.04
0.14
0.21
0.59
0.36
然而当审核两位评判员的具体分值时,它们之间的差别并不像 α 参数所表现的那么大。
比如两位评判对 Google 的翻译结果在流利程度上的给分在累积率的差异上并不大,如图 1
所示。两位评判都对超过 70%的测试数据给出了 3 分及以上的分数。对比两评判的结果,
他们对三种机器翻译结果的流利程度和充分程度多给出 3-4 分的评价。评判 B 给出高分值
的比例较评判 A 略低,这显示评判 B 更倾向于为机器翻译结果打出较低的分值。
图 1 评判 A(左)和评判 B(右)对 Google 翻译流利程度的评分分布
3.2 机器翻译的性能
为了对现有的免费在线机器翻译服务的性能有一个大体了解,本研究对机器翻译结果进
行了人工评测并对评测的结果进行了分析。与其他对机器翻译的人工评测的分析不同[13],
作者并未对评价的得分情况进行归一化处理(Normalization),而是将两位评判给出的结果进
行简单的取平均值以提供更为直观的分析结果。图 2 为三种机器翻译系统在流利程度上得分
的频率分布,从中可看出,Bing 和 Google 翻译的测试数据有超过 70.0%的得分等于或高于
3 分,即其翻译流利程度高于“非母语中文”的水平。
5
图 2 三种机器翻译系统流利程度得分的频率分布
图 3 为三种机器翻译系统充分程度得分的频率分布,该表显示,Bing 和 Google 翻译的
测试数据有超过 70%的得分等于或高于 3 分,即其翻译的充分程度较好。Systran 的得分泽
再次垫底。
图3 三种机器翻译系统充分程度得分的频率分布
表4显示的是三种机器翻译系统的平均值和标准差。三种系统的平均分都在3.0以上,其
中Systran的得分最低。
表 4 描述统计
机器翻译系统
流利程度
充分程度
平均值
标准差
平均值
标准差
Bing翻译
3.30
0.84
3.30
0.80
Google翻译
3.26
0.88
3.29
0.84
Systran翻译
3.08
0.96
2.97
0.98
三种机器翻译系统的流利程度和充分程度的单因素方差分析结果如表5所示,三种机器
翻译系统在流利程度和充分程度方面不存在有统计意义的明显差别。流利程度的显著性指标
Sig.和充分程度的显著性指标Sig.取值大于0.05,认为各组的均值差异不显著。
6
表5 单因素方差分析表
流利程度
充分程度
平方和
自由度
组间
1.30
2
组内
112.53
141
组间
3.45
2
组内
107.50
141
显著性指标Sig.
.45
.11
随后考察三大机器翻译系统的误译数目和漏译数目情况。三大机器翻译系统每条记录的
不正确翻译数目平均在3至5个左右,如表6所示。其中Systran的不正确翻译数最多,其误译
数目和漏译数目均多于Bing和Google,平均每条数据的误译和漏译数约为4.8,而Google仅
约为3.7,Bing约为4.0。从具体的误译数目和漏译数目上来看,Bing的误译数目要略低于
Google,但漏译数目要高于Google。
表 6 不正确的翻译(误译数目和漏译数目)
Bing 翻译
Google 翻译
Systran 翻译
类别
总数
每条均值
总数
每条均值
总数
每条均值
误译数目
259
2.70
268
2.80
335
3.49
漏译数目
122
1.27
103
1.07
128
1.33
误、漏译数总和
381
3.97
371
3.69
463
4.82
表7为Bing翻译结果包含误译和漏译的例子。尽管误译或漏译数较低,但它们对理解整
个译文有影响。通过相关性分析,作者发现误译漏译数目和另两个翻译质量测量指标――流
利程度和充分程度,具有很强的相关性。
表7 误译和漏译案例
原文:
Description: Black and white photograph of Dr. Jan LeCroy, Chancellor of the Dallas County
Community College District blowing out candles on his birthday cake. Pattie Powell is seated. The
lady holding the cake is unidentified as is the gentlemen in the background.
Bing的翻译结果:
博士Jan LeCroy,达拉斯县社区学院区校长,吹出他的生日蛋糕上的蜡烛的黑白照片。坐在选择鲍威
尔。这位女士担任蛋糕和这位在后台一样,是未经确认的。
误译:“Pattie Powell”误译为“选择鲍威尔”;“holding”误译为“担任”;“blowing”误译为“吹
出”
漏译:gentleman(绅士)被漏译
3.3 评测结果相关性分析
利用皮尔逊相关系数(r),流利程度、充分程度、误译数目和漏译数目间的相关性分析结
果如表8所示:机器翻译结果的流利程度和充分程度之间呈现出很强的相关度(r =.86)
,这
[12]
和文献中的结论是吻合的 。
表 8 四种评价标准的皮尔逊(r)相关系数
流利程度
充分程度
**
流利程度
1
充分程度
.860
漏译数目
-.537
误译数目
-.460
漏译数目
-.460
**
-.489
.860
-.537
**
1
-.507
**
-.507
**
-.489
**
**
误译数目
**
**
**
**
1
.328
**
.328
1
* P<0.10
** P<0.05
表 10 显示,误译数目、漏译数目与流利程度和充分程度之间的相关性程度也很高。例
7
如,漏译数目与流利程度和充分程度之间的皮尔逊相关系数分别为-.537 和-.507。其 p 值均
小于 0.05。降低元数据翻译中的误译数目和漏译数目是否有可能提高流利程度和充分程度
的得分,将是我们下一步的研究内容之一。
4 讨论
在评价结果的基础上,评判人员认为 Bing 在流利程度和充分程度方面表现得最好,其
次是 Google,最后是 Systran。然而从统计学分析结果,作者发现三种机器翻译系统之间
并没有具有统计意义的差别。也就是说,本研究不能得出哪一个翻译系统更具有性能优势。
本研究同时要求两位评判记录对三种机器翻译系统的主观感觉。两位评判做出了以下评
价:
•
Bing 具有相对全面的翻译功能。它的表现略优于 Google 和 Systran,特别是
在翻译包含单词数不超过 10 个的短句时。Bing 的中文翻译较为符合中国人的表述习惯,
然而在某些情况下的翻译并不准确,例如翻译对象为人名、期刊的卷期号、日期、地点,
以及少数词序不标准时。
•
Google 的翻译表现中等。虽然它的遗漏词较少,但 Google 无法很好地处理
某些词汇产生的歧义,有时会在翻译中产生冗余的词汇。
•
Systran 的翻译在句子结构和正确词义的选择上存在较大问题。其基于上下文
的翻译能力较弱。此外,Systran 对专业术语的识别能力不如前二者。
5 结论与未来的研究方向
总体而言,三种翻译系统中的 Google 和 Bing 在没有经过任何语料训练的情况下均达
到或超越了“非母语中文”的翻译水平。各翻译系统本身各具特色,如果可以将翻译结果恰
当地综合,各系统或可互补优劣。
多引擎机器翻译(MEMT)
,是将若干机器翻译系统对同一文本的翻译结果进行择优整
合,从而对整体的翻译质量加以改进的一种技术,是机器翻译研究中十分热门的领域[14]。
人们提出了众多不同的方法并进行了许多试验将多种翻译系统的翻译结果整合[14-15]。
MEMT
[12]
有潜力达到比任何单一机器翻译系统都要优秀的翻译性能 。对这些多引擎机器翻译系统
需要进行更大规模的、以应用为导向的评测。MEMT 很有潜力应用于元数据记录翻译。
本研究中,四项评价标准之间呈现出很强的相关度,这或许表明,如果采取能够大幅降
低错误翻译和遗漏翻译数量的机器翻译策略,将会提高翻译的流利程度和充分程度。
本研究的数据样本较少,且局限于特定的领域,因而有必要针对更多、更具代表性的测
试数据集进行评价。未来我们计划研究目前翻译系统在其他语种上元数据记录翻译的效果,
并对目前研究较多的几种多引擎机器翻译策略进行探索,了解它们对于元数据翻译的适用情
况。
总之,对于数字图书馆而言,有几种方法可利用现有的自动翻译系统实现多语言信息存
取:(1)利用跨语言信息检索查询词翻译技术找到数字对象,然后利用 Google 或 Bing 的翻
译接口实现动态的元数据记录翻译;(2)研究多引擎机器翻译技术以取长补短,将所有元数
据记录翻译成其他语言以供检索和数字对象的显示;(3)研制数字图书馆专有的多语种词典,
然后采用(1)或(2)。这些也将是作者下一步研究的课题。
参考文献:
[1]Gonzalo J. Comparative evaluation of multilingual information access systems//4th Workshop of the
Cross-Language Evaluation Forum, Trondheim, Norway: Springer, 2004:1-6.
[2]Chen J, Bao Y. Information access across languages on the Web: from search engines to digital libraries.
[2010-04-1].http://max.lis.unt.edu/publications/2009_confpaper_asist.pdf.
8
[3]Pastore E. The Future of Museums and Libraries: A Discussion Guide. Washington, D.C: Institute of Museum
and Library Services, 2009:15-20.
[4]Hutchinson H B. The International Children’s Digital Library: A Case Study in Designing for a Multi-Lingual,
Multi-Cultural, Multi-Generational Audience. Information Technology and Libraries, 2005, 24(1):4-13.
[5]Sakai T. Overview of the NTCIR-7ACLIA IR4QA
task.[2010-4-1].http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings7/pdf/NTCIR7/C1/IR4QA/01-NTCI
R7-OV-IR4QA-SakaiT.pdf.
[6]He D, Wu D. Exploring the future integration of machine translation in multilingual information access//Online
Proceedings of 2010 iConfernece, University of Illinois, 2010-02
[7]Chen J, Bao Y. Cross-Language Search: The Case of Google Language Tools. First Monday, 2009, 14(3):35-42.
[8]Yates S. Scaling the tower of Babel Fish: an analysis of the machine translation of legal information. Law
Library Journal, 2006, 98(3):481-500.
[9]LDC. Linguistic Data Annotation Specification:Assessment of Fluency and Adequacy in TranslationsRevision
1.5.[2010-01-08].http://www.ldc.upenn.edu/-Projects/TIDES/Translation/TransAssess04.pdf.
[10]孙连恒,杨莹,姚天顺.OpenE:一种基于 n-gram 共现的自动机器翻译评测方法.中文信息学报,2004,18(2) :
15-22
[11]Krippendorf K. Computing Krippendorff's alpha reliability.[2010-02-23].
http://repository.upenn.edu/cgi/viewcontent.cgi?article=1043&context=asc_papers.
[12]Callison-Burch C. Further Meta-evaluation of machine translation//Proceedings of the Third Workshop on
Statistical Machine Translation. Prague: Association for Computational Linguistics,2008:70-106.
[13]Callison-Burch C. Evaluation of machine translation.//Proceedings of the Second Workshop on Statistical
Machine Translation, Prague: Association for Computational Linguistics,2007:136-158.
[14]Nirenburg S. Toward Multi-Engine Machine Translation//Proceedings of the workshop on Human Language
Technology, NJ: Association for Computational Linguistics,1994:147-151.
[15]Tidhar D, Learning to Select a Good Translation.[2010-4-2].www.aclweb.org/anthology/C/C00/C00-2122.pdf
[作者简介]
陈江萍,女,美国北德克萨斯大学信息学院副教授,已发表论文三十余篇。
丁韧,女,1984 年生,武汉大学信息管理学院,情报学在读博士,已发表论文 8 篇。
姜山,男,1981 年生,中国科学院国家科学图书馆武汉分馆情报研究部副馆员,已发表论文 8 篇