Wang Hui at the Department of Chinese Studies in National University of Singapore, for her continuous encouragement and guidance in all the time of research for and writing of this thesi
Trang 1汉 语 交 叉 依 存 类 非 投 射 性 现 象
EDGE-CROSSING NON-PROJECTIVE PHENOMENA IN THE CHINESE
LANGUAGE
王 跃 龙 WANG YUE LONG
新 加 坡 国 立 大 学 中 文 系 NATIONAL UNIVERSITY OF SINGAPORE
2012
Trang 3汉 语 交 叉 依 存 类 非 投 射 性 现 象
EDGE-CROSSING NON-PROJECTIVE PHENOMENA IN THE CHINESE
LANGUAGE
王 跃 龙 WANG YUE LONG
新 加 坡 国 立 大 学 中 文 系
博 士 学 位 论 文
A THESIS SUBMITTED FOR THE DEGREE OF DOCTOR OF PHILOSOPHY
DEPARTMENT OF CHINESE STUDIES NATIONAL UNIVERSITY OF SINGAPORE
2012
Trang 5Acknowledgement
I would like to express my sincere appreciation to my supervisor, Dr Wang Hui at the
Department of Chinese Studies in National University of Singapore, for her
continuous encouragement and guidance in all the time of research for and writing of
this thesis I would also like to express my gratitude to the members of my
dissertation committee, Dr Peng Rui and Dr Lua Kim Teng, for their helpful
suggestions and comments that are crucial to the completion of this thesis
My colleagues from the Department of Chinese Studies supported me in my research
work I want to thank them for all their help, support and valuable hints Especially I
am obliged to LIN Jinzhan, BAI Xiaopeng, XU Tingting and QIN Shaokang
Finally, I would like to give my deepest thanks to my parents Their patient love
enabled me to complete this work
Trang 7目 录
A C K N O W L E D G E M E N T I
A B S T R A C T I X
1 绪 论 1
1 1 课 题 的 提 出 1
1.2 研 究 对 象 3
1 3 研 究 方 法 与 目 的 7
1 4 本 文 的 结 构 安 排 8
2 文 献 综 述 1 0 2 1 依 存 语 法 综 述 10
2 1 1 依 存 语 法 研 究 概 况 10
2 1 2 非 投 射 依 存 现 象 的 研 究 22
2 2 计 算 语 言 学 领 域 内 的 依 存 分 析 2 5 2 3 交 叉 依 存 现 象 相 关 的 语 言 学 研 究 32
2 3 1 主 谓 谓 语 句 研 究 32
2 3 2 相 关 动 补 结 构 研 究 40
2 4 语 言 网 论 研 究 47
2 5 小 结 53
2 5 1 研 究 现 状 的 总 结 53
2 5 2 本 文 的 理 论 框 架 55
3 交 叉 依 存 现 象 分 类 及 句 法 语 义 描 述 5 7 3 1 汉 语 中 交 叉 依 存 现 象 的 分 类 57
3 1 1 数 据 说 明 与 分 类 原 则 57
3 1 2 交 叉 依 存 的 类 型 62
3 2 单 个 谓 词 下 的 交 叉 依 存 现 象 73
Trang 83 2 1 名 词 与 量 词 分 离 类 73
3 2 2 形 容 词 与 名 词 分 离 类 77
3 2 3 名 词 与 名 词 分 离 类 80
3 2 4 副 词 与 数 词 分 离 类 82
3 2 5 框 式 介 词 类 85
3 3 多 个 谓 词 下 的 交 叉 依 存 现 象 91
3 3 1 名 词 与 动 词 分 离 类 91
3 3 2 副 词 与 动 词 分 离 类 94
3 3 3 动 词 与 数 词 分 离 类 97
3 3 4 框 式 副 词 类 99
3 4 小 结 101
4 句 法 依 存 的 属 性 和 谐 原 则 1 0 4 4 1 词 语 的 属 性 104
4 1 1 汉 语 词 类 间 依 存 关 系 的 特 点 104
4 1 2 依 存 描 写 的 细 化 107
4 1 3 属 性 的 选 取 112
4 2 动 词 意 义 的 属 性 113
4 2 1 动 词 意 义 的 过 程 属 性 117
4 2 2 动 词 意 义 的 位 置 属 性 123
4 2 3 动 词 意 义 的 情 感 属 性 126
4 3 名 词 意 义 的 属 性 128
4 3 1 名 词 意 义 的 量 属 性 128
4 3 2 名 词 意 义 的 情 感 属 性 130
4 4 副 词 意 义 的 属 性 132
4 5 介 词 的 属 性 137
4 6 小 结 139
5 环 形 语 序 域 原 则 1 4 2
Trang 95 1 网 络 视 角 下 的 线 性 一 维 化 142
5 1 1 语 序 成 因 的 现 有 解 释 142
5 1 2 语 言 立 体 网 络 到 一 维 线 性 序 列 的 投 射 146
5 1 3 从 网 络 投 射 看 汉 语 的 语 序 15 2 5 2 汉 语 语 序 的 事 件 域 160
5 2 1 第 一 域 161
5 2 2 第 二 域 169
5 2 3 第 三 域 172
5 2 4 第 四 域 179
5 3 域 的 交 错 180
5 4 域 的 性 质 191
5 4 1 相 对 性 191
5 4 2 递 归 性 194
5 4 3 拓 扑 等 价 性 197
5 5 小 结 200
6 依 存 图 库 的 构 建 2 0 2 6.1 相 关 的 理 论 探 讨 202
6 1 1 从 依 存 树 到 依 存 图 204
6 1 2 事 件 作 为 中 间 单 位 207
6 2 事 件 标 注 211
6 2 1 单 个 事 件 的 标 注 211
6 2 2 复 杂 事 件 的 标 注 214
6 3 依 存 图 标 注 规 则 225
6 3 1 词 汇 信 息 标 注 226
6 3 2 句 法 关 系 标 注 228
6 3 3 语 序 信 息 标 注 234
6 4 小 结 235
Trang 107 结 论 2 3 7
7 1 本 文 研 究 工 作 的 总 结 237
7 2 下 一 步 的 研 究 计 划 239
附 录 2 4 1 附 录 一 名 词 与 量 词 分 离 类 241
附 录 二 名 词 与 形 容 词 分 离 类 241
附 录 三 名 词 与 名 词 分 离 类 242
附 录 四 副 词 与 数 词 分 离 类 243
附 录 五 框 式 介 词 类 256
附 录 六 名 词 与 动 词 分 离 类 262
附 录 七 动 词 与 副 词 类 268
附 录 八 动 词 与 数 词 分 离 类 274
附 录 九 框 式 副 词 类 278
参 考 文 献 2 8 1
Trang 13Abstract
Dependency-based methods for syntactic parsing have become increasingly popular in recent decades for the usefulness of bilexical relations and parsing efficiency However, most of them are only restricted in projective dependency In order to improve parsing precision, it is inevitable to involve non-projective dependency in dependency parsing Therefore, it is also an important topic for dependency research For Mandarin Chinese, it is unclear how many kinds of non-projective phenomenon involved For that reason, it is necessary to do basic data analysis We choose edge-crossing dependency, one of the non-projective phenomena, as our research topic According to the syntactic criterions proposed by Mel’čuk (1988), we analysed language data involved in U-penn Chinese Treebank to find edge-crossing phenomena
In the 15162 sentences, we found 2489 sentences including edge-crossing phenomena Except for the edge-crossing phenomena happened among clauses or caused by coordinate structure, others can be classified into nine different kinds
By observing their syntactic and semantic conditions, we found two points in common First one is that syntactic dependencies in Chinsese are based on systemantic semantic relations, the orther one is that words are gathered around verbs in word order
Trang 14Therefore, we proposed two principles to explain the reason for these edge-crossing phenomena formed First, it is the semantic attribute harmony principle, which determines the syntactic relation among words According to the realities of Mandarin Chinese, we propose to use systemantic semantic attributes as the judging criterion for syntactic dependencies Second is the ring-shaped field principle of word order, which determines the linear order distribution of words Different word categories distribute
in different field Meanwhile, free word order can happen inside of each field These two principles jointly restrict the formation of edge-crossing dependency
Using attributes as judging evidence for syntactic dependency is a feasible method to fine dependency description for Mandarine Chinese It is beneficial to conduct the correct parsing Meanwhile, ring-shaped word-order principle can expand linear grammar research to plannar perspective Many controversial problems can be explained from the plannar word-order perspective
These two principles can also be used to conduct corpus construction We proposed new standards for dependency-graph bank annotation Abandoning the tree-structure assumption used before and the single-root node, single-parent node and pure node golden standards demanded therefrom, we use graph-form to present sentences The dependency-graph bank can be used as data learning and evaluation platform for statistic-based parsers
Trang 15Keywords:
Non-projective dependency; dependency grammar; edge-crossing dependency ;Ring-shaped field of word order; attribute; dependency-graph
Trang 17们 采 用 M el’čuk( 1988) 对 投 射 性 依 存 较 小 范 围 的 标 准 , 以 求 得 可
Trang 25叉 依 存 现 象 也 包 括 在 其 中 ;
第 七 章 对 全 文 进 行 了 总 结 ,指 出 了 本 文 的 创 新 点 以 及 不 足 之 处 ,
并 且 提 出 了 下 一 步 的 研 究 方 向 。
Trang 26mot qui fait partie d’une phrase cesse par luimême d’être isolé comme dans le dictionnaire
Entre lui et ses voisins, l’esprit aperçoit des connexions, dont l’ensemble forme la charpente
de la phrase [1.3] Les connexions structurales établissent entre les mots des rapports de
dépendance Chaque connexion unit en principe un terme supérieur à un terme inférieur [2.1]
Le terme supérieur reçoit le nom de régissant Le terme inférieur reçoit le nom de
subordonné Ainsi dans la phrase Alfred parle [ ], parle est le régissant et Alfred le
subordonné [2.2] (Tesnière, 1959, 11–13, emphasis in the original)
Trang 29语 法 体 系 。 另 外 , 基 于 特 征 限 定 的 (constraint-based) 依 存 理 论 也
具 有 很 强 的 传 统 , 有 Constraint Dependency Grammar (Maruya ma, 1990; Harper & Helzer man, 1995; Menzel and Schröder, 1998), Weighted Constraint Dependency Grammar (Schröder, 2002) 。 在Constraint Gra mma r (Karlsson, 1990; Karlsson et al., 1995) 基 础 上
发 展 出 来 的 Functional Dependency Grammar (Tapanainen and Järvinen, 1997; Järvinen and Tapanainen, 1998), Topological Dependency Grammar (Duchier and Debusmann, 2001), Extensible Dependency Grammar (Debusmann et al., 2004)等 。 另 外 , 还 有 把 依
存 语 法 与 范 畴 语 法 综 合 起 来 的 Dependency Grammar Logic (Kruijff, 2001) 等 。
Trang 33关 系 与 线 性 词 序 关 系 是 否 一 致 的 争 论 。词 序 与 句 法 之 间 的 关 系 ,可
以 有 两 种 看 法 , 一 种 认 为 依 存 的 句 法 关 系 与 线 性 的 语 序 无 关 , 如 ,Tesini è re ( 1959 ) 就 认 为 依 存 关 系 是 属 于 结 构 次 序 , 不 同 于 线 性
Trang 36字 结 构 的 问 题 ,引 起 了 学 者 们 对 配 价 语 法 的 广 泛 兴 趣 。刘 涌 泉 、乔毅(1991)更 是 介 绍 了 配 价 语 法 理 论 及 其 成 果 对 机 器 翻 译 等 信 息 处
Trang 39问 ( wh-question )、 关 系 从 句 ( relative clauses )、 话 题 化
(topicalization)、 easy 的 用 法 ( easy-adjectives) 等 。 举 例 如 下 :
Wh-questions:
(1) What did you find? (2) Tell me who you are looking for? Relative clauses:
Trang 40(3) the item that I found (4) the guy who(m) I talked to
Trang 42标 记 与 中 心 词 。 受 限 满 足 的 方 法 大 致 来 说 是 NP 满 足 的 问 题 。 其 特
Trang 45射 性 结 构 的 分 析 器 。 其 思 路 是 源 于 Fred Karlsson ( 1990 ) 提 出 的Constraint Gramma r。Constraint Grammar 的 基 本 思 路 属 于 受 限 满 足
的 方 法 。这 里 的 不 同 之 处 是 其 表 示 形 式 是 基 于 依 存 的 。而 且 增 加 了
挂 接 (linking)与 修 剪( pruning)的 手 段 ,在 处 理 歧 义 方 面 比 传 统
的 做 法 取 得 了 更 好 的 效 果 。
Kahane 等 (1998) 也 提 出 了 一 个 可 处 理 名 词 前 置 和 疑 问 代 词wh- 前 置 类 结 构 的 非 投 射 性 依 存 语 法 。 其 处 理 的 核 心 步 骤 为 上 移
Trang 46法 依 存 与 线 性 依 存 两 个 独 立 的 层 面 。其 线 性 依 存 层 面 可 以 看 做 是 由
直 接 依 存 上 移 而 得 到 的 。Ni vre (2008) 提 出 , 非 投 射 性 依 存 结 构 的
句 法 分 析 可 以 分 为 两 个 独 立 的 过 程 ,首 先 把 句 子 中 的 词 语 调 整 为 标
准 的 词 序 , 然 后 再 按 照 投 射 性 依 存 的 分 析 方 法 来 进 行 句 法 分 析 。Bartha ( 2006 ) 对 匈 牙 利 语 ( Hungarian ) 的 分 析 中 采 用 了 一 种
Trang 51但 把 前 文 (10)类 的 句 子 看 做 是 宾 语 前 置 而 来 的 。同 时 ,吕 叔 湘 认
为 , 称 其 为 “ 宾 语 提 前 ” 只 是 一 种 方 便 的 说 法 。 胡 裕 树 在 《 现 代 汉
语 ( 重 订 本 )》 里 也 保 留 了 (10 ) 类 结 构 “ 宾 语 提 前 ” 的 说 法 。 因为(10)类 句 子 中 动 词 的 受 事 此 时 与 动 词 处 于 同 一 个 平 面 ,而 大 主
属 关 系 的 类 ,如 果 激 进 一 些 ,也 可 以 看 做 是 提 示 语 句 。当 大 主 语 与
小 主 语 之 间 有 副 词 时 候 才 是 主 谓 谓 语 句 。Charles Li 和 Sandra Thompson 在《 Mandarin Chinese》一 书 中 则 主 张 A 类 句 子 的 句 首 成
分 看 做 话 题 ,同 时 承 认 它 是 宾 语 。9 类 似 的 ,沈 家 煊( 1999)、Givón (1984)等 也 称 之 为 OSV 句 式 。不 少 学 者( 如 :陈 平 ,2004)也 从 话
Trang 55边 词 语 的 修 饰 性 就 更 加 明 显 了 。” 胡 裕 树 《 现 代 汉 语 ( 重 订 本 )》 上 海 教 育
Trang 58音 词 词 汇 》 中 叫 做 “ 后 附 的 副 词 ”, 在 《 汉 语 的 构 词 法 》 中 还 曾 称 之 为 “ 构
词 成 分 ”。 俞 敏 、 林 汉 达 等 称 之 为 “ 词 尾 ”, 房 玉 清 、 徐 静 茜 称 之 为 “ 动 态
助 词 ”。 这 些 称 谓 的 不 同 , 反 映 出 其 不 同 于 一 般 动 词 的 特 点 。
Trang 62主 语 两 者 之 间 存 在 着 领 属 关 系 , 且 补 语 动 词 的 论 元 都 是 一 价 名 词 。
袁 毓 林(1994)曾 把 一 价 名 词 分 为 亲 属 名 词 、属 性 名 词 和 部 件 名 词
三 种 。能 构 成 交 叉 依 存 的 一 价 名 词 其 实 不 能 为 亲 属 名 词 ,因 为 亲 属
名 词 放 在 名 词 之 后 可 能 会 发 生 歧 义 。 王 跃 龙 (2008 ) 指 出 , 这 种N+N 结 构 中 的 亲 属 名 词 为 称 呼 语 。所 以 ,能 构 成 交 叉 依 存 关 系 的 只
Trang 64构 理 论 。 他 自 言 是 受 到 Systemic Functional Grammar ( Halliday
1985 )、 Stratificational Grammar ( lamb 1966, Bennett 1994 ) 与Dependency Grammar ( Tesniere 1959 ) 的 影 响 。 经 历 了 初 期Daughter-dependency Grammar 后 为 Word Grammar。 WG 认 为 , 语
言 是 一 个 由 词 语 的 概 念 、意 义 及 其 词 性 综 合 构 成 的 知 识 网 络 。这 个
词 语 的 网 络 是 单 层 的 ,而 不 是 以 往 认 为 的 由 深 层 转 换 而 来 的 。语 言
网 络 是 由 词 语 之 间 的 依 存 关 系 构 成 的 ,而 不 是 短 语 结 构 。可 以 通 过label 表 示 词 语 之 间 的 语 法 及 功 能 关 系 。 WG 认 为 , 人 们 在 使 用 概
念 的 时 候 使 用 的 是 原 型 概 念 而 不 是 分 类 概 念 ,所 有 的 概 念 特 征 在 地
Trang 65位 上 都 是 相 等 的 ,有 些 是 因 为 语 用 的 原 因 被 废 弃 。在 这 个 网 中 ,不
同 领 域 的 知 识 之 间 的 分 界 并 不 是 清 晰 的 ,特 别 是 对 词 的 内 部 与 外 部
意 义 的 分 界 ,所 以 语 法 与 社 会 语 言 学 联 系 比 较 紧 密 。语 言 网 还 具 有Small-Word 和 Scale-free 的 特 征 。组 合 关 系 的 网 络 是 词 语 在 动 态 使
词 法 与 语 法 的 统 一 性 (the unity of grammar and lexicon)、 非 模 块
性 (non-modularity)、 可 处 理 性 差 异 ( degrees of accessiblity)、 两
Trang 67词 汇 共 现 网(Word co-occurrence networks)(Dorogovtsev & Mendes,
2001, 2003a; Milo et al., 2004) 是 一 个 标 注 了 词 汇 共 现 关 系 的 语 料
库 。 句 法 依 存 网 (syntactic dependency networks) 是 在 词 汇 共 现 网
Trang 73法 上 的 依 存 关 系 的 两 个 基 本 原 则 ,分 别 为 线 性 相 关 原 则 和 韵 律 相 关
原 则 。只 有 两 个 原 则 同 时 成 立 时 ,依 存 关 系 才 能 够 成 立 。这 是 针 对
印 欧 语 来 说 的 ,在 汉 语 中 ,韵 律 原 则 并 不 是 必 须 的 条 件 ,经 常 有 句
法 关 系 与 韵 律 不 相 符 的 情 况 。例 如“ 一 衣 | 带 水 ”的 韵 律 即 与 句 法上“ 一 | 衣 带 | 水 ”的 划 分 不 对 应 ,这 是 汉 语 双 音 节 化 的 要 求 而 形
成 的 。 而 且 , 冯 胜 利 ( 1 9 9 6 ) 曾 指 出 , 韵 律 结 构 可 以 是 一 个 独 立 的
平 面 ,对 句 法 现 象 有 影 响 和 限 制 的 功 能 。当 然 ,线 性 相 关 与 韵 律 相
Trang 76关 系 高 度 重 视 的 一 个 表 现 。或 者 ,我 们 可 以 采 取 对 每 个 词 语 加 标 的
做 法 ,在 句 法 树 中 标 示 出 其 原 来 线 性 的 句 法 先 后 关 系 ,这 样 的 表 示
Trang 878 10%
2 2%
3 2%
5 12%
Trang 111d o b j
Trang 124必 须 要 借 鉴 和 继 承 的 。
具 体 的 语 义 特 征 与 系 统 性 的 语 义 特 征 两 者 之 间 的 区 别 有 时 候
不 太 明 显 , 不 易 被 人 察 觉 。 但 是 , 仔 细 区 分 两 者 却 是 非 常 必 要 的 。
Trang 130过 程 中 无 数 次 的 重 复 而 习 得 的 条 件 反 射 反 映 。
词 语 组 合 研 究 不 仅 是 语 法 研 究 的 重 要 内 容 ,也 是 词 汇 语 义 学 近
期 以 来 研 究 的 重 点 。鉴 于 动 词 在 整 个 句 子 中 的 核 心 作 用 ,语 法 范 畴
内 词 类 细 分 的 研 究 一 般 是 从 动 词 开 始 的 。在 词 汇 语 义 范 畴 内 ,以 王惠(2004)等 为 代 表 的 学 者 研 究 名 词 义 位 的 区 分 时 也 参 照 了 名 词 与
Trang 1334.2.1 动 词 意 义 的 过 程 属 性
严 格 意 义 上 来 说 ,动 词 代 表 的 所 有 运 动 都 与 时 间 有 关 ,表 现 为
具 有 过 程 结 构 。 因 为 任 何 运 动 都 不 能 够 脱 离 时 间 和 空 间 的 范 畴 。Vendler( 1957)对 动 词 做 分 类 的 标 准 ,其 实 是 一 个 比 较 笼 统 的 分 类 。
Trang 138Lisa rudely departed McConnell-Ginet( 1982) 指 出 这 个 句 子 有 两
种 意 义 : ① It is rude of Lisa to depart ② She departed in a rude manner 在 我 们 看 来 , 这 个 句 子 之 所 以 会 产 生 两 种 意 义 , 是 因 为 动
Trang 149从 分 布 来 看 副 词 的 分 类 , 是 副 词 分 类 的 另 外 一 个 重 要 分 支 。Jackendoff( 1972 ) 根 据 短 语 结 构 语 法 把 副 词 分 为 了 说 话 者 朝 向 的
副 词(Speaker-oriented adverbs ),主 语 朝 向 的 副 词( subject-oriented adverbs ), 方 式 、 时 间 或 程 度 副 词 ( adverbs of manner ti me or degree), 焦 点 副 词 ( focusing adverbs) 四 类 。 Jackendoff 的 分 类
Trang 160人 们 习 得 语 言 的 过 程 是 一 对 对 的 词 语 依 存 关 系 的 习 得 过 程 。 但 是Ninio 的 论 述 中 并 没 有 解 决 语 言 的 线 性 呈 现 与 网 络 结 构 之 间 的 对 应
Trang 162模 型 。第 一 种 是 Mel’čuk (1965,1974,2011) 为 代 表 的 ,从 交 际 结构(syntactic-communication structure)来 定 义 句 子 的 线 性 化 方 法 。
第 二 种 是 Gerdes 和 Kahane( Gerdes 2002, Gerdes&Kahane ) 为 代
表 的 定 义 全 部 句 子 模 式 (full-sentence pattern) 的 方 法 。 两 者 都 没
有 解 决 从 网 络 结 构 到 线 性 结 构 的 对 应 问 题 。从 依 存 的 角 度 出 发 ,我
们 尝 试 做 这 样 一 个 新 的 基 本 理 论 假 设 ,来 解 释 语 言 中 既 有 相 同 又 有
不 同 的 语 序 现 象 。
Trang 1641 9 转 引 自 刘 海 涛 2 0 0 9 《 依 存 语 法 的 理 论 与 实 践 》 第 1 2 0 页 。
Trang 166语 的 角 色 , 因 而 可 以 允 许 SOV、 OSV、 SVO、 OVS、 VSO、 VOS 六
Trang 167具 体 的 语 种 最 初 不 同 的 语 序 选 择 会 直 接 影 响 到 语 言 的 特 点 。在SVO 的 语 言 中 , 由 于 S( subject) 与 O( object) 处 于 动 词 的 不 同
(97) Paulus vidit Mariam ( 98) Mariam vidit Paulus
(99) Paulus Mariam vidit ( 100) Mariam Paulus vidit
(101) Vidit Paulus Maria m ( 102) Vidit Mariam Paulus
Trang 1792 5 也 有 不 少 学 者 认 为 动 补 结 构 中 的 动 词 才 是 中 心 。 本 文 认 同 的 是 李 临 定 ( 1 9 8 0 ) 的
Trang 198关 系 来 分 化 的 两 种 处 理 方 法 , 但 参 照 其 《 语 法 答 问 》 中 对 “ 调 查 、
研 究 ”的 论 述 ,他 依 然 认 为 这 些 词 是 名 动 词 而 不 是 绝 对 的 动 词 。在Tesinière 的 依 存 理 论 中 ,曾 经 谈 到 了 词 语 之 间 的“ 转 位 ”关 系 。通