波斯语
本文简单整理了阿拉伯字母及其在波斯语中使用的基本信息,并就如何使用Unicode书写波斯语提供建议。
波斯语使用阿拉伯字母,并对其进行了扩展,以表示在阿拉伯语中没有的发音。阿拉伯字母是一种辅音音素文字,通常使用辅音和长元音来区分单词。
阿拉伯字母从右往左书写,而其中包含的数字和拉丁字母则从左往右书写。
波斯语有时使用波斯体书写。波斯体的基线呈倾斜状。
本文所涵盖的语言
波斯语是伊朗和阿富汗的官方语言。伊朗波斯语也称为西波斯语,阿富汗波斯语也称为东波斯语,当地称为达里语。
塔吉克语是塔吉克斯坦使用的波斯语,用西里尔字母书写,因此不在本文档的描述范围内。
文字书写方向
阿拉伯字母从右往左书写,而其中包含的数字和拉丁字母则从左往右书写。
如果页面和文档的主要文字为阿拉伯字母,布局和结构也会从右往左排列。
Unicode双向文本算法
Unicode 双向文本算法(简称为bidi算法)[2]详细介绍了一种从右到左渲染文本的算法。
基本原则
阿拉伯字母的一些特征对字体设计师来说是具有挑战性的。
纵向连接
字母除了由右至左连接,还可以纵向(自上而下)连接,不过并非所有字体都支持。
![]() | ![]() |
需要注意的是,这不仅具有审美上的意义,而且还会影响文字两端对齐时的宽度。在手写文本中,作者可自行决定选择适合指定行长的连接方式。
“牙齿”字母
当连续字母的中部形式一致时,它们就可以呈现出类似牙齿的形状。

伊斯兰手稿传统
起源
阿拉伯字母属于闪语族书写系统,由纳巴泰字母演变而来,在公元4世纪产生,与叙利亚字母和希伯来字母关系密切。
伊斯兰教认为,先知穆罕默德是用阿拉伯语接受启示的,因此阿拉伯语被赋予了宗教含义。穆罕默德于公元632年去世后,在阿布·伯克尔和奥斯曼两位哈里发的带领下,他的启示首次以书面形式进行了汇编和标准化,由此产生的经典《古兰经》成为了信仰的核心载体。因此,阿拉伯字母随着伊斯兰文明的传播而超越了其起源地,并开始用于书写其他语言。由于伊斯兰教的广泛传播,过去和现在都有许多不同的语言使用阿拉伯字母书写,因此出现了不同的正字法。
常用字体风格
伊斯兰手稿是随着伊斯兰艺术和文明的发展而演变的。早在公元7世纪,在岩石圆顶的马赛克中就可以找到装饰性的阿拉伯字母。除了在建筑中频繁出现之外,书法也成为伊斯兰最重要的艺术形式之一。通过抄写书籍和书法艺术,手稿逐渐成为伊斯兰文明的核心要素。《古兰经》的书写被视为宗教信仰的表达,并为抄写员和书法家提供了出色的创作环境。
随着时间的推移,字体风格也在不断演变,很多字体已不再被使用,也有一些保留了下来。
如今,只有少数风格还在广泛使用。最有名的风格是誊抄体,这是阿拉伯字母在大多数情况下的默认形式。不过,阿拉伯字母的风格存在很大的地区差异。
@@TODO: 伊朗和巴基斯坦@@
TBD
字符
字符编码
阿拉伯字母在Unicode标准中是按语义编码的。也就是说,不管一个字母有多少种形式,都只有一个Unicode码位,
Unicode还为阿拉伯字母提供了部分非语义编码字符,分布在阿拉伯字母表达形式-A(Arabic Presentation Forms-A)和阿拉伯字母表达形式-B(Arabic Presentation Forms-B)两个区块中。这些字符已被弃用,不应在一般的信息交换中使用。
字符列表
下面的表格列出了用阿拉伯字母书写波斯语时使用的Unicode字符。
字母
字符 | 码位 | 名称 |
---|---|---|
ء | U+0621 | ARABIC LETTER HAMZA |
آ | U+0622 | ARABIC LETTER ALEF WITH MADDA ABOVE |
أ | U+0623 | ARABIC LETTER ALEF WITH HAMZA ABOVE |
ؤ | U+0624 | ARABIC LETTER WAW WITH HAMZA ABOVE |
إ | U+0625 | ARABIC LETTER ALEF WITH HAMZA BELOW |
ئ | U+0626 | ARABIC LETTER YEH WITH HAMZA ABOVE |
ا | U+0627 | ARABIC LETTER ALEF |
ب | U+0628 | ARABIC LETTER BEH |
ة | U+0629 | ARABIC LETTER TEH MARBUTA |
ت | U+062A | ARABIC LETTER TEH |
ث | U+062B | ARABIC LETTER THEH |
ج | U+062C | ARABIC LETTER JEEM |
ح | U+062D | ARABIC LETTER HAH |
خ | U+062E | ARABIC LETTER KHAH |
د | U+062F | ARABIC LETTER DAL |
ذ | U+0630 | ARABIC LETTER THAL |
ر | U+0631 | ARABIC LETTER REH |
ز | U+0632 | ARABIC LETTER ZAIN |
س | U+0633 | ARABIC LETTER SEEN |
ش | U+0634 | ARABIC LETTER SHEEN |
ص | U+0635 | ARABIC LETTER SAD |
ض | U+0636 | ARABIC LETTER DAD |
ط | U+0637 | ARABIC LETTER TAH |
ظ | U+0638 | ARABIC LETTER ZAH |
ع | U+0639 | ARABIC LETTER AIN |
غ | U+063A | ARABIC LETTER GHAIN |
ف | U+0641 | ARABIC LETTER FEH |
ق | U+0642 | ARABIC LETTER QAF |
ك | U+0643 | ARABIC LETTER KAF |
ل | U+0644 | ARABIC LETTER LAM |
م | U+0645 | ARABIC LETTER MEEM |
ن | U+0646 | ARABIC LETTER NOON |
ه | U+0647 | ARABIC LETTER HEH |
و | U+0648 | ARABIC LETTER WAW |
ى | U+0649 | ARABIC LETTER ALEF MAKSURA |
ي | U+064A | ARABIC LETTER YEH |
ٱ | U+0671 | ARABIC LETTER ALEF WASLA |
پ | U+067E | ARABIC LETTER PEH |
چ | U+0686 | ARABIC LETTER TCHEH |
ژ | U+0698 | ARABIC LETTER JEH |
ک | U+06A9 | ARABIC LETTER KEHEH |
گ | U+06AF | ARABIC LETTER GAF |
ی | U+06CC | ARABIC LETTER FARSI YEH |
音符
字符 | 码位 | 名称 |
---|---|---|
U+064B | ARABIC FATHATAN | |
U+064C | ARABIC DAMMATAN | |
U+064D | ARABIC KASRATAN | |
U+064E | ARABIC FATHA | |
U+064F | ARABIC DAMMA | |
U+0650 | ARABIC KASRA | |
U+0651 | ARABIC SHADDA | |
U+0652 | ARABIC SUKUN | |
U+0653 | ARABIC MADDAH ABOVE | |
U+0654 | ARABIC HAMZA ABOVE | |
U+0655 | ARABIC HAMZA BELOW | |
U+0670 | ARABIC LETTER SUPERSCRIPT ALEF |
数字
字符 | 码位 | 名称 |
---|---|---|
۰ | U+06F0 | EXTENDED ARABIC-INDIC DIGIT ZERO |
۱ | U+06F1 | EXTENDED ARABIC-INDIC DIGIT ONE |
۲ | U+06F2 | EXTENDED ARABIC-INDIC DIGIT TWO |
۳ | U+06F3 | EXTENDED ARABIC-INDIC DIGIT THREE |
۴ | U+06F4 | EXTENDED ARABIC-INDIC DIGIT FOUR |
۵ | U+06F5 | EXTENDED ARABIC-INDIC DIGIT FIVE |
۶ | U+06F6 | EXTENDED ARABIC-INDIC DIGIT SIX |
۷ | U+06F7 | EXTENDED ARABIC-INDIC DIGIT SEVEN |
۸ | U+06F8 | EXTENDED ARABIC-INDIC DIGIT EIGHT |
۹ | U+06F9 | EXTENDED ARABIC-INDIC DIGIT NINE |
词汇表
英语 | 简体中文 |
---|---|
baseline | 基线 |
bleed | 出血 |
block (Unicode) | 区块,块(Unicode) |
code point | 码位 |
contextual form | 内文形式 |
diacritics | 音符 |
Eastern Arabic numerals | 阿拉伯文数字 |
European numerals | 阿拉伯数字 |
final form | 尾部形式 |
font | 字体 |
horizontal writing mode | 横排 |
initial form | 首部形式 |
isolated form | 独立形式 |
medial form | 中部形式 |
vertical writing mode | 直排 |
参考文献
[1] Richard Ishida. Arabic & Persian Layout Requirements. 30 April 2024. W3C Note. URL: https://www.w3.org/TR/alreq/
[2] Manish Goregaokar मनीष गोरेगांवकर; Robin Leroy. Unicode Bidirectional Algorithm. 15 August 2023. Unicode Standard Annex #9. URL: https://www.unicode.org/reports/tr9/tr9-48.html