41
ﺶ ﺍﻃﻼﻋﺎ ﯼ ﺍﻃﻼﻋﺎﺕ ـــ ﺗﺒﺎﺩﻝ ﻭ ﺷﯿﻮﻩﯼ ﻧﻤﺎﯾ ﻨﺎﻭﺭ ﮐﺪ ﺱ ﯾﻮﻧﯽ ﻓﺎﺭﺳﯽ ﺑﺮ ﺍﺳﺎ ﻧﺴﺨﻪﯼ ﻧﻬﺎﯾﯽInformation Technology – Persian Information Interchange and Display Mechanism, using Unicode Final Version

ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

اطالعات نمایش شیوهی و تبادل ـــ اطالعات فناورییونیکد اساس بر فارسی

نهایی نسخهی

Information Technology – Persian

Information Interchange and

Display Mechanism, using Unicode

Final Version

Page 2: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

اطالعات نمایش شیوهی و تبادل ـــ اطالعات «فناوری استاندارد فنی کمیسیون

یونیکد» اساس بر فارسی

رئیس

شریف صنعتی دانشگاه یحیی تابش،

اعضا

شریف صنعتی دانشگاه بهداد سید سرابی، میرحسینزاده اسفهبد

شریف صنعتی دانشگاه وزبه ر پورنادر،

لندن دانشگاه علیاصغر خانبان،

شریف صنعتی دانشگاه امید میالنی، علمدار

دبیر

شریف صنعتی دانشگاه زهرا پناهی،

ایران صنعتی تحقیقات و استاندارد موسسهی مریم فصیحی،

Page 3: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

صفحه . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . مندرجات فهرستپ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . پیشگفتار

ث . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . مقدمه

۱ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . کاربرد دامنهی و هدف ۱

۲ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . الزامی مراجع ۲

۳ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . تعاریف و اصطالحات ۳

۳ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . متن ۱−۳

۳ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . خط ۲−۳

۴ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . نویسه ۳−۳

۴ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . مجموعهنویسه ۴−۳

۴ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . شکل ۵−۳

۴ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ساده متن ۶−۳

۴ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . کردن کدگذاری ۷−۳

۴ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . نمادها ۴

۵ . . . . . . . . . . . . . . . . . . . . . . . . فارسی متون در استفاده مورد نویسههای ۵

۶ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . کنترلی نویسههای ۱−۵

۷ . . . . . . . . . . . . . . . . . . . . . . . . . . مشترک نقطهگذاری عالئم ۲−۵

۹ . . . . . . . . . . . . . . . . . . . . . . . . . . . فارسی نقطهگذاری عالئم ۳−۵

۹ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ریاضی عالئم و ارقام ۴−۵

۱۰ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . فارسی اصلی حروف ۵−۵

۱۳ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . فرعی حروف ۶−۵

۱۴ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . فارسی نشانههای ۷−۵

۱۵ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ممنوع نویسههای ۸−۵

۱۶ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . منسوخ نویسههای ۹−۵

الف

Page 4: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

۱۷ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . دوجهته الگوریتم الف پیوست

۱۸ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . اتصال الگوریتم ب پیوست

۱۸ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . اتصال ردهی ب−۱

۱۹ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . الگوریتم ب−۲

۲۰ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . اتصال وه گر ب−۳

۲۲ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . لیگاتورها ب−۴

۲۳ . . . . . . . . . . . . . . . . . . . . . . . . . . . . دادهها تبادل قالبهای پ پیوست

۲۴ . . . . . . . . . . . . . . . . . . . . . . . . . . پاراگرافبندی و سطربندی ت پیوست

۲۵ . . . . . . . . . . . . . . . . . . . . . . . . . . . . همارزی و نرمالسازی ث پیوست

۲۶ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . واژهنامه ج پیوست

۲۸ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . نویسهها کد چ پیوست

۳۱ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . نویسهها نام ح پیوست

ب

Page 5: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

پیشگفتارپیشنویس که یونیکد» اساس بر فارسی اطالعات نمایش شیوهی و تبادل ـــ اطالعات «فناوری استاندارد

دو در و شده تدوین و تهیه مربوطه کمیسیونهای در کشور» انفورماتیک ی عال «شورای توسط آن

مورد ۱۳۸۱/۲/۱۸ و ۱۳۸۰/۱۲/۱۹ مورخ دادهها فرآوری و رایانه استاندارد ملی کمیتهی جلسهی

موسسهی مقررات و قوانین اصالح قانون ۳ مادهی یک بند استناد به اینک است، گرفته قرار ایید ت

منتشر ایران ملی استاندارد بهعنوان ۱۳۷۱ بهمنماه مصوب ایران، صنعتی تحقیقات و استاندارد

میشود.

و علوم، صنایع، زمینهی در جهانی و ملی پیشرفتهای و تحوالت با هماهنگی و همگامی حفظ برای

برای که پیشنهادی هرگونه و شد خواهند نظر تجدید لزوم مواقع در ایران ملی استانداردهای خدمات،

توجه مورد مربوطه فنی کمیسیونهای در نظر تجدید هنگام در شود، ارائه استاندارد این تکمیل یا اصالح

آنها تجدیدنظر آخرین از همواره باید ایران استانداردهای به مراجعه برای بنابراین گرفت. خواهد قرار

کرد. استفاده

در جامعه، نیازهای و موجود شرایط به توجه ضمن که است شده سعی استاندارد این تدوین و تهیه در

و صنعتی کشورهای ملی استانداردهای و بینالمللی استانداردهای و استاندارد این بین امکان حد

شود. ایجاد هماهنگی پیشرفته

است: زیر شرح به رفته کار به استاندارد این تهیهی برای که مراجعی و منابع

1. The Unicode Consortium, The Unicode Standard, Version 3.2.0, defined by:

The Unicode Standard, Version 3.0, Addison-Wesley, 2000, as amended by the

Unicode Standard Annex #27: Unicode 3.1

(http://www.unicode.org/unicode/reports/tr27/)

and by the Unicode Standard Annex #28: Unicode 3.2

(http://www.unicode.org/unicode/reports/tr28/).

2. ISO 10646-1:2000 Information Technology – Universal Multiple-Octet Coded Char-

acter Set (UCS) – Part 1: Architecture and Basic Multilingual Plane.

Page 6: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

3. Dave Ragget, Arnaud Le Hors, Ian Jacobs, “HTML 4.01 Specification”, World Wide

Web Consortium, December 1999.

4. Tim Bray, Jean Paoli, C. M. Sperberg-McQueen, Eve Maler, “Extensible Markup

Language (XML) 1.0”, World Wide Web Consortium, Second Edition, October 2000.

5. Martin J. Durst, Francois Yergeau, Richard Ishida, Misha Wolf, Asmus Freytag, Tex

Texin, “Character Model for the World Wide Web 1.0”, World Wide Web Consor-

tium, Working Draft, April 2002.

فارسی. بیتی ۸ اطالعات تبادل کد ۱۳۷۲ سال :۳۳۴۲ ایران ملی استاندارد .۶

فارسی. زبان به اطالعات تبادل کد ۱۳۶۷ سال :۲۹۰۰ ایران ملی استاندارد .۷

تحریر. ماشینهای در فارسی حروف ۱۳۵۱ سال :۸۲۰ ایران ملی استاندارد .۸

.۱۳۷۸ فارسی، ادب و زبان فرهنگستان فارسی، خط دستور .۹

.۱۳۷۲ دوم، ویرایش دانشگاهی، نشر مرکز شیوهنامه، .۱۰

شریف، صنعتی دانشگاه محاسبات، مرکز شبکه»، در «فارسی گروه تحقیقاتی پروژههای نتایج .۱۱

.۱۳۸۱ تا ۱۳۷۷ تهران،

ت

Page 7: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

مقدمهیونیکد استاندارد با آشنایی

استاندارد این است. متون و نویسهها کدگذاری برای جهانی شیوهای (Unicode) یونیکد استاندارد

سطوح در را اطالعات بادل ت که میکند مشخص انه چندزب متون کدگذاری رای ب هماهنگ روشی

و HTML قبیل از اینترنت، استانداردهای پیشفرض کدگذاری یونیکد میسازد. میسر بینالمللی

بات ث میشود. پشتیبانی امروزی برنامهسازی زبانهای و سیستمعاملها کلیهی در و است XML

جملهی از تولید، هزینههای شدن کم و نرمافزارها سادهشدن متون، بینالمللی تبادل امکان دادهها،

است. اطالعات فنآوری صنعت برای یونیکد مزایای

نویسه، میلیون یک از بیش ظرفیت با و رفته فراتر بسیار بیتی ۸ محدود مجموعهنویسههای از یونیکد

زبان و خط انتخاب برای بهعالوه، میکند. فراهم را دنیا نوشتاری زبانهای کلیهی کدگذاری امکان

نویسههای الفبایی، نویسههای با یکسانی رفتار یونیکد ندارد. کنترلی کدهای از استفاده به نیازی متن،

میکند. فراهم یکدیگر با اختالط در را آنها از استفاده امکان که دارد، نشانهها و نمادها و اندیشهنگار،

است، بوده معمول مشابه استانداردهای در که نویسه هر برای نام و عددی کد تعیین بر عالوه یونیکد،

جمله آن از که میکند، امین ت است الزم متون نمایش و پردازش برای که نیز را بیشتری اطالعات

کرد. اشاره الفبایی ویژگیهای و نویسه جهت به میتوان

موجود بسترهای برای UTF-8 میکند: فراهم اطالعات ذخیرهسازی و تبادل برای قالب سه یونیکد

رای ب UTF-16 رنت)، ت ن ای ه جمل از ،ASCII دارد ان است ر ب تنی مب محیطهای رای ب (مناسب یتی ب ۸

در یونیکد اندارد است این، ر ب عالوه یتی. ب ۳۲ محیطهای برای UTF-32 و یتی، ب ۱۶ محیطهای

در است. معادل و هماهنگ ISO/IEC 10646 بینالمللی استاندارد با کامال نویسهها به کد تخصیص

سازگار کامال نیز ISO/IEC 10646 استاندارد با کند، پیروی یونیکد استاندارد از که کاربردی هر واقع،

است.

کنید. مراجعه یونیکد استاندارد ۱ فصل به بیشتر، اطالعات برای

ث

Page 8: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

یونیکد استاندارد عمومی ساختارمحدوده این میدهد. اختصاص ۱’۱۱۴’۱۱۱ تا ۰ از یکتایی عدد نویسه هر به یونیکد، استاندارد

ر ث اک و دارد ام ن ه ای پ صفحهی اول صفحهی میشود. تقسیم ویسهای ن ۶۵’۵۳۶ صفحهی ۱۷ به

میگیرد. بر در را دنیا زندهی زبانهای در استفاده مورد نویسههای

برای میتواند که میکند مشخص خصوصی استفادهی برای نیز را نویسه صدهزار از بیش یونیکد

رود. بهکار اطالعات تبادل برای طرفین توافق با یا داخلی، ذخیرهسازی

میکند. مشخص را نویسه شکل یا معنا که میدهد تخصیص مشخصی و یکتا نام نویسه هر به یونیکد

را نویسه آن معنای که میکند مشخص را اطالعاتیای یا الزامی ویژگیهای نویسه هر برای بهعالوه،

میکنند. معین

استاندارد این تهیهی شیوهیقصد و است شده هیه ت ارسی) ف ان زب اری وشت ن (صورت ارسی ف خط ادل ب ت رای ب حاضر دارد ان است

بلکه ندارد. را خط این نویسههای دایرهی کردن محدود یا نگارش، برای مرجعی شیوهی کردن مشخص

نقلقولهای شامل متون یا فارسی متون در روزمره استفادهی مورد نویسههای کلیهی است شده تالش

شوند. ذکر استاندارد این در باشند، موجود یونیکد استاندارد در که صورتی در مذهبی،

با استاندارد این کامل سازگاری از اطمینان برای را ممکن تالش نهایت استاندارد این فنی کمیتهی

است. داده انجام یونیکد استاندارد

حاضر، اندارد است تصویب برای اندارد است ملی کمیتهی جلسهی اولین از پس ـــ ادآوری یاخیر نسخهی با حاضر استاندارد شد. منتشر ۱۳۸۱/۱/۷ تاریخ در یونیکد استاندارد 3.2 نسخهی

کشور، انفورماتیک عالی شورای درخواست به اخیر، نسخهی است. سازگار کامال نیز یونیکد استاندارد

از استفاده صحیح شیوهی است. گرفته نظر در ،U+FDFC کد با «ریال»، عالمت برای نیز نویسهای

شد. خواهد منتشر حاضر استاندارد بر ضمیمهای در نویسه این

ج

Page 9: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

فارسی اطالعات نمایش شیوهی و تبادل ـــ اطالعات فناوری

یونیکد اساس بر

کاربرد دامنهی و هدف ۱و د یک ون ی دارد ان ت اس دو از ح ی ح ص ادهی ف ت اس وهی ی ش ن ی ی ع ت دارد ان ت اس ن ای ن دوی ت از دف ه

سیستمهای در که است انه چندزب متون فارسی قسمتهای و فارسی متون رای ب ISO/IEC 10646

باشد، داشته را استاندارد این در نیاز مورد پردازشی تواناییهای که دیگری سیستم هرگونه یا کامپیوتری،

میرود. بهکار

زبان نوشتاری صورت ارائهی و ورود، ذخیرهسازی، پردازش، تبادل، انتقال، نمایش، در استاندارد این

ود. میر کار به آن برای الزم نمادهای و فارسی

یونیکد همگام استانداردهای اساس بر را فارسی اطالعات نمایش و تبادل صحیح شیوهی استاندارد، این

میکند. مشخص ISO/IEC 10646 و

استاندارد: این

میکند، مشخص را فارسی خط در استفاده مورد نویسههای با متناظر کد و معنی نام، •

میکند، مشخص را فارسی حروف اتصال شیوهی و دوجهته، متون در را نویسهها نمایش شیوهی •

میکند، مشخص دادهها تبادل برای را ISO/IEC 10646 و یونیکد مختلف قالبهای •

میکند، مشخص را بندها و سطرها انتهای کردن معین شیوهی •

میکند. مشخص همارزی نظر از را نویسهای رشتههای مقایسهی شیوهی •

نمیپردازد آنها به استاندارد این که مسائلی از بعضینمیپردازد: زیر موارد به حاضر استاندارد

دادهها واردسازی شیوههای •

چندزبانه و فارسی عبارات مرتبسازی •

۱

Page 10: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

متون سطربندی و سطرشکنی شیوهی •

زیرمتنها حذف و درج، ویرایش، شیوهی •

کمحجم بهصورت آنها مبادلهی یا متون، فشردهسازی •

زیرمتنها و متون زبان کردن مشخص •

میکند، معین استاندارد این که آنچه تا است گرفته صورت ممکن تالش نهایت ـــ ۱ یادآوریقسمت از پیروی شود ثابت که صورتی در نباشد. ISO/IEC 10646 و یونیکد استانداردهای برخالف

اندارد است دو ر ی تغی ا ی میکند، اسازگار ن اندارد است دو آن ا ب را کاربردها اندارد، است این از مشخصی

و بوده باطل استاندارد این از قسمت) آن فقط (و قسمت آن شود، ناسازگاری باعث آینده در فوقالذکر

صورتی، چنین در میشود. ناسازگار قسمت جایگزین شده مشخص استاندارد دو آن در که آنچه

شد. خواهد منتشر استاندارد این بر ضمیمههایی مجدد، سازگارشدن برای

رای ب ونیکد ی از اده ف است ا ب اسازگاریای ن ه هیچگون دارد ان است ن ای از پیروی ـــ ۲ ادآوری یخطوط این مشترک حروف بهعالوه، نمیکند. ایجاد . . . و کردی اردو، عربی، جمله از دیگر خطهای

یکسانی کد از خطها این همهی در الف حرف مثال، بهعنوان میکنند. استفاده مشترک کدهای از

میکند. استفاده

الزامی مراجع ۲بدین است. شده داده ارجاع آنها به استاندارد این متن در که است مقرراتی حاوی زیر الزامی مدارک

و/یا چاپ تاریخ دارای مراجع مورد در میشود. محسوب استاندارد این از جزئی مقررات، آن ترتیب

کاربران است بهتر معهذا نیست. نظر مورد مدارک این بعدی تجدیدنظرهای و اصالحیهها تجدیدنظر،

مورد را زیر الزامی مدارک تجدیدنظرهای و اصالحیهها آخرین کاربرد امکان استاندارد، این ذینفع

آن تجدیدنظر و/یا چاپ آخرین تجدیدنظر، و/یا چاپ تاریخ بدون مراجع مورد در دهند. قرار بررسی

است. نظر مورد شده داده ارجاع الزامی مدارک

است: الزامی استاندارد این کاربرد برای زیر مراجع از استفاده

1. The Unicode Consortium, The Unicode Standard, available from

http://www.unicode.org/

۲

Page 11: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

2. Mark Davis, “The Unicode Standard Annex #9, The Bidirectional Algorithm”,

available from http://www.unicode.org/unicode/reports/tr9/

3. Mark Davis, “The Unicode Standard Annex #13, Unicode Newline Guidelines”,

available from http://www.unicode.org/unicode/reports/tr13/

4. Mark Davis, Martin Durst, “The Unicode Standard Annex #15, Unicode

Normalization Forms”, available from

http://www.unicode.org/unicode/reports/tr15/

5. Francois Yergeau, “UTF-8, a transformation format of ISO 10646”, RFC 2279,

January 1998, available from http://www.ietf.org/rfc/rfc2279.txt

6. Paul Hoffman, Francois Yergeau, “UTF-16, an encoding of ISO 10646”, RFC 2781,

February 2000, available from http://www.ietf.org/rfc/rfc2781.txt

7. Mark Davis, “Unicode Standard Annex #19, UTF-32”,

available from http://www.unicode.org/unicode/reports/tr19/

تعاریف و اصطالحات ۳میرود: بهکار زیر تعاریف با واژهها و/یا اصطالحات استاندارد این در

متن ۱−۳text برابر در است. کامپیوتر روی ذخیرهشده یا کدشده متن «متن» از منظور عموما استاندارد این در

میرود. بهکار

خط ۲−۳ر براب در داد. نشان را زبان چند یا یک کلمات آن با میتوان که است نمادها از مجموعهای «خط»

میرود. بهکار script

۳

Page 12: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

نویسه ۳−۳میرود. بهکار character برابر در آن. شکل از مستقل است، نوشتهشده متن واحد کوچکترین «نویسه»

مجموعهنویسه ۴−۳در شوند. استفاده نوشتاری اطالعات ارائهی برای که است نویسههایی از مجموعهای «مجموعهنویسه»

میرود. بهکار character set برابر

شکل ۵−۳متعددی شکلهای میتوانند نویسهها است. خاص زمینهی یک در نویسه نمایشی صورت «شکل»

میرود. بهکار glyph برابر در باشند. داشته

ساده متن ۶−۳بهکار plain text ر راب ب در نیست. ارائهای ا ی ساختاری اطالعات شامل که است متنی ساده» «متن

میرود.

کردن کدگذاری ۷−۳میرود. بهکار encode برابر در است. نویسهها به کدها یکبهیک اختصاص کردن» «کدگذاری

نمادها ۴است: شده استفاده زیر نمادهای از استاندارد این متن در

چهار عدد یک n آن در که میشود، مشخص U+n شکل به یونیکد نویسههای با متناظر کد یا عدد

۱۰ (جایگزین F تا A التین حروف و ،9 تا 0 التین ارقام از و است، شانزده مبنای در ششرقمی تا

باشد. داشته رقم چهار از کمتر که این مگر شود، شروع صفر با نباید n عدد میکند. استفاده (۱۵ تا

است ممکن جدولها در .U+102345 و U+12345 ،U+1234 ،U+0123 ،U+0012 ،U+0001 مثال:

شود. حذف U+ اختصار برای

است. فارسی» «ممیز نویسهی یونیکد کد U+066B ــ مثال

۴

Page 13: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

اولین y و x آن در که میشود، مشخص x..y یا U+x..U+y شکل به یونیکد نویسههای از محدودهای

دو شامل که نویسهها، از پیوستهای محدودهی نمایانگر نقطهها و محدودهاند نویسههای آخرین و

میشود. نیز فهرست آخر و اول نویسهی

است. یونیکد کد ۱۲۸ شامل U+0900..U+097F ــ مثالمشخص 〈U+x, U+y, . . . , U+z〉 شکل به و شده جدا التین ویرگول با یونیکد کد چند یا دو دنبالهی

است. اختیاری U+ نماد است. راست به چپ از فوق نمادگذاری در نویسهها ترتیب میشود.

نامها این است. داده اختصاص یکتا نامی میکند تعریف که نویسههایی کلیهی به حاضر استاندارد

بلکه نیستند، ISO/IEC 10646 و یونیکد استانداردهای نویسههای انگلیسی نام دقیق ترجمهی لزوما

و حروف از فقط نامها این در شدهاند. انتخاب فارسی کاربردهای در نویسهها آن کاربرد اساس بر

است. شده استفاده فارسی زبان نشانههای

فارسی متون در استفاده مورد نویسههای ۵داده تخصیص آنها به مشخصی معنای استاندارد این در که میگیرد بر در را نویسههایی بخش این

بر دقیقا را نویسه این باید کند، پشتیبانی آمده بخش این در که نویسهای از کاربردی اگر است. شده

کند. تولید یا تفسیر استاندارد این در شده ذکر معنای مبنای

پشتیبانی شدهاند. مشخص ستاره عالمت با که نویسههایی مگر است، اجباری نویسهها این پشتیبانی

ذکر معنای مبنای بر باید نیز آنها شدن، پشتیبانی صورت در ولی است، اختیاری ستارهدار نویسههای

شوند. تولید یا تفسیر استاندارد این در شده

اساس بر دقیقا باید استفاده این باشند، داشته نیز دیگری نویسههای به نیاز کاربردها که صورتی در

گیرد. صورت یونیکد استاندارد در شده تعریف معنای

نویسهها ه ب مشخصی چندان معنای ISO/IEC 10646 اندارد است که آنجا از ـــ ۱ ادآوری یبا باید دیگر نویسههای از استفاده و نیست کافی استاندارد آن با بودن سازگار نمیدهد، تخصیص

باشد. سازگار نیز یونیکد استاندارد

و دارد اطالعاتی جنبهی فقط استاندارد این در نویسهها برای مشخصشده شکل ـــ ۲ یادآوری

۵

Page 14: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

شکلی هر به استفاده، مورد قلم به بسته مجازند نویسهها باشد، شده ذکر آن خالف که مواردی در مگر

از نویسهها نمایش برای کاربردها است ممکن حتی شوند. داده نمایش باشد، نویسه آن نمایانگر که

کنند. استفاده ندارد فارسی خط به شباهتی که بریل مانند خطی

کنترلی نویسههای ۱−۵

کنترلی نویسههای ـــ ۱ جدول

اختصاری عالمت نویسه نام کد

LF بعد سطر 000A

CR سطر سر 000D

ZWNJ مجازی فاصلهی 200C

ZWJ مجازی اتصال 200D

LRM چپبهراست نشانهی 200E

RLM راستبهچپ نشانهی 200F

LS سطرها جداکنندهی 2028*

PS بندها جداکنندهی 2029*

LRE چپبهراست زیرمتن 202A*

RLE راستبهچپ زیرمتن 202B*

PDF زیرمتن پایان 202C*

LRO چپبهراست اکیدا زیرمتن 202D*

RLO راستبهچپ اکیدا زیرمتن 202E*

BOM بایتها ترتیب نشانهی FEFF

باید بندها و سطرها جداکردن برای باشد، UTF-8 قالب در متن که صورتی در ـــ ۱ یادآوریالب ق ا ب متون در PS و LS از استفاده شود. استفاده 〈CR, LF〉 ا ی ،CR ،LF از کاربرد ر بست به بسته

مراجعه ت پیوست به نویسهها، این از استفاده صحیح شیوهی از اطالع برای نیست. مجاز UTF-8

کنید.

۶

Page 15: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

به فارسی اتصال الگوریتم در مجازی» «اتصال و مجازی» «فاصلهی نویسههای ـــ ۲ یادآوریکنید. مراجعه ب پیوست به بیشتر اطالعات برای وند. میر کار

م ت وری گ ال در RLO و ،LRO ،PDF ،RLE ،LRE ،RLM ،LRM ای هه س وی ن ـــ ۳ ادآوری یکنید. مراجعه الف پیوست به بیشتر اطالعات برای وند. میر کار به دوجهته

ممکن نویسه این وجود عدم صورت در که متونی تمییز برای باید BOM نویسهی ـــ ۴ یادآوریو UTF-16 پروندههای ابتدای در نویسه این از استفاده شود. برده کار به شوند، پردازش اشتباه است

نهی شدیدا ندارد معنی بایتها ترتیب که UTF-8 پروندههای ابتدای در ولی میشود توصیه UTF-32

پ پیوست به بیشتر اطالعات برای نیست. مجاز دیگر مقاصد برای نویسه این از استفاده میشود.

کنید. مراجعه

مشترک نقطهگذاری عالئم ۲−۵

مشترک نقطهگذاری عالئم ـــ ۲ جدول

نمایشی شکل نویسه نام کد

فاصله 0020

. نقطه 002E

: دونقطه 003A

! تعجب عالمت 0021

. . . افقی سهنقطهی 2026*

- تیره خط 2010*

− تیرهمنها 002D

| عمودی خط 007C

/ اریب خط 002F

\ وارو اریب خط 005C

∗ ستاره 002A

۷

Page 16: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

مشترک نقطهگذاری عالئم ـــ ۲ جدول ادامهی

نمایشی شکل نویسه نام کد

) باز پرانتز 0028

( بسته پرانتز 0029

] باز کروشه 005B

[ بسته کروشه 005D

} باز آکوالد 007B

{ بسته آکوالد 007D

» باز گیومه 00AB

« بسته گیومه 00BB

عالمت بهعنوان یا تاریخ اجزای جداسازی برای ا عمدت اریب» «خط نویسهی ـــ ۱ یادآوریدارد: تفاوت (U+066B) فارسی» «ممیز با نویسه این ود. میر کار به متن داخل در کسر

۱/۴ =۱

۴= ۰�۲۵

۱�۴ = ۱ +۴

۱۰

که مواردی در (مگر کنند استفاده نویسه دو این برای مختلفی نمایشی شکلهای از موظفند کاربردها

همراه). تلفن دستگاههای مانند دارد، وجود نمایشی خاص محدودیتهای

متن، در خود موقعیت به بسته قالبها، و پرانتزها قبیل از جفتی، نویسههای ـــ ۲ یادآوریدر و «)» بهشکل راستبهچپ متون در (U+0028) باز» «پرانتز مثال میپذیرند. مختلفی شکلهای

است. آمده الف پیوست در رفتار این وح مشر میشود. ظاهر «(» بهشکل چپبهراست متون

یره» ت «خط فکیک ت که میرود کار ه ب مواردی در فقط یرهمنها» «ت ویسهی ن ـــ ۳ ادآوری یکه دیگری قالب از دادهها که هنگامی مثال نباشد، ممکن (U+2212) منها» «عالمت از (U+2010)

معنای بودن مشخص صورت در باشند. شده تبدیل یونیکد قالب به نمیداند متمایز را نویسه دو این

کرد. استفاده U+2212 یا U+2010 یعنی دقیق نویسههای از باید نویسه،

۸

Page 17: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

فارسی نقطهگذاری عالئم ۳−۵

فارسی نقطهگذاری عالئم ـــ ۳ جدول

نمایشی شکل نویسه نام کد

، فارسی ویرگول 060C

؛ فارسی نقطهویرگول 061B

؟ فارسی سوال عالمت 061F

ـ فارسی کشیدگی 0640

ریاضی عالئم و ارقام ۴−۵

ریاضی عالئم و ارقام ـــ ۴ جدول

نمایشی شکل نویسه نام کد

۰ صفر فارسی رقم 06F0

۱ یک فارسی رقم 06F1

۲ دو فارسی رقم 06F2

۳ سه فارسی رقم 06F3

۴ چهار فارسی رقم 06F4

۵ پنج فارسی رقم 06F5

شش فارسی رقم 06F6

۷ هفت فارسی رقم 06F7

۸ هشت فارسی رقم 06F8

۹ نه فارسی رقم 06F9

٫ فارسی ممیز 066B

’ فارسی هزارهای جداکنندهی 066C

۹

Page 18: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

ریاضی عالئم و ارقام ـــ ۴ جدول ادامهی

نمایشی شکل نویسه نام کد

٪ فارسی درصد 066A

+ بهاضافه عالمت 002B

− منها عالمت 2212*

× ضرب عالمت 00D7

÷ تقسیم عالمت 00F7*

< کوچکتر عالمت 003C

= مساوی عالمت 003D

> بزرگتر عالمت 003E

شکلهای متن، در خود موقعیت به بسته بزرگتر»، «عالمت و کوچکتر» «عالمت ـــ یادآوریبا فوق جدول در نویسهها این شکل است. آمده الف پیوست در رفتار این وح مشر میگیرند. مختلفی

است. آمده اعداد، میان در یعنی آنها، معمول زمینهی به توجه

فارسی اصلی حروف ۵−۵

فارسی اصلی حروف ـــ ۵ جدول

نمایشی شکل نویسه نام کد

ء همزه فارسی حرف 0621

آ آ فارسی حرف 0622

ا الف فارسی حرف 0627

ا باال همزهی با الف فارسی حرف 0623

ب ب فارسی حرف 0628

پ پ فارسی حرف 067E

۱۰

Page 19: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

فارسی اصلی حروف ـــ ۵ جدول ادامهی

نمایشی شکل نویسه نام کد

ت ت فارسی حرف 062A

ث ث فارسی حرف 062B

ج جیم فارسی حرف 062C

چ چ فارسی حرف 0686

ح ح فارسی حرف 062D

خ خ فارسی حرف 062E

د دال فارسی حرف 062F

ذ ذال فارسی حرف 0630

ر ر فارسی حرف 0631

ز ز فارسی حرف 0632

ژ ژ فارسی حرف 0698

س سین فارسی حرف 0633

ش شین فارسی حرف 0634

ص صاد فارسی حرف 0635

ض ضاد فارسی حرف 0636

ط طا فارسی حرف 0637

ظ ظا فارسی حرف 0638

ع عین فارسی حرف 0639

غ غین فارسی حرف 063A

ف ف فارسی حرف 0641

ق قاف فارسی حرف 0642

۱۱

Page 20: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

فارسی اصلی حروف ـــ ۵ جدول ادامهی

نمایشی شکل نویسه نام کد

ک کاف فارسی حرف 06A9

گ گاف فارسی حرف 06AF

ل الم فارسی حرف 0644

م میم فارسی حرف 0645

ن نون فارسی حرف 0646

و واو فارسی حرف 0648

و باال همزهی با واو فارسی حرف 0624

ه ه فارسی حرف 0647

ی ی فارسی حرف 06CC

ی باال همزهی با ی فارسی حرف 0626

کرد. مبادله نیز نویسه دو بهصورت میتوان را فوق جدول نویسههای از بعضی ـــ ۱ یادآوریمبادله 〈U+0627,U+0653〉 بهصورت هم و U+0622 بهصورت هم میتوان را آ» فارسی «حرف مثال

ث پیوست به اره، ب این در دقیقتر اطالع برای است. مرجح تکنویسهای شکل موارد، این در کرد.

کنید. مراجعه

عین» فارسی «حرف مثال میپذیرند، خود به مختلفی شکلهای فارسی حروف ـــ ۲ یادآوریتعیین فارسی اتصال م ت الگوری در شکلها این میشود. دیده «ع» و «ع» «ع»، «ع»، شکلهای به

فقط آمدهاند فوق جدول در که شکلهایی است. شده تشریح ب پیوست در الگوریتم این میشوند.

دارند. اطالعاتی جنبهی

۱۲

Page 21: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

فرعی حروف ۶−۵

فرعی حروف ـــ ۶ جدول

نمایشی شکل نویسه نام کد

پایین همزهی با الف حرف 0625*

وصل الف حرف 0671*

عربی کاف حرف 0643*

ة گرد ت حرف 0629

نقطهدار عربی ی حرف 064A*

ی بینقطه عربی ی حرف 0649*

«حرف از استفاده و کاف» فارسی «حرف جای به عربی» کاف «حرف از استفاده ـــ ۱ یادآورینیست. مجاز عنوان بههیچ ی» فارسی «حرف جای به بینقطه» عربی ی «حرف یا نقطهدار» عربی ی

به متن یا بوده، نظر مورد آنها خاص شکل که کرد استفاده نویسهها این از میتوان صورتی در تنها

نمایش آنها درست شکل به را نویسهها این موظفند کاربردها باشد. آنها امثال و اردو عربی، زبان

شود. داده نمایش نقطه بدون نباید هیچگاه نقطهدار» عربی ی «حرف دهند.

و آخر شکلهای در اما است، کاف» فارسی «حرف مانند وسط و اول شکلهای در عربی» کاف «حرف

شکلهای در نقطهدار» عربی ی «حرف میشود. ظاهر همزه شبیه عالمتی همراه به و سرکش بدون تنها

ظاهر زیرش در دونقطه با تنها و آخر شکلهای در اما است، ی» فارسی «حرف مانند وسط و اول

در اما است، ی» فارسی «حرف مانند تنها و آخر شکلهای در بینقطه» عربی ی «حرف میشود.

میشود. ظاهر نقطه بدون وسط و اول شکلهای

۱۳

Page 22: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

فارسی نشانههای ۷−۵

فارسی نشانههای ـــ ۷ جدول

نمایشی شکل نویسه نام کد

(فتحه) فارسی زبر 064E

(کسره) فارسی زیر 0650

(ضمه) فارسی پیش 064F

نصب) (تنوین فارسی دوزبر 064B

جر) (تنوین فارسی دوزیر 064D

رفع) (تنوین فارسی دوپیش 064C

فارسی تشدید 0651

فارسی ساکن 0652

فارسی مد 0653*

باال فارسی همزهی 0654

پایین فارسی همزهی 0655*

فارسی مقصورهی الف 0670

ر زی یا باال مورد، حسب بر باید و دارند ترکیبشونده خاصیت فوق نویسههای ـــ ۱ یادآوریب پیوست به اتصال، الگوریتم بر نویسهها این تاثیر مورد در شوند. داده نمایش خود از قبل نویسهی

کنید. مراجعه

روی پایین» فارسی «همزهی و باال» فارسی «همزهی نویسههای که صورتی در ـــ ۲ یادآوریدست از را خود نقطههای کرسی نویسهی بیایند، نقطهدار» عربی ی «حرف یا ی»، فارسی «حرف

میدهد.

کنند. استفاده خاص شکلهای از نشانهها ترکیب نمایش برای میتوانند کاربردها ـــ ۳ یادآوریزیر در فارسی» «زیر دادن نمایش جای به است بهتر فارسی» «زیر و فارسی» «تشدید ترکیب برای مثال

داد. نمایش فارسی» «تشدید زیر در را آن کرسی، حرف

۱۴

Page 23: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

ممنوع نویسههای ۸−۵و عربی مانند دیگر زبانهای متون در آنها از استفاده شوند. استفاده فارسی متون در نباید نویسهها این

گیرد. صورت یونیکد استاندارد در موجود تعریف اساس بر باید اردو

ممنوع نویسههای ـــ ۸ جدول

نمایشی شکل نویسه نام کد

ه باال همزهی با اردو ه حرف 06C0

۰ عربی صفر رقم 0660

۱ عربی یک رقم 0661

۲ عربی دو رقم 0662

۳ عربی سه رقم 0663

عربی چهار رقم 0664

عربی پنج رقم 0665

۶ عربی شش رقم 0666

۷ عربی هفت رقم 0667

۸ عربی هشت رقم 0668

۹ عربی نه رقم 0669

این دارد. اطالعاتی جنبهی فقط و نیست استاندارد فوق جدول نویسههای نام ـــ ۱ یادآورینمیدهد. اختصاص نامی فوق جدول نویسههای به استاندارد

برای شود. استفاده فارسی متون برای عنوان هیچ به نباید U+06C0 نویسهی ـــ ۲ یادآوری«همزهی ههمراه ب (U+0647) « ه ارسی ف «حرف ویسهی ن از د ای ب ا» م ه «خان ل ث م اراتی عب ن وشت ن

نویسه این به فارسی متون در که صورتی در میتوانند کاربردها شود. استفاده (U+0654) باال» فارسی

که صورتی در کنند. جایگزین 〈0647, 0654, 200C〉 یا 〈0647, 0654〉 با مورد به بسته را آن برخوردند

بگیرد. صورت نباید جایگزینی این نباشد، فارسی زبان به زیرمتن یا متن

۱۵

Page 24: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

بخواهد کاربرد که مواردی در مگر (U+0660..U+0669) عربی ارقام از استفاده ـــ ۳ یادآوریپشتیبانی را عربی ارقام بخواهند که کاربردهایی نیست. مجاز شود قائل تمایز عربی و فارسی ارقام میان

که شود دقت باید شوند. قائل تمایز عربی و فارسی شش و پنج، چهار، ارقام شکل میان است بهتر کنند

دارند. تفاوت یونیکد دوجهتهی الگوریتم در جهتپذیری لحاظ از عربی و فارسی ارقام

منسوخ نویسههای ۹−۵نیز استاندارد این در شدهاند، مشخص منسوخ بهعنوان یونیکد استاندارد در که نویسههایی کلیهی

آنها به برخوردن صورت در و کنند، تولید را نویسهها این باید ن کاربردها میشوند. تلقی منسوخ

کنند. تفسیر یونیکد استاندارد نسخهی آخرین براساس را آنها یا کرده، چشمپوشی آنها از میتوانند

۱۶

Page 25: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

الف پیوست

دوجهته الگوریتم

(الزامی)

عالئم و اعداد شامل فارسی متون که آنجا از و التین، و فارسی خطهای نوشتن جهت تفاوت علت به

این نویسههای یونیکد استاندارد میشوند، وبهرو ر ابهام با پردازش هنگام در چندزبانه، متون یا ریاضی،

میکند. کدگذاری میگذرند متن خوانندهی ذهن از نویسهها که ترتیبی یعنی معنایی، ترتیب به را متون

میرود. بهکار نمایش قابل ترتیب یک به ترتیب این تبدیل برای دوجهته الگوریتم

نمایش برای بنابراین شوند. مبادله معنایی ترتیب به باید نویسهها استاندارد، این بر مبتنی کاربردهای در

شود. تبدیل دیداری ترتیب به ورودی نویسههای رشتهی باشد الزم است ممکن فارسی، اطالعات

از که کاربردهایی کند. پیروی یونیکد استاندارد ۹ ضمیمهی از دقیقا باید تبدیل، این انجام شیوهی

نیستند. سازگار استاندارد این با نکنند، پیروی فوقالذکر ضمیمهی

بستگی خود اطراف نویسههای به باز»، «پرانتز جمله از نویسهها، از بعضی شکل ـــ ۱ یادآوریمیشوند. قرینه بهاصطالح گیرند، قرار مخالف جهت با متون در که صورتی در نویسهها این دارد.

آمده یونیکد استاندارد ۹ ضمیمهی در رفتار این وح مشر کنند. پشتیبانی را قرینهسازی باید کاربردها

است.

که ضمنیای دیداری ترتیب که میآید پیش مواردی دوجهته، متون کدگذاری در ـــ ۲ یادآوری۱ جدول جهت کنترل نویسههای از میتوان حالتها این در نیست. مطلوب میآید بهدست نویسهها از

در باید و وند میر بهکار متن نمایش ترتیب تصحیح برای فقط نویسهها این کرد. استفاده ۱−۵ بخش

اطالعات برای شوند. گرفته نادیده عبارات) جستجوی یا متن مرتبسازی (مانند دیگر پردازشهای

کنید. مراجعه یونیکد استاندارد ۹ ضمیمهی به بیشتر

۱۷

Page 26: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

ب پیوست

اتصال الگوریتم

(الزامی)

که صورتی در میگیرند، مختلفی اشکال خود از بعد و قبل حروف به بسته فارسی، حروف که آنجا از

شکل انتخاب و فارسی اطالعات نمایش برای دهند، نمایش فارسی خط با را نویسهها بخواهند کاربردها

شکل تغییر حداقل الگوریتم، این کنند. استفاده پیوست این در شده مشخص الگوریتم از باید مناسب،

الگوریتم از کاربرد، به بسته است، ممکن ولی میکند، مشخص فارسی متون نمایش برای را نیاز مورد

میدهند). نمایش نستعلیق خط با را متن که کاربردهایی در (مثال شود استفاده نیز پیـیدهتری

ا (ی شود انجام دوجهته تم الگوری از پس شفاف، نویسههای تن گرف درنظر ا ب اید، ب اتصال م ت الگوری

باشد). یکسان میشود انجام دوجهته الگوریتم از پس الگوریتم این که حالتی با خروجیش

اتصال ردهی ب−۱تاثیر و نویسه شکل تغییر شیوهی ردهها، این میشود. دستهبندی اتصال ردههای از یکی در نویسه، هر

زیرند: شرح به ردهها این میکنند. مشخص دیگر نویسههای بر را آن

ا ب گرد». «ت و «واو»، «ر»، «دال»، «الف»، «آ»، یل ب ق از دوشکلی ویسههای ن راستوصل: •

میشوند. مشخص R حرف

مشخص D حرف با «صاد». و «سین»، «جیم»، «ب»، قبیل از چهارشکلی نویسههای دووصل: •

میشوند.

این تفاوت مجازی». «اتصال و «کشیدگی» قبیل از اتصال، ایجادکنندهی نویسههای واصل: •

مشخص C حرف با نمیدهند. شکل تغییر که است این «دووصل» نویسههای ا ب نویسهها

میشوند.

۱۸

Page 27: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

غیر نویسههای کلیهی و مجازی» «فاصلهی شامل اتصال، قطعکنندهی نویسههای فاصل: •

عالئم ارقام، فاصلهها، «همزه»، قبیل از نمیگیرند، قرار فوق دستهبندی در که ترکیبشونده

میشوند. مشخص U حرف با غیره. و یونانی التین، خطهای حروف و نقطهگذاری،

قبیل از کنترلی، و ترکیبشونده نویسههای شامل اتصال، به نسبت شفاف نویسههای شفاف: •

T حرف با راستبهچپ». «نشانهی و مقصوره»، «الف «تشدید»، «سکون»، «دوزبر»، «زبر»،

میشوند. مشخص

اصطالح از و «واصل»؛ و «دووصل» نویسههای رای ب «متصلبهچپ» اصطالح از پیوست، این در

میشود. استفاده «واصل» و «دووصل»، «راستوصل»، نویسههای برای «متصلبهراست»

که ونیکد، ی دادهای روندههای پ از ArabicShaping.txt روندهی پ اساس ر ب اید ب ویسهها، ن ردهی

اینترنتی نشانی در آن نسخهی آخرین

http://www.unicode.org/Public/UNIDATA/ArabicShaping.txt

شود. تعیین است دسترس در

بهکار نویسهها شکل تغییر برای مجازی» «اتصال و مجازی» «فاصلهی نویسههای ـــ یادآوریا ی «خانهها»)، کلمهی در (مثال مجاور دوحرف اتصال از ممانعت برای نویسه دو این از وند. میر

شمسی») «هجری مخفف بهعنوان ش.»، «ه. در (مثال حروف معمول شکل از غیر شکلی انتخاب

میشود. استفاده

الگوریتم ب−۲«اول»، اصطالح در شکلها این میشود. تعیین شکل چهار تا اتصالشان، ردهی به بسته نویسهها، برای

را «تنها» و «آخر» شکل دو فقط «راستوصل» نویسههای میشوند. نامیده «تنها» و «آخر»، «وسط»،

میگیرند.

است: زیر شرح به اتصال الگوریتم

بعد، به این از (بنابراین نمیدهند. تغییر را پایه نویسههای اتصالی رفتار «شفاف» نویسههای .۱

در همینطور بود؛ خواهد راست سمت شفاف غیر نویسهی اولین راست، سمت نویسهی از منظور

چپ.) سمت نویسهی مورد

۱۹

Page 28: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

شکل به باشد، «متصلبهچپ» راستش سمت نویسهی و باشد، «راستوصل» نویسهای اگر .۲

میآید. در «آخر»

سمت نویسهی و باشد، «متصلبهچپ» راستش سمت نویسهی باشد، «دووصل» نویسهای اگر .۳

میآید. در «وسط» شکل به باشد، «متصلبهراست» چپش

سمت نویسهی و باشد، «متصلبهچپ» راستش سمت نویسهی باشد، «دووصل» نویسهای اگر .۴

میآید. در «آخر» شکل به نباشد، «متصلبهراست» چپش

سمت نویسهی و نباشد، «متصلبهچپ» راستش سمت نویسهی باشد، «دووصل» نویسهای اگر .۵

میآید. در «اول» شکل به باشد، «متصلبهراست» چپش

میآید. در «تنها» شکل به نویسه نباشند، برقرار فوق حالتهای از هیچیک که صورتی در .۶

اشد، ب خود ند ب ا ی سطر غیر«شفاف» ویسهی ن ین اول ویسهای ن که صورتی در ـــ ۱ ادآوری ینویسهی آخرین نویسهای که صورتی در همینطور، میشود. فرض «فاصل» راستش سمت نویسهی

میشود. فرض «فاصل» چپش سمت نویسهی باشد، خود بند یا سطر غیر«شفاف»

نویسههای میشود، انجام دوجهته تم الگوری از پس الگوریتم این که آنجا از ـــ ۲ یادآوریمیشوند. تعیین دیداری ترتیب اساس بر چپ و راست سمت

اتصال وه گر ب−۳اتصال گروههای در ظاهری شکل به بسته میگیرند، مختلف شکلهای که فارسیای حروف از یک هر

پروندههای از ArabicShaping.txt پروندهی اساس بر باید یز ن گروهها این میشوند. دستهبندی

اینترنتی نشانی در آن نسخهی آخرین که یونیکد، دادهای

http://www.unicode.org/Public/UNIDATA/ArabicShaping.txt

شود. تعیین است دسترس در

در که ری ذی شکلپ حروف دارد، ان است این ن دوی ت ان زم در دسترس در نسخهی آخرین اساس ر ب

میگیرند: قرار گروهها این در آمدهاند ۶−۵ و ۵−۵ بخشهای

۲۰

Page 29: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

حروف اتصال گروههای فهرست ـــ ۹ جدول

نویسهها اتصال ردهی گروه التین نام وه گر نام

باال»، همزهی با «الف «الف»، «آ»، راستوصل ALEF الف

وصل» «الف پایین»، همزهی با «الف

«ث» و «ت»، «پ»، «ب»، دووصل BEH ب

«خ» و «ح»، «چ»، «جیم»، دووصل HAH ح

«ذال» و «دال»، راستوصل DAL دال

«ژ» و «ز»، «ر»، راستوصل REH ر

«شین» و «سین»، دووصل SEEN سین

«ضاد» و «صاد»، دووصل SAD صاد

«ظا» و «طا»، دووصل TAH طا

«غین» و «عین»، دووصل AIN عین

«ف» دووصل FEH ف

«قاف» دووصل QAF قاف

عربی» «کاف دووصل KAF عربی کاف

«گاف» و «کاف»، دووصل GAF گاف

«الم» دووصل LAM الم

«میم» دووصل MEEM میم

«نون» دووصل NOON نون

باال» همزهی با «واو و «واو»، راستوصل WAW واو

«ه» دووصل HEH ه

گرد» «ت راستوصل TEH MARBUTA گرد ت

نقطهدار»، عربی «ی باال»، همزهی با «ی «ی»، دووصل YEH ی

بینقطه» عربی «ی و

در موجود اطالعات به موظفند کاربردها دارد. اطالعاتی جنبهی فقط فوق فهرست ـــ یادآوریکنند. مراجعه ArabicShaping.txt پروندهی

۲۱

Page 30: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

لیگاتورها ب−۴مثال بسازند. لیگاتور نام به چندحرفیای اشکال استفاده، مورد قلم به بسته میتوانند فارسی حروف

بیاید. « » بهشکل میتواند «ی» و «ف» ترکیب و «ال»، بهشکل میتواند «الف» و «الم» ترکیب

که هستند لیگاتورهایی اجباری، لیگاتورهای اجباریاند. دیگر بعضی و اختیاری لیگاتورها از بعضی

باشد. (ALEF) «الف» اتصال وه گر از دومشان حرف و (LAM) «الم» اتصال وه گر از اولشان حرف

لیگاتور شکل به است ممکن نمایشی قلم به بسته که هستند دیگر لیگاتورهای اختیاری، لیگاتورهای

دهند، نمایش لیگاتور بهشکل را اجباری لیگاتورهای متون، نمایش در موظفند کاربردها یابند. نمایش

ویژهای محدودیتهای نمایش دستگاه یا باشد، نظر مورد خاص بصری جلوههای که مواردی در مگر

باشد. داشته

میشود: استفاده زیر الگوریتم از لیگاتورها، این اعمال برای

نمیدهند. تغییر را پایه نویسههای لیگاتوری رفتار «شفاف» نویسههای .۱

و «وسط»، بهشکل و «الم» گروه در راستش سمت نویسهی که نویسهها از دوتایی دنبالهی هر .۲

را «المالف» دستهی از لیگاتوری باشد، «آخر» بهشکل و «الف» گروه در چپش سمت نویسهی

میدهد. تشکیل «آخر» بهشکل

و «اول»، بهشکل و «الم» گروه در راستش سمت نویسهی که نویسهها از دوتایی دنبالهی هر .۳

را «المالف» دستهی از لیگاتوری باشد، «آخر» بهشکل و «الف» گروه در چپش سمت نویسهی

میدهد. تشکیل «تنها» بهشکل

نمیشوند، لیگاتور ولی میشوند متصل هم به پیشفرض بهطور که نویسه چند یا دو بین گاه هر .۴

وری یگات ل شکل ودن ب موجود صورت در رد، ی گ رار ق مجازی» «اتصال ویسهی ن چند ا ی یک

شود. استفاده لیگاتوری شکل از باید نمایش، برای استفاده مورد قلم در نویسهها

نویسهها عادی شکل باید گیرد، قرار مجازی» «فاصلهی نویسهی نویسه، چند یا دو بین گاه هر .۵

مجازی» اتصال مجازی، فاصلهی مجازی، «اتصال دنبالهی اگر مثال گیرد. قرار استفاده مورد

نمایش «لا» شکل به باید بلکه شوند، لیگاتور نباید حرف دو این گیرد، قرار «الف» و «الم» بین

یابند.

۲۲

Page 31: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

پ پیوست

دادهها تبادل قالبهای

(الزامی)

استاندارد ولی کرد. استفاده اطالعات تبادل برای متعددی قالبهای از میتوان یونیکد استاندارد در

مشتق، قالبهای میپردازد. ،UTF-32 و ،UTF-16 ،UTF-8 یعنی اصلی، قالبهای به فقط حاضر

میشوند. فرض (UTF-16 مثال این (در نظیرشان اصلی قالب از خاصی حالت ،UTF-16LE مثال

در موظفند ند، ن میک بول ق ورودی ا ی د، میدهن خروجی ونیکدی ی البهای ق در که ردهایی ارب ک

و ،RFC 2781 ،RFC 2279 از بهترتیب ،UTF-32 و ،UTF-16 ،UTF-8 قالبهای از استفاده صورت

فاده است UTF-8 الب ق از ردها کارب که صورتی در ند. کن پیروی ونیکد ی دارد ان است ۱۹ ضمیمهی

صورتی در است بهتر ولی نکنند، تولید خروجی ابتدای در را U+FEFF نویسهی است بهتر میکنند،

در مشخصکننده عالمت بهعنوان را آن بیاید، UTF-8 قالب در ورودیهای ابتدای در نویسه این که

نکنند. پردازشش و گرفته، نظر

۱۵ ضمیمهی در شده مشخص نرمال صورتهای از یکی است بهتر کاربردها ـــ یادآوریبیشتر اطالعات (برای کنند. تولید قالب آن در را خود خروجیهای و کرده انتخاب را یونیکد استاندارد

کنید.) مراجعه ث پیوست به

۲۳

Page 32: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

ت پیوست

پاراگرافبندی و سطربندی

(الزامی)

استاندارد ۱۳ ضمیمهی توصیههای اساس بر را بندها و سطرها جداکنندهی نویسههای موظفند کاربردها

کنند. تفسیر یونیکد

در متنی بخواهد کاربردی که صورتی در فوقالذکر، ضمیمهی در مشخصشده محدودیتهای بر عالوه

بندها» «جداکنندهی و (U+2028) سطرها» «جداکنندهی نویسههای از نباید کند، تولید UTF-8 قالب

کند استفاده کاربرد بستر در سطرها جداکردن مخصوص عالمت از باید بلکه کند. استفاده (U+2029)

است. 〈U+000D, U+000A〉 یا ،U+000D ،U+000A معموال که

۲۴

Page 33: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

ث پیوست

همارزی و نرمالسازی

(اطالعاتی)

تبدیل نویسهها از رشتهای به مختلفی روشهای به میتواند نمادها و حروف از دنبالهای که آنجا از

نویسههای دنبالهی با هم و باال»، همزهی با «واو نویسهی با هم میتوان را «مومن» کلمهی (مثال شود

را آنها خود، خروجیهای هماهنگی بهمنظور است بهتر کاربردها کرد)، کدگذاری باال» همزهی «واو،

است شده توصیف یونیکد استاندارد ۱۵ ضمیمهی در که یونیکد، نرمال صورتهای از یکی بهصورت

کنند. تولید

(Normalizaion Form C) C نرمال صورت دادهها، تبادل در مرجح قالب بهعنوان حاضر، استاندارد

در آن توصیهشدن و قالب، این بودن فراگیر علت به انتخاب این میکند. توصیه را UTF-8 قالب و

است. گرفته صورت ،XML و HTML جمله از ،World Wide Web کنسرسیوم استانداردهای

شکل به شوند، کدگذاری مختلف شکل چند به ند وان میت که نویسههایی ،«C رمال ن «صورت در

ت الم ع د ن چ ه ک ی ای ته ال ح رای ب دی واح ب ی رت ت الوه، هع ب د. ون یش م ذاری دگ ک های س وی کن ت

میشود. تعیین میگیرند قرار کرسی حرف یک روی ترکیبشونده

است بهتر میکنند، پشتیبانی را مختلفی نرمال صورتهای کاربردها که صورتی در دیگر، طرف از

یونیکد اندارد است ۳ و ۲ فصلهای به یشتر، ب اطالع رای ب دهند. تشخیص را «همارز» رشتههای

کنید. مراجعه

مثال کنند، بانی ی پشت یز ن را «همارزی» از االتری ب الیههای ند وان میت کاربردها ـــ ادآوری یهمزهی «ی، رشتهنویسههای بین یا عربی»، «کاف و «کاف» مانند نویسههایی بین ضعیف همارزی

نمیپردازد. همارزیها گونه این به استاندارد این باال». همزهی نقطهدار، عربی «ی و باال»

۲۵

Page 34: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

ج پیوست

واژهنامه

(اطالعاتی)

right-joining . . . . . . . . . . . . . . . . . . . . . . . . راستوصل

string . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . رشته

embedding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . زیرمتن

subtext . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . زیرمتن

data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . داده

insert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . درج

device . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . دستگاه

dual-joining . . . . . . . . . . . . . . . . . . . . . . . . . . . دووصل

storage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ذخیرهسازی

conformant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . سازگار

line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . سطر

line-breaking . . . . . . . . . . . . . . . . . . . . . . . . سطرشکنی

transparent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . شفاف

glyph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . شکل

final form . . . . . . . . . . . . . . . . . . . . . . . . . . . . آخر شکل

initial form . . . . . . . . . . . . . . . . . . . . . . . . . . . اول شکل

isolated form . . . . . . . . . . . . . . . . . . . . . . . . . تنها شکل

presentation form . . . . . . . . . . . . . . . . . نمایشی شکل

medial form . . . . . . . . . . . . . . . . . . . . . . . . وسط شکل

Basic Multilingual Plane . . . . . . . . . . پایه صفحهی

sign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . عالمت

presentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ارائه

information . . . . . . . . . . . . . . . . . . . . . . . . . . . اطالعات

Cursive Joining Algorithm . . . . . . اتصال الگوریتم

Bidirectional Algorithm . . . . . . . . دوجهته الگوریتم

transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . انتقال

ideographic . . . . . . . . . . . . . . . . . . . . . . . . . اندیشهنگار

octet/byte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . بایت

platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . بستر

block . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . بلوک

paragraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . بند

processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . پردازش

file . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . پرونده

support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . پشتیبانی

conform . . . . . . . . . . . . . . . . . . . . . . . . . . کردن پیروی

interchange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . تبادل

visual order . . . . . . . . . . . . . . . . . . . . . . دیداری ترتیب

logical order . . . . . . . . . . . . . . . . . . . . . . معنایی ترتیب

left-joining . . . . . . . . . . . . . . . . . . . . . . . . . . . چپوصل

delete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . حذف

letter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . حرف

script . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . خط

۲۶

Page 35: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

character set . . . . . . . . . . . . . . . . . . . . . مجموعهنویسه

environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . محیط

sort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . مرتبسازی

symbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . نماد

display . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . نمایش

document . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . نوشتار

. . . . . . . . . . . . . . . . . . . ترکیبشونده/بیعرض نویسهی

combining/non-spacing character . . . . . . . . . . . . .

private use character . . . . . . . . . خصوصی نویسهی

base letter/character . . . . . . . . . . . . . کرسی نویسهی

control character . . . . . . . . . . . . . . . . کنترلی نویسهی

entry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . واردسازی

join-causing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . واصل

edit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ویرایش

non-joining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . فاصل

compression . . . . . . . . . . . . . . . . . . . . . . . . فشردهسازی

encoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . قالب

transformation format . . . . . . . . . . . . . . تبادل قالب

mirroring . . . . . . . . . . . . . . . . . . . . . . . . . . . قرینهسازی

font . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . قلم

application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . کاربرد

code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . کد

to encode . . . . . . . . . . . . . . . . . . . . . . . کردن کدگذاری

ligature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . لیگاتور

text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . متن

plain text . . . . . . . . . . . . . . . . . . . . . . . . . . . . ساده متن

left join-causing . . . . . . . . . . . . . . . . . . . متصلبهچپ

right join-causing . . . . . . . . . . . . . . . . متصلبهراست

۲۷

Page 36: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

چ پیوست

نویسهها کد

(اطالعاتی)

الفبایی بهترتیب که است یونیکد استاندارد در حاضر، استاندارد نویسههای کدهای فهرست پیوست، این

است. شده مرتب نویسه نام

0623 . . . . . . . . . . . . . . باال. همزهی با الف فارسی حرف

0628 . . . . . . . . . . . . . . . . . . . . . . . . . . . . ب فارسی حرف

067E . . . . . . . . . . . . . . . . . . . . . . . . . . . . پ فارسی حرف

062A . . . . . . . . . . . . . . . . . . . . . . . . . . . . ت فارسی حرف

062B . . . . . . . . . . . . . . . . . . . . . . . . . . . . ث فارسی حرف

062C . . . . . . . . . . . . . . . . . . . . . . . . . . جیم. فارسی حرف

0686 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . چ فارسی حرف

062D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ح فارسی حرف

062E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . خ فارسی حرف

062F . . . . . . . . . . . . . . . . . . . . . . . . . . . دال فارسی حرف

0630 . . . . . . . . . . . . . . . . . . . . . . . . . . . ذال فارسی حرف

0631 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ر فارسی حرف

0632 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ز فارسی حرف

0698 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ژ فارسی حرف

0633 . . . . . . . . . . . . . . . . . . . . . . . . . . سین فارسی حرف

0634 . . . . . . . . . . . . . . . . . . . . . . . . . . شین فارسی حرف

0635 . . . . . . . . . . . . . . . . . . . . . . . . . . صاد. فارسی حرف

0636 . . . . . . . . . . . . . . . . . . . . . . . . . . ضاد. فارسی حرف

007B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . باز آکوالد

007D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . بسته آکوالد

200D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . مجازی اتصال

0670 . . . . . . . . . . . . . . . . . . . . . . فارسی. مقصورهی الف

202C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . زیرمتن پایان

0028 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . باز. پرانتز

0029 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . بسته. پرانتز

064F . . . . . . . . . . . . . . . . . . . . . . . . (ضمه). فارسی پیش

0651 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . فارسی تشدید

002D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . تیرهمنها

2029 . . . . . . . . . . . . . . . . . . . . . . . . . . بندها. جداکنندهی

2028 . . . . . . . . . . . . . . . . . . . . . . . . . سطرها جداکنندهی

066C . . . . . . . . . . . . . . . . . فارسی هزارهای جداکنندهی

0625 . . . . . . . . . . . . . . . . . . . پایین همزهی با الف حرف

0671 . . . . . . . . . . . . . . . . . . . . . . . . . . . وصل. الف حرف

0629 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . گرد. ت حرف

0622 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . آ فارسی حرف

0627 . . . . . . . . . . . . . . . . . . . . . . . . . . . الف فارسی حرف

۲۸

Page 37: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

064D . . . . . . . . . . . . . . . . . . . . جر) (تنوین فارسی دوزیر

003A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . دونقطه

06F5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . پنج. فارسی رقم

06F4 . . . . . . . . . . . . . . . . . . . . . . . . . . . چهار. فارسی رقم

06F2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . دو فارسی رقم

06F3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . سه فارسی رقم

06F6 . . . . . . . . . . . . . . . . . . . . . . . . . . . شش. فارسی رقم

06F0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . صفر فارسی رقم

06F9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . نه فارسی رقم

06F8 . . . . . . . . . . . . . . . . . . . . . . . . . . . هشت فارسی رقم

06F7 . . . . . . . . . . . . . . . . . . . . . . . . . . . هفت. فارسی رقم

06F1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . یک. فارسی رقم

064E . . . . . . . . . . . . . . . . . . . . . . . . . . (فتحه) فارسی زبر

0650 . . . . . . . . . . . . . . . . . . . . . . . . . . (کسره) فارسی زیر

202D . . . . . . . . . . . . . . . . . . . چپبهراست. اکیدا زیرمتن

202E . . . . . . . . . . . . . . . . . . . راستبهچپ. اکیدا زیرمتن

202A . . . . . . . . . . . . . . . . . . . . . . . . چپبهراست. زیرمتن

202B . . . . . . . . . . . . . . . . . . . . . . . . راستبهچپ. زیرمتن

0652 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . فارسی. ساکن

002A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ستاره

000D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . سطر سر

000A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . بعد سطر

2026 . . . . . . . . . . . . . . . . . . . . . . . . . . . . افقی سهنقطهی

0020 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . فاصله

200C . . . . . . . . . . . . . . . . . . . . . . . . . . . مجازی فاصلهی

005B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . باز کروشه

005D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . بسته کروشه

0637 . . . . . . . . . . . . . . . . . . . . . . . . . . . . طا فارسی حرف

0638 . . . . . . . . . . . . . . . . . . . . . . . . . . . . ظا فارسی حرف

0639 . . . . . . . . . . . . . . . . . . . . . . . . . . عین. فارسی حرف

063A . . . . . . . . . . . . . . . . . . . . . . . . . . غین. فارسی حرف

0641 . . . . . . . . . . . . . . . . . . . . . . . . . . . . ف فارسی حرف

0642 . . . . . . . . . . . . . . . . . . . . . . . . . . قاف. فارسی حرف

06A9 . . . . . . . . . . . . . . . . . . . . . . . . . . کاف فارسی حرف

06AF . . . . . . . . . . . . . . . . . . . . . . . . . . گاف فارسی حرف

0644 . . . . . . . . . . . . . . . . . . . . . . . . . . . الم. فارسی حرف

0645 . . . . . . . . . . . . . . . . . . . . . . . . . . . میم فارسی حرف

0646 . . . . . . . . . . . . . . . . . . . . . . . . . . . نون فارسی حرف

0648 . . . . . . . . . . . . . . . . . . . . . . . . . . . . واو فارسی حرف

0624 . . . . . . . . . . . . . . . باال. همزهی با واو فارسی حرف

0647 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ه فارسی حرف

0621 . . . . . . . . . . . . . . . . . . . . . . . . . . همزه فارسی حرف

06CC . . . . . . . . . . . . . . . . . . . . . . . . . . . . ی فارسی حرف

0626 . . . . . . . . . . . . . . . . باال همزهی با ی فارسی حرف

0643 . . . . . . . . . . . . . . . . . . . . . . . . . . . عربی کاف حرف

0649 . . . . . . . . . . . . . . . . . . . . . بینقطه. عربی ی حرف

064A . . . . . . . . . . . . . . . . . . . . . نقطهدار. عربی ی حرف

002F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . اریب خط

005C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . و وار اریب خط

2010 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . تیره خط

007C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . عمودی خط

066A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . فارسی درصد

064C . . . . . . . . . . . . . . . . . . رفع) (تنوین فارسی دوپیش

064B . . . . . . . . . . . . . . . . . . نصب) (تنوین فارسی دوزبر

۲۹

Page 38: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

2212 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . منها عالمت

0653 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . فارسی مد

066B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . فارسی. ممیز

FEFF . . . . . . . . . . . . . . . . . . . . . . . بایتها ترتیب نشانهی

200E . . . . . . . . . . . . . . . . . . . . . . . . چپبهراست نشانهی

200F . . . . . . . . . . . . . . . . . . . . . . . . راستبهچپ نشانهی

002E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . نقطه

061B . . . . . . . . . . . . . . . . . . . . . . . . . فارسی نقطهویرگول

060C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . فارسی ویرگول

0654 . . . . . . . . . . . . . . . . . . . . . . . . . . باال فارسی همزهی

0655 . . . . . . . . . . . . . . . . . . . . . . . . پایین فارسی همزهی

0640 . . . . . . . . . . . . . . . . . . . . . . . . . . . . فارسی کشیدگی

00AB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . باز گیومه

00BB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . بسته گیومه

003E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . بزرگتر. عالمت

002B . . . . . . . . . . . . . . . . . . . . . . . . . . . . بهاضافه عالمت

0021 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . تعجب عالمت

00F7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . تقسیم. عالمت

061F . . . . . . . . . . . . . . . . . . . . . . . . فارسی سوال عالمت

00D7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ضرب. عالمت

003C . . . . . . . . . . . . . . . . . . . . . . . . . . . . کوچکتر عالمت

003D . . . . . . . . . . . . . . . . . . . . . . . . . . . . مساوی. عالمت

۳۰

Page 39: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

ح پیوست

نویسهها نام

(اطالعاتی)

استاندارد در نویسه کد بهترتیب حاضر، استاندارد در تعریفشده نویسههای نامهای فهرست پیوست، این

است. یونیکد

باز آکوالد 007B

عمودی خط 007C

بسته آکوالد 007D

باز گیومه 00AB

بسته گیومه 00BB

ضرب عالمت 00D7

تقسیم عالمت 00F7*

فارسی ویرگول 060C

فارسی نقطهویرگول 061B

فارسی سوال عالمت 061F

همزه فارسی حرف 0621

آ فارسی حرف 0622

باال همزهی با الف فارسی حرف 0623

باال همزهی با واو فارسی حرف 0624

پایین همزهی با الف حرف 0625*

باال همزهی با ی فارسی حرف 0626

الف فارسی حرف 0627

ب فارسی حرف 0628

بعد سطر 000A

سطر سر 000D

فاصله 0020

تعجب عالمت 0021

باز پرانتز 0028

بسته پرانتز 0029

ستاره 002A

بهاضافه عالمت 002B

تیرهمنها 002D

نقطه 002E

اریب خط 002F

دونقطه 003A

کوچکتر عالمت 003C

مساوی عالمت 003D

بزرگتر عالمت 003E

باز کروشه 005B

و وار اریب خط 005C

بسته کروشه 005D

۳۱

Page 40: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

بینقطه عربی ی حرف 0649*

نقطهدار عربی ی حرف 064A*

نصب) (تنوین فارسی دوزبر 064B

رفع) (تنوین فارسی دوپیش 064C

جر) (تنوین فارسی دوزیر 064D

(فتحه) فارسی زبر 064E

(ضمه) فارسی پیش 064F

(کسره) فارسی زیر 0650

فارسی تشدید 0651

فارسی ساکن 0652

فارسی مد 0653*

باال فارسی همزهی 0654

پایین فارسی همزهی 0655*

فارسی درصد 066A

فارسی ممیز 066B

فارسی هزارهای جداکنندهی 066C

فارسی مقصورهی الف 0670

وصل الف حرف 0671*

پ فارسی حرف 067E

چ فارسی حرف 0686

ژ فارسی حرف 0698

کاف فارسی حرف 06A9

گاف فارسی حرف 06AF

ی فارسی حرف 06CC

صفر فارسی رقم 06F0

یک فارسی رقم 06F1

دو فارسی رقم 06F2

گرد ت حرف 0629

ت فارسی حرف 062A

ث فارسی حرف 062B

جیم فارسی حرف 062C

ح فارسی حرف 062D

خ فارسی حرف 062E

دال فارسی حرف 062F

ذال فارسی حرف 0630

ر فارسی حرف 0631

ز فارسی حرف 0632

سین فارسی حرف 0633

شین فارسی حرف 0634

صاد فارسی حرف 0635

ضاد فارسی حرف 0636

طا فارسی حرف 0637

ظا فارسی حرف 0638

عین فارسی حرف 0639

غین فارسی حرف 063A

فارسی کشیدگی 0640

ف فارسی حرف 0641

قاف فارسی حرف 0642

عربی کاف حرف 0643*

الم فارسی حرف 0644

میم فارسی حرف 0645

نون فارسی حرف 0646

ه فارسی حرف 0647

واو فارسی حرف 0648

۳۲

Page 41: ﺕِﺎﻋﻼﻃﺍﺶﯾﺎﻤﻧﯼﻩﻮﯿﺷﻭﻝﺩﺎﺒﺗـــﺕﺎﻋﻼ ...sharif.edu/~tabesh/isiri-6219.pdf · 2002. 5. 22. · The Unicode Consortium, The Unicode

تیره خط 2010*

افقی سهنقطهی 2026*

سطرها جداکنندهی 2028*

بندها جداکنندهی 2029*

چپبهراست زیرمتن 202A*

راستبهچپ زیرمتن 202B*

زیرمتن پایان 202C*

چپبهراست اکیدا زیرمتن 202D*

راستبهچپ اکیدا زیرمتن 202E*

منها عالمت 2212*

بایتها ترتیب نشانهی FEFF

سه فارسی رقم 06F3

چهار فارسی رقم 06F4

پنج فارسی رقم 06F5

شش فارسی رقم 06F6

هفت فارسی رقم 06F7

هشت فارسی رقم 06F8

نه فارسی رقم 06F9

مجازی فاصلهی 200C

مجازی اتصال 200D

چپبهراست نشانهی 200E

راستبهچپ نشانهی 200F

است. نویسه آن بودن اختیاری بهمعنای نویسه کد راست سمت در ستاره عالمت ـــ یادآوری

۳۳