اخبار > پردازش دستوری زبان فارسی با رایانه


  چاپ        ارسال به دوست

پردازش دستوری زبان فارسی با رایانه

پردازش دستوری زبان فارسی با رایانه

موضوع اصلی در زبان‌شناسی رایانه‌ای پردازش زبان طبیعی است و هنگامی که کارشناسان رایانه از پردازش زبان طبیعی سخن می‌گویند اغلب مسائلی را عنوان می‌کنند که نشان می‌دهد تمایز روشنی میان خط و زبان قائل نیستند. به سخن دیگر، در بسیاری موارد، این دو حوزه را در هم می‌آمیزند. بد نیست در آغاز به برخی از کاربردهای رایانه در حوزهٔ خط اشاره‌ای نماییم و سپس به نقش آن در حوزهٔ زبان به‌ویژه ساخت‌واژه بپردازیم.

۱ حوزهٔ خط

۱-۱ غلط‌یابی املایی

یکی از ابزارهای سودمندی که واژه‌پردازها به‌تدریج از آن سود جستند، خطایاب یا غلط‌یاب املایی (spelling checker) است. در نسخه‌های جدید نرم‌افزار Word،‌ برای متن‌های انگلیسی، می‌توان از کارایی‌های بالای غلط‌یاب آن بهره گرفت. از چند سال گذشته، برخی از شرکت‌های سازندهٔ نرم‌افزار واژه‌پرداز فارسی کوشیدند نمونه‌هایی از چنین غلط‌یاب‌هایی را برای فارسی به‌کار گیرند، از جمله پیشکار، زرنگار، گستره‌نگار و نقش. در دو نرم‌افزار نخست به‌نظر می‌رسد بیشترین اتکای برنامه بر جستجوی قاعده‌مند و الگوریتمی ساخت‌های واژه قرار داشته باشد، در صورتی که در غلط‌یابِ گستره‌نگار که نسخه‌ای از آن در واژه‌پردازِ نقش نیز به کار رفت، تکیه بر جستجوی واژه در یک فهرست دویست هزار واژه‌ای است. روش دوم، که امکان استفاده از آن در نرم‌افزارهای دیگر نیز هست، با سرعت و دقت بیشتری کار می‌کند؛ اما هر دو روش دارای مشکلاتی هستند.

مهم‌ترین اشکال در اغلب غلط‌یاب‌ها عدم توجه آنها به بافت (واژه‌های همسایه) است، که باعث می‌گردد واژه‌ای با ظاهر درست در جمله‌ای نابه‌جا به کار رود و غلط شناخته نشود. مثلاً واژهٔ اسب در جملهٔ زیر درست به‌شمار می‌آید: امروز هوا گرم اسب.

یکی از امکانات غلط‌یاب‌ها افزودن واژه‌های جدید به فهرست است، که این ویژگی در جستجوهای فهرستی کارآیی بیشتری دارد. از سوی دیگر، امکان پیشنهاد واژهٔ درست در برابر واژهٔ غلط، شمشیری دو لبه است. گرچه پیشنهادهای به‌جا می‌تواند در سرعت غلط‌گیری بسیار مؤثر باشد، اما پیشنهادهای نامربوط ـ که تعداد آنها در واژه‌پردازهای فارسی بسیار است ـ بیشتر باعث کندی کار می‌گردد. نکتهٔ دیگر وابسته‌گی این‌گونه غلط‌یاب‌ها به یک دستور خط خاص است و تا هنگامی که دستور خطی استاندارد (فراتر از دستور خط فرهنگستان) و بدون موارد استثنائی تدوین نگردد، آشفتگی و سردرگمی این نرم‌افزارها نیز پایان نخواهد گرفت.

۱-۲ بازشناسی خودکار متن (OCR)

درون‌داد متن کاری وقت‌گیر و پرخطاست و حجم متن‌‌هایی که پیش‌تر چاپ شده‌اند بسیار زیاد است. از این‌جاست که اندیشهٔ درون‌دادِ خودکار متن‌ها شکل می‌گیرد. درون‌داد نگاره‌ایِ یک متن (با روش عکس‌برداری یا پویش) تصویری غیرقابل‌استفاده برای پردازش فراهم می‌نماید. روش‌ها و سیستم‌های متعددی برای بازشناسی خودکار متن‌های زبان‌های اروپایی (با حروف لاتین) به‌وجود آمده و بسیاری از آنها نیز با درجهٔ دقت بالایی کار می‌کنند. شرکت صَخر وابسته به مایکروسافت، که بیشتر برای خط و زبان عربی فعالیت می‌کند، نخستین بار برنامه‌ای برای بازشناسی متن‌های عربی تهیه کرد. نسخهٔ ابتدایی حتی برای متن‌های عربی مشکلاتی داشت، ولی می‌توانست در مورد خط فارسی پایه‌ای برای آغاز به‌شمار آید. یکی از شرکت‌های ایرانی، بر همین اساس،‌ نرم‌افزاری به نام شناسا تولید که تا مدتی تنها برنامهٔ OCR فارسی به‌شمار می‌آمد. متٱسفانه، با وجود نارسایی‌های متعدد و درجهٔ دقت پایین، تلاش از سوی تهیه‌کنندگان برای بهبود و افزایش دقت نرم‌افزار صورت نگرفت. به‌تازگی شرکت صخر نسخهٔ ۶ برنامهٔ متن‌خوان خودکار خود را عرضه نموده که برای زبان و خط فارسی نیز امکاناتی را ارائه می‌دهد.

۲ حوزهٔ زبان

پردازش زبان فارسی در سطوح چهارگانهٔ آوایی، ساخت‌واژی، نحو، و معنایی و در حوزه‌های کاربردی و میان‌رشته‌ای به صورت پراکنده و در نهادهای دانشگاهی و پژوهشی انجام پذیرفته و متٱسفانه ارتباط منظمی میان آنها وجود نداشته است. از این‌رو، فعالیت‌های مشابه و موازی بسیار مشاهده می‌شود. شاید بتوان امیدوار بود، با ایجاد مراکز پژوهشی مشخص و انجام پژوهش‌های هدف‌دار و برنامه‌ریزی شده، تا اندازه‌ای از پراکنده‌کاری و دوباره‌کاری جلوگیری شود. به‌دلیل یادشده، تنها به برخی از پژوهش‌های نمونه در هر زمینه اشاره می‌گردد.

۲-۱ آواشناسی

سیر منطقی بررسی این حوزه باید به شناسائیِ واج‌های زبان فارسی و مشخصه‌های آنها با روش‌های آزمایشگاهی و روشن کردن بسیاری از موارد ابهام یا مورد اختلاف دربارهٔ آنها بپردازد؛ از جمله تعیین دقیق واکه‌ها (vowels) و هم‌خوان‌ها(consonants)ی اصلی فارسی معیار و گونه‌های آنها، وجود واکه‌های مرکب (diphthongs) و تعداد و کیفیت آنها، ماهیت همزه به عنوان یک واج در جایگاه‌های مختلف واژه و گونه‌های آن،‌ و بسیاری نکاتِ دیگر در این زمینه.

مرحلهٔ دیگر بررسی واحدهای زبرزنجیری (suprasegmentals) یا نواهای گفتار است؛ عواملی مانندِ زیر و بمی (pitch)، تکیه (stress)، نواخت (tone)، آهنگ (intonation)، و درنگ (juncture) که در گفتارِ پیوسته بر روی زنجیرهٔ آواها و در سطوح آوا، هجا، واژه و جمله تٱثیر می‌گذارند. این واحدها نه‌تنها از نظر تعیین، تغییر و تمایزِ معنی بلکه از لحاظ ایجاد لحن طبیعی گفتار و بیان حالات گوناگون عاطفی دارای اهمیت‌اند.

پردازش گفتار فارسی بدون توجه دقیق به فرآیندهای آوایی، که مجموعهٔ دگرگونی‌هایی است که در اثر هم‌نشینی آواها و تٱثیر ویژگی‌های آنها در هنگام گفتار بر یکدیگر به‌وجود می‌آید، چه در مرحلهٔ درک و بازشناسی و چه در مرحلهٔ تولید، غیرواقعی و حتی غیرعملی خواهد بود. آن‌چه گفتار بازسازی‌شده را از حالتِ ماشینی، خشک و مقطّع به گفتاری طبیعی و انسانی تبدیل می‌کند دخالت دادن عواملی مانند واحدهای زبرزنجیری و نیز فرآیندهایی آوایی در تولید گفتارِ پیوسته است.

۲-۱-۱ برخی بررسی‌های انجام‌شده در حوزهٔ آواشناسی

اسلامی (۱۳۷۹) ویژگی‌های آهنگی زبان فارسی را بررسی کرده و نشان داده که زیر و بمی دارای یک نظام واج‌شناختی است. به‌نظر وی، عناصر آهنگی یعنی تکیهٔ زیر و بمی، نواختِ گوره و نواختِ مرزنما هویت مستقل از یکدیگر دارند و به‌طور مستقل نیز می‌توانند تغییر کنند و معنای آهنگیِ متفاوتی به پاره‌گفتار ببخشند. این عناصرِ آهنگی در ترکیب با هم الگوهای آهنگی می‌سازند که هر کدام نمایندهٔ بافت خاصی هستند. اسلامی نشان می‌دهد که از ترکیب منطقی تکیه‌ها و نواخت‌های کناری در زبان فارسی شانزده الگوی آهنگ به دست می‌آید. ایشان، با طرح مباحثی مربوط به مرز گروه‌های آهنگی، نشان می‌دهد که گفتار پیوسته به‌صورت قاعده‌مند به واحدهای کوچک‌تر تقسیم می‌شود. از اطلاعات نحوی می‌تواند در شناساییِ مرزهای گروه‌های آهنگی استفاده کرد. آن‌گاه از بحث مرز گروه‌های آهنگی در بازسازی گفتار استفاده می‌شود و بدین‌وسیله گفتارِ بازسازی‌شده به واقعیت نزدیک‌تر می‌شود.

وی نشان داده که، در تٱکید کلی،‌ الگوی برجستگی واحدهای نحوی بر اساس اصل هسته‌گریزی است و، در آن،‌ تکیهٔ زیر و بمی روی دورترین وابستهٔ هسته قرار می‌گیرد. در جملات پیچیده، هرکدام از گروه‌های نحوی مؤکد، بر اساس همان اصل هسته‌گریزی، تکیه می‌گیرند. در آخر، ایشان، بر اساس اطلاعات واج‌شناختی، واحدهای واژگانی را شناسایی می‌کنند. از آن‌جایی که هجای تکیه بر این واحدها مشخص شده است، در بازسازی گفتار می‌توان پیش‌بینی کرد که کدام هجای یک واحد واژگانی می‌تواند بالقوه جایگاه تکیهٔ زیر و بمی باشد. سپس چگونگی استفاده از اطلاعات واژگانی در بازشناسیِ مرز واژه در گفتار پیوسته مورد بررسی قرار می‌گیرد. وی متذکر می‌شود که، به‌جز در موارد معدودی، واحدهای واژگانی تکیه‌پایانی‌اند و، اگر در پاره‌گفتار برجسته شوند، هجای تکیه‌برِ واژگانیِ آنها محل تکیهٔ زیر و بمی خواهد بود. بنابراین، تکیهٔ زیر و بمی در هر جایی از گفتار که ظاهر شود نشانهٔ مرز واژه است.

نتیجه‌ٔ کار غلام‌پور (۱۳۷۹) تشخیص رشتهٔ آواییِ ورودی است. سپس، با رجوع به واژگان، صورت‌های متفاوتی از مجموعه کلماتی که می‌توانند با آن رشتهٔ آوایی متناظر باشند شناسایی می‌شود. در نهایت، از بین رشته کلمات موجود، با کمک تقطیع‌گرِ پایین به بالا جملهٔ صحیح تشخیص داده می‌شود. تقطیع‌گرِ وی از حدود هشتصد قاعده استفاده می‌کند که حدود صد ساخت فارسی مشمول آن است.

قاسمی (۱۳۷۷) مبنای آواشناختی برای انتخاب و استخراج واحدهای آوایی به‌منظور سنتزگفتار فارسی معرفی کرده است. وی یازده فرآیند آوایی را بررسی کرده است که، از آن میان، پنج فرآیند را در امر بازسازیِ گفتار مهم و شش مورد از آنها را قابل اغماض می‌شمارد.

در فرآیند تولید ناقص دو هم‌خوانِ همانند در مرز دو هجا، وی توصیه می‌کند که در مورد واج‌های انسدادی‌-‌سایشی در کلمهٔ بازسازی‌شده بین دو هجا مکثی به اندازهٔ تولید هم‌خوان اول در نظر گرفته و سپس آن هم‌خوان حذف شود. در مورد واج‌های دارای مشخصهٔ پیوسته یا خیشومی، بین دو هجای منظور مکثی وجود ندارد و از واحدهای معمولی می‌توان استفاده کرد. به‌نظر وی، مکث بین دو هجا در گروه اول در حالت بازسازی در پاره‌گفتار یا جمله ۷۰ میلی‌ثانیه و در واژه ۱۳۰ میلی‌ثانیه است. به کار بردن [h] واک‌دار به جای [h] سایشی ایجاد اشکال می‌کند، ولی عکس آن بدون اشکال است. از این رو، قاسمی توصیه می‌کند که تمام واحدهای دارای [h] را از محیطی استخراج کنیم که دارای [h] باشند. وی نشان داده است که در هجای cvc، اگر هم‌خوان آخر [n] و واکه از نوع بلند (â, u, i) باشد، کشش واکه در این محیط از کشش واکه در محیط‌های دیگر حدود ۶۰ میلی‌ثانیه کم‌تر است و هرگاه در واژه‌یی [i] قبل از [y] بیاید کشش آن نسبت به محیط‌های دیگر کم‌تر (تقریباً ۷۰ میلی‌ثانیه) می‌شود. واحدهای دارای همزهٔ بسیار خفیف را نمی‌توان به‌جای بقیهٔ واحدهای نظیر آنها به‌کار برد. بنابراین، در استخراج واحدها نباید از همزهٔ بسیار خفیف استفاده کرد. یعنی این‌گونه واحدها را نباید از گروه یا جمله استخراج کرد بلکه باید از واژه استخراج شوند. واج‌گونهٔ لرزشی [r] و واج‌گونهٔ واکه‌گونهٔ [t] را می‌توان به‌جای هم و به‌جای واج‌گونه‌های دیگر /r/ به کار برد، ولی واج‌گونهٔ زنشی [ρ] را نمی‌توان به‌جای واج‌گونه‌های دیگر به‌کار برد. بنابراین، در استخراج واحدها نباید واج‌گونهٔ [ρ] زنشی داشته باشیم. به این ترتیب، فرآیندهای مذکور از فرآیندهای مهم در سنتز طبیعی گفتار به‌شمار می‌آیند.

۲-۲ ساخت‌واژه و نحو

ساخت‌واژه (morphology) به بررسی کوچک‌ترین واحد معنی‌دار زبان یعنی تک‌واژ (morpheme)، انواع آن، آرایش و چگونگی شرکت آن در ساخت واحدهای بزرگ‌تر، یعنی واژه‌ها، می‌پردازد. تک‌واژ نیز واحدی انتزاعی است که ممکن است صورت‌های کاربردی و عینی گوناگونی داشته باشد.

مجموعه واژه‌های هر زبان موجودی یا داراییِ آن زبان به‌شمار می‌رود و هرچه فهرستِ واژگانِ (lexicon) یک زبان بلندبالاتر باشد آن زبان غنی‌تر به‌شمار می‌آید. زبان فارسی، با تنوع و انعطاف بسیار، تقریباً از همهٔ الگوها و فرآیندهای واژه‌سازی چه آنها که بیش‌تر در زبان‌های تصریفی به‌کار می‌روند (مانند اشتقاق) و چه آنها که ویژهٔ زبان‌های ترکیبی هستند (یعنی ترکیب) و حتی فرآیند وندافزایی و پیوند که بیشتر مربوط به زبان‌های پیوندی است بهره می‌گیرد و از این‌رو، برخلاف تصور برخی از افراد، تواناییِ واژه‌سازی بالقوهٔ آن بسیار بالاست.

به گمان گروهی «اولین گام در تحلیل نحوی، شناساییِ مقولاتی است که واژه‌های یک زبان بدان تعلق دارند» (اگرادی و دیگران، ۱۳۸۰، ص۲۰۸). اما شاید در حوزهٔ ساخت‌واژه نیز نخستین گام فراهم آوردن فهرستی از اقلام واژگانی زبان است که امروزه با ایجاد پایگاه‌های داده‌های زبانی عملی می‌گردد و در بخش دیگری به آن اشاره خواهد شد. اما تنها فهرست واژگان نیست که مورد نیاز برنامه‌های گوناگون پردازش زبان طبیعی است بلکه فهرست‌های ویژهٔ دیگری نیز در فعالیت‌های خاص به کار گرفته می‌شوند. پیش از هرگونه تحلیل خودکار یا پردازش رایانه‌ای متن‌های زبانی، توصیف دقیق زبان‌شناختی آن ضروری است. خوشبختانه بررسی‌های علمی زیادی انجام شده است که می‌تواند زمینهٔ این‌گونه تحلیل‌ها را فراهم سازد.

۲-۲-۱ برخی بررسی‌های انجام‌شده در حوزهٔ ساخت‌واژه و نحو

بقایی (۱۳۸۰) و امامی (۱۳۸۰)، با بهره‌گیری از پایگاه داده‌های زبان فارسی، به جداسازی همهٔ تکواژهای فارسی پرداختند و فهرست کامل آنها را ارائه دادند.

ماه‌جانی (۱۳۷۸) مدلی برای نمایش اطلاعات نحوی و معناییِ مدخل واژگانی فعل ارائه داده است. مدل پیشنهادی وی از نحو به سوی معنا حرکت می‌کند. وی، در سطح اول که سطح ساختاری است، اطلاعات دستوری اعم از مقولهٔ نحوی نهاد، چارچوب زیرمقوله‌ای (متمم‌های اجباری فعل) و مقولهٔ نحوی متمم‌های اختیاری (ادات) را نشان داده است. در سطح بعدی که ساختار موضوعی است، اطلاعات ساختار موضوعی، نقش‌های معنایی، محدودیت‌های گزینشی، هستهٔ واژگانی و بالٱخره پربسامدترین ساخت‌ها با هستهٔ فعل نشان داده می‌شود.

سمائی (۱۳۷۷) در پایان‌نامهٔ دکتری، با توجه به داده‌هایش، دوازده حوزهٔ دستوری را بازشناخته است. این حوزه‌ها عبارت‌اند از صفت، ضمیر، اسم، فعل، قید، حرف اضافه، علائم سجاوندی، جمله‌سازی، گشتار، صرف، املا و واژگان. وی، سپس، ویژگی‌های هر حوزه را استخراج و قواعد حاکم بر آن را ارائه کرده است. این کار، به ادعای سمائی، بر اساس فرضیهٔ استقلال نحو چامسکی است.

یکی از چالش‌های بزرگ در پردازش خودکار متن‌های زبانی شناساییِ واژه‌ها و نشانه‌گذاری آنهاست. نشانه‌گذاری دستوری را معمولاً برچسب‌دهی می‌نامند و تعیین مجموعهٔ برچسب‌های دستوری هر زبان، به‌جز چارچوب‌ها و قواعد عمومی، شرایط ویژهٔ خود را نیز دارد.

فرّخ (۱۳۸۱)،‌ با بررسی مفصّل فعل در زبان فارسی، نوعی دسته‌بندی ارائه داده است که با توجه به آن بتوان برنامه‌ای برای رایانه نوشت تا شناساییِ افعال در متن به‌طور خودکار انجام و سپس اجزاء و نوع آنها تعیین شود.

دانش‌کار آراسته (۱۳۸۱) برنامه‌ای چهارصد خطی، به زبان Visual Basic، برای تشخیص فعل در زبان فارسی نوشته است. این نرم‌افزار قادر است ویژگی‌های زمان، شخص، عدد، معلوم، مجهول، سببی و ریشهٔ فعل را اعلام نماید.

در مرحلهٔ اول، کاربر متنی را که ممکن است شامل یک واژه، یک عبارت، یک جمله یا چندین جمله باشد وارد می‌کند. واحد متنْ جمله در نظر گرفته شده است؛ بنابراین، باید پایان متن را با یکی از علائم سجاوندی به برنامه اعلام نمود. مرحلهٔ دوم تشخیص واژه است که مرز آن فاصله است. تکواژهایی که مربوط به فعل‌اند اما جدا نوشته می‌شوند برای برنامه تعریف شده‌اند؛ بنابراین، برنامه به‌طور خودکار فاصلهٔ بین این تکواژها و فعل را حذف می‌کند و این کلمات را به‌صورت یک واژهٔ یک‌پارچه به‌حساب می‌آورد.

مرحلهٔ بعد بررسی فعل‌بودن یا فعل‌نبودنِ واژه است. این قسمت بدنهٔ اصلی برنامه است و بیشترین بخش‌های برنامه را دربر می‌گیرد. برای این برنامه یک پایگاه داده شامل ستاک‌های گذشته و حال تهیه شده است. ابتدا همهٔ واژه در فهرست جستجو می‌شود. افعالی که هیچ‌گونه پیشوند یا پسوندی ندارند به‌راحتی در فهرست پیدا می‌شوند. سپس، مشخصات فعل مورد نظر، بر اساس اجزای اعلام‌شده در فهرست دیگری، اعلام می‌شود. پایگاه داده‌های این برنامه شامل ۴۵۰ واژه است. این برنامه، با طراحی مرحله‌به‌مرحله، اقدام به شناساییِ اجزای واژه می‌کند و با جداسازی و تجزیهٔ این افعال نوع فعل را مشخص می‌کند.

عاصی و حاج عبدالحسینی (Assi and H. Abdolhosseini 2000)، برای تعیین مقوله‌های دستوری واژه‌های متن‌های پیوستهٔ فارسی، از روشی ریاضی و آماری بهره می‌گیرند. روش مورد استفاده که برچسب‌دهی توزیعی (Distributional Part-of-Speech Tagging) نامیده شده، نخستین‌بار به‌وسیلهٔ شوتس (Schuetze 1995) برای زبان انگلیسی به‌کار گرفته شد. در این روش، فرض بر این است که رفتار نحوی واژه‌های در الگوهای هم‌وقوعی (co-occurrence) آنها بازتاب می‌یابد. برنامه، با ایجاد بردارهای آماری از همسایه‌های دو سوی هر واژه و بررسی شباهت‌های رفتار نحوی‌شان، احتمال‌های ممکن مقولهٔ دستوری آن را محسابه می‌کند و برچسب مناسب را از میان یک مجموعهٔ ۴۵تایی برمی‌گزیند. تعیین مجموعه برچسب‌های هر زبان و برای هر منظور تابع شرایط و معیارهای متعددی است که این کار را به چالشی بزرگ تبدیل می‌کند. مجموعه برچسب این طرح نیز با نشانه‌های دقیق و با نظم سلسله‌مراتبیِ حساب‌شده‌ای مشخص گردیده و برچسب‌ها هیچ‌گونه تداخل یا هم‌پوشانی با یکدیگر ندارند.

پردازش دستوری زبان فارسی مصطفی عاصی

پردازش دستوری زبان فارسی

۲-۲-۲ روش‌ها و ابزارهای تحلیل دستوری: زبان‌شناسی پیکره‌ای

به‌موازات پیشرفت و تحولات نظری زبان‌شناسی جدید و شکل‌گیری مکاتب گوناگون، روش‌های تحلیل نیز تحول یافت. روش‌های ساخت‌گرایانه که تا دههٔ چهل و پنجاه میلادی به‌اوج رسید، بیشتر به حوزهٔ ساخت‌واژه می‌پرداخت و از روش تجزیه به سازه‌های پیاپی (immediate constituents analysis) بهره می‌گرفت. دستور زایشی با رویکردی نحوی به تکمیل روش یادشده پرداخت و تحلیل سازه‌ای (phrase structure analysis) را به‌وجود آورد و، با کمک گرفتن از نمودارهای ژرف‌ساختی، روساختی و گشتارها، تحلیل گشتاری (transformational analysis) را سامان داد. مکتب‌های دیگر زبان‌شناسی نیز تحلیل‌های متفاوتی ارائه کرده‌اند مانند تحلیل رابطه‌ای (relational analysis) و تحلیل نقش‌گرا (functional analysis) که در هر یک از آنها مجموعه‌ای از قواعد، انگاره‌ها، نمودارها و نشانه‌ها برای توصیف نحوی زبان به‌کار گرفته می‌شود. با گسترش و اهمیت پیدا کردن رویکرد متن‌گرا و کاربرد عملی آن در حوزهٔ پردازش زبان و نیز بهبود و افزایش امکانات رایانشی برای ذخیره‌سازی، سامان‌دهی، پردازش، جستجو و دستیابی متن‌های بزرگ زبانی، شاخهٔ جدیدی در زبان‌شناسی به‌صورت میان‌رشته‌ای با رایانه به نام زبان‌شناسی پیکره‌ای شکل گرفت.

در سال ۱۹۹۲ میلادی، هلیدی، زبان‌شناس نامی،‌ در همایش ویژه‌ای دربارهٔ زبان‌شناسی پیکره‌ای گفت:

«از نخستین روزهایی که تصمیم گرفتم دستورنویس شوم، همواره می‌اندیشیدم که دستور موضوعی است با مقدار زیادی نظریه و مقدار ناچیزی داده. از این رو، برای دو نکته اهمیت قائل بوده‌ام: اول آنکه برای بررسی دستور نیاز به حجم بزرگی از داده‌های زبانی داریم، چرا که باور دارم دستور را باید به شکلی کمّی مطالعه کرد؛ دیگر آنکه باید چگونگی کاربرد روش‌های کمّی را برای تعیین درجات ارتباط میان دستگاه‌های گوناگون دستوری نشان داد (کاری که در پایان‌نامهٔ دکتری خود کرده‌ام)». (Halliday 1992, p. 611)

بخش بزرگی از زبان‌شناسان دیدگاهی همانند هلیدی دارند. همیشه یکی از آرزوهای زبان‌شناسان کاربردی و حتی بسیاری از نظریه‌پردازان این بوده است که به مقادیر بزرگی از داده‌های زبانی دسترسی داشته باشند.

«در دانش زبان، پیکره مجموعه‌ای از متون نوشتاری یا گفتاری آوانویسی شده است که می‌توان آن‌را به‌عنوان مبنایی برای تحلیل و توصیف زبانی به کار برد» (Kennedy, p. 1)

پیکرهٔ زبانی می‌تواند بسیار بزرگ، فراگیر و نمایندهٔ تمامی یک زبان یا گونه‌ای از آن باشد؛ به شکل برگه‌های یادداشت یا پرونده‌های رایانه‌ای شامل متن‌های کامل یا گزیده‌هایی از آنها، بخش‌های پیوسته‌ای از متون یا گزیده‌ای از نقل‌قول‌ها و نکات و حتی فهرست‌های واژگانی باشد. پیکره می‌تواند ویژهٔ بررسی خاصی فراهم آید و یا دربرگیرندهٔ مجموعهٔ عظیم و بی‌ساختاری از متون گوناگون باشد که برای منظورهای گوناگون به کار رود. زبان‌شناسیِ پیکره‌ای بنیادی روش‌شناختی برای پژوهش‌های زبانی به‌شمار می‌آید. در اصل و عملاً زبان‌شناسی پیکره‌ای به‌آسانی با شاخه‌های دیگر زبان‌شناسی می‌آمیزد. می‌توان با کمک پیکره به بررسی‌های آوایی، نحوی، اجتماعی یا دیگر زمینه‌های زبان پرداخت و در این صورت می‌گوییم که روش‌ها و فنون زبان‌شناسی پیکره‌ای را با موضوعات آوای، نحوی و اجتماعی زبان و مانند آن آمیخته‌ایم. (Leech 1992, p. 106)

تنها رشتهٔ دیگر زبان‌شناسی که، مانند این رشته، با ابزار و روش‌های مطالعه و نه با موضوعی خاص سروکار دارد زبان‌شناسی رایانه‌ای است که به‌عنوان مطالعهٔ زبان با کمک رایانه تعریف شده است. امروزه به‌نظر می‌رسد که این دو رشته با یکدیگر پیوند یافته‌‌اند. یعنی می‌توان این حوزه را زبان‌شناسی پیکره‌ای رایانه‌ای (computer corpus linguistics (CCL)) نامید، که در این‌صورت نه‌تنها روش نوین بررسی زبان بلکه فعالیت پژوهشی تازه‌ای با رویکردی فلسفی در زبان‌شناسی به‌شمار می‌آید (Ibid). لیچ ویژگی‌های مهم این رشته را چنین برمی‌شمارد:

۱٫ تمرکز بر کنش زبانی و نه توانش زبانی؛

۲٫ تمرکز بر توصیف زبانی و نه بر همگانی‌های زبان؛

۳٫ تمرکز بر الگوهای کمّی زبانی همانند الگوهای کیفی آن؛

۴٫ تمرکز بر دیدگاه‌های تجربی (و نه عقلانی) در بررسی‌های علمی زبان.

همان‌گونه که مشاهده می‌شود، این ویژگی‌ها مجموعه‌ای را به‌وجود می‌آورد که توجه بیشتری به جنبه‌های رفتاری زبان و بروز طبیعی گفتار و نوشتار دارد و عملاً در مقابل دیدگاه‌های چامسکی و پیروان وی قرار می‌گیرد. (Ibid, p. 107)

تویبرت نیز نگرشی هم‌سو با لیچ نشان می‌دهد:

«زبان‌شناسی پیکره‌ای بر پایهٔ این باور که زبان اساساً پدیده‌ای اجتماعی است بنا نهاده شده است؛ پدیده‌ای که پیش از هر چیز می‌توان آن را با داده‌های تجربی آماده، یعنی در کنش‌های ارتباطی مشاهده و توصیف کرد. متن‌های مورد مشاهده، در اصل، کنش‌های ارتباطی گذرا هستند». (Teubert 1991, p. 1)

از سوی دیگر، وی بررسی این پدیدهٔ اجتماعی را مستلزم دانستن چگونگی درک گوینده یا شنونده از مطالب نمی‌داند، زیرا زبان، به‌عنوان یک پدیدهٔ اجتماعی، به‌صورت متنی متجلی می‌گردد که می‌توان آن را مشاهده، ضبط، توصیف و تحلیل کرد.

زبان‌شناسیِ پیکره‌ای به توصیف تک‌تک زبان‌های طبیعی می‌پردازد و نه همگانی‌های زبان. از آنجا که نمی‌توان به درون ذهن افراد رخنه کرد، تنها می‌توان قراردادهای زبانی را در کنش‌های ارتباطی و متون یافت. گرچه فرهنگ‌های لغت، کتاب‌های دستور و کتاب‌های درسی زبان نیز جزئی از فضای کلامی هستند، اما نمونه‌های واقعی از فضای کلامی و متن‌ها بهتر می‌توانند واقعیات زبان را نشان دهند. زبان‌شناسی پیکره‌ای، با آمیختن سه روش، به فراهم آوردن دانش تجربی زبانی کمک می‌کند:

الف) استخراج خودکار داده‌های زبانی از پیکره‌ها؛

ب) پردازش برون‌داد با روش‌های عمدتاً آماری؛

پ) ارزیابی و تفسیر این‌گونه داده‌های پردازش‌شده.

مراحل اول و دوم را می‌تواند و باید به‌طور کامل با برنامه و خودکار انجام داد، اما مرحلهٔ سوم نیاز به تصمیم‌گیری و منطق انسانی دارد. (Ibid)

پیکره‌های زبانی را می‌توان برای منظورهای گوناگون به‌کار گرفت، از جمله برای فرهنگ‌نگاری، معناشناسی، بررسی‌های دستوری، آموزش زبان و مانند اینها. پیکره‌ها را می‌توان از نظر اندازه و گستره به دسته‌های محدود، متوسط و عظیم تقسیم کرد.

۲-۲-۳ نشانه‌گذاری پیکره‌ها (corpus annotation)

برای گویاتر شدن پیکره و کاربردهای خاص، کدهای متفاوتی به آن افزوده می‌شود. این نشانه‌گذاری از یک‌سو می‌تواند برای ارتباط دادن بخش‌های یک پیکره به ساختار کلی آن باشد، مانند شمارهٔ سطر، صفحه، فصل و مانند اینها و یا بافت زبانی را مشخص نماید مانند شرایط تولید زبانی، گونهٔ زبانی، رسانه و مانند آن. از سوی دیگر، نشانه‌گذاری می‌تواند صرفاً زبانی باشد. یکی از معدود کارهایی که در زبان فارسی برای برچسب‌دهی پیکره‌های فارسی انجام شده است، طراحی و اجرای برنامه‌ای رایانه‌ای برای برچسب‌دهی دستوری خودکار متون فارسی است. (Assi and H. Abdolhosseini 2000)

اکنون تنها به برخی از کاربردهای پیکره‌های زبانی اشاره می‌کنیم:

ـ یکی از مهم‌ترین کاربردهای پیکره در پردازش زبانِ طبیعی است. مهم‌ترین دستاورد این حوزه درک و بازشناسی گفتار بوده که تنها با بهره‌گیری از پیکره‌های بزرگ امکان‌پذیر گشته است.

ـ اکنون هیچ پروژهٔ فرهنگ‌نگاری پیشرفته‌ای نمی‌توان یافت که از پیکره‌های زبانی پایگاه‌های داده‌های زبانی بهره‌گیری نکند. نمونهٔ چنین کاربردی در زبان فارسی واژگان گزیدهٔ زبان‌شناسی است که نرم‌افزار رایانه‌ای آن نیز با امکانات گسترده آماده شده است (عاصی و عبدعلی ۱۳۷۵) و نمونهٔ دیگر فرهنگ فارسی به انگلیسی پیشرو آریان‌پور (چهارجلدی) است که با همکاری این نگارنده و بر بنیاد یک پیکرهٔ بزرگ دوزبانه تدوین گردیده است. (آریان‌پور و عاصی ۱۳۸۲)

ـ ایجاد پایگاه‌های داده‌های زبانی نیز جنبه‌ای دیگر از کاربرد پیکره‌های زبانی است که نمونه‌های متعدد آن را هم‌اکنون در سراسر جهان، به صورت پیوسته یا ناپیوسته، در اختیار داریم. چنین پایگاهی را برای زبان فارسی نیز نگارنده در پژوهشگاه علوم انسانی ایجاد نموده است. (عاصی ۱۳۷۶)

ـ طرح‌های بررسی واژه‌های همایند (collocations) در زبان‌های گوناگون با کمک پیکره‌های زبانی اجرا شده است. نمونهٔ مهم و موفق آن فرهنگ واژه‌های همایند BBI برای زبان انگلیسی است. هم‌اکنون در پژوهشگاه علوم انسانی نیز طرحی برای تدوین فرهنگ واژه‌های همایند فارسی بر اساس پایگاه داده‌های زبان فارسی در دست اجراست.

ـ برنامه‌های پایشگری زبان برای پی‌گیری و ردگیری تحولات زبانی نیز از امکانات پیکره‌های زبانی سود می‌برند. این‌گونه پیکره‌ها را پیکرهٔ پویا یا پیکرهٔ پایشگر می‌نامند. (Kennedy 1998, p. 22)

ـ همهٔ طرح‌های ترجمهٔ ماشینی به‌گونه‌ای از پیکره‌های زبانی سود می‌برند، به‌ویژه سیستم‌های جدید که با رویکردی آماری و پیکره‌بنیاد به‌تازگی از راه می‌رسند.

نمونه‌ای از پیکره‌ٔ زبانی که برای زبان فارسی فراهم شده است و اکنون در مرحلهٔ گسترش و تکمیل است، پایگاه داده‌های زبان فارسی است که نگارنده در پژوهشگاه علوم انسانی طراحی و اجرا نموده است.

۲-۲-۴ پایگاه داده‌‌های زبان فارسی (Persian Linguistic Database)

هدف از ایجاد پایگاه داده‌های زبان فارسی فراهم کردن پیکره‌ای مطلوب و با حجم عظیمی از داده‌های زبانی با گستردگی و گوناگونی‌های بسیار و با ساختاری به‌سامان و منطقی است، تا امکان هرگونه جستجو و دستیابی سریع به آگاهی‌های مورد نیاز را در هر زمان فراهم نماید. چنین پیکره‌ای می‌تواند همواره روزآیند گردد و پاسخگوی نیاز کاربران گوناگون در همهٔ زمینه‌های نظری و کاربری باشد.

در نخستین مرحله، با توجه به نیازهای گوناگون پژوهشی و کاربردی، از طیف دوران‌های تاریخی زبان فارسی، برش فارسی معاصر برگزیده شد. همین برش نیز،‌ که به‌طور قراردادی از آغاز قرن چهاردهم خورشیدی تا امروز را در بر می‌گیرد، خود دارای گونه‌های بسیاری است،‌ از جمله گونهٔ رسمی نوشتاری یا به‌اصطلاح فارسی معیار و گونهٔ گفتاری آن، گونه‌های ادبی و سبکی فارسی، گونه‌های محاوره‌ای و عامیانهٔ آن، و گونه‌هایی که متغیرهای زبانی و اجتماعی دیگری مانند سن، جنس، سواد و تحصیل، طبقهٔ اجتماعی، و محیط‌های مختلف ارتباطی عامل تمایز آنها به‌شمار می‌روند.

داده‌های به شکل‌ها و قالب‌بندی‌ها(formats)ی گوناگون در این پایگاه ذخیره می‌شوند: به‌صورت متن‌های پیوستهٔ کامل آثار ادبی یا نوشته‌های مهم، به‌صورت فهرست‌های واژه‌نما و بسامدی از همین متن‌‌ها و متن‌های دیگر، یعنی فهرست همهٔ واژگان آنها به‌همراه چند سطر از بافت زبانی آنها و بسامدشان، و نیز به‌صورت واژه‌نامه‌های تک‌زبانه و دوزبانه. همچنین، متن‌های آوانویسی‌شدهٔ داده‌های گفتاری چه به صورت متن پیوسته و چه به صورت فهرست‌های بسامدی در پیکره جای دارند و پیش‌بینی شده، با به کارگیری امکانات چندرسانه‌ای (multimedia)،‌ فراگوئیِ آوائیِ داده‌ها نیز ارائه گردد. از اطلاعات این پایگاه به روش‌های گوناگون می‌توان بهره گرفت: هرگونه جستجو در پیکره، چه به صورت هم‌زمان یا برخط و چه به صورت سفارش و برون‌خط، بر پایهٔ هریک از اقلام اطلاعاتی و یا ویژگی‌های مربوط به آنها از جمله

ـ جستجوی واژگانی (بر پایهٔ یک یا چند کلیدواژه)؛

ـ جستجوی مفهومی (برپایهٔ مفهوم یا معنای مورد نظر)؛

ـ جستجوی تلفظی (بر پایهٔ صورت تلفظی یک واژه)؛

ـ جستجوی هم‌بافت (بر پایهٔ واژه‌های همایند و یا بافت‌های همسایه)؛

ـ گشت و گذار (navigation) در متن‌ها و واژه‌نامه‌ها.

این جستجوها را می‌توان در محدوده‌های دلخواه (مثلاً دورهٔ زمانی معیّن، یا نویسنده‌های مشخص، یا حجم معیّنی از پیکره) انجام داد.

گزارش‌های پایگاه به گونه‌های صوری و محتواییِ مختلفی طراحی شده‌اند تا پاسخ‌گوی نیازهای گوناگون باشند:

ـ به‌ شکل فهرست‌های واژگانی، آماری و بسامدی؛

ـ به شکل اطلاعات موردی؛

ـ به شکل فرهنگ واژه‌نما (واژهٔ مورد نظر در شکل کاربردی آن همراه با اطلاعاتی دربارهٔ بافت زبانی آن مانند چند سطر جملهٔ شاهد، شمارهٔ سطر و صفحهٔ متن، نام نویسنده و مشخصات اثر، تاریخ کاربرد، بسامد در پیکره و مانند آن)؛

ـ به شکل گزیده‌هایی از متن‌های گوناگون.

این پایگاه برای استفادهٔ همگانی در نظر گرفته شده است، اما مراحل و سطوح دستیابی آن متفاوت است.

پایگاه‌های داده‌ها روزبه‌روز اهمیت بیشتری می‌یابند و شمار، موضوع و زمینه‌های کاربردشان گسترده‌تر می‌گردد. اکنون از پایگاه‌های معرفی (knowledge base) گفتگو می‌شود که بسیاری از رشته‌های دانش و فن به آنها مجهز می‌شوند و همه‌گونه آگاهی‌ها و معارف، به صورت الکترونیک، در آنها نگهداری می‌شود (انواری و فتحیان‌پور ۱۳۷۳). در شبکه‌های اطلاعاتی گوناگونی که در سراسر جهان در دسترس همه است، پایگاه‌های داده‌های بی‌شماری وجود دارد که، اگر ما نیازمند گونه‌ای اطلاع باشیم و آن را به‌درستی ارزیابی نماییم، می‌توانیم به‌خوبی از آن بهره‌مند شویم. از جمله درباره‌ٔ بسیاری از زبان‌های مهم جهان داده‌های فراوانی گردآوری شده است. اما، در این دریای بی‌کرانِ اطلاعاتی، داده‌های قابل استناد برای زبان فارسی یافت نمی‌شود.

پایگاه داده‌های زبان فارسی در ایران و، در وهلهٔ نخست، برای پاسخگویی به نیازهای پژوهندگان ایرانی ایجاد شده است و در مرحلهٔ بعد، به‌عنوان یک بانک اطلاعاتی ایرانی در دسترس همهٔ کسانی است که دربارهٔ زبان فارسی در نقاط دیگر جهان پژوهش می‌کنند.

برخی از طرح‌ها و پژوهش‌های نحوی دیگر که به زبان فارسی مربوط می‌شوند به شرح زیر است.

رضائی (Rezaei 1999) در پایان‌نامهٔ دکتری، نتیجهٔ سه تحقیق خود را منعکس کرده است. اول برای تقطیع جملات سادهٔ زبان فارسی سیستمی مبتنی بر شبکهٔ انتقالی برافزوده (Augmented Transition Network) طراحی کرد. این تقطیع‌گر توالی‌های ممکن درون‌بند ساده را تبیین می‌کند، اما قادر به تقطیع بندهای درونه‌ای نیست. بنابر تحقیق بعدی وی، تقطیع‌گر قلب نحوی را نیز در بر می‌گیرد. ایشان در تحقیق آخر، پدیده‌هایی از قبیل برجسته‌سازی و جابه‌جاییِ بندهای متمم به آخر جمله را مطرح می‌کند. پدیده‌های زبانی، در دو تقطیع‌گر آخر وی، در قالب نظریهٔ حاکمیت و مرجع‌گزینی توصیف می‌شود.

کشاورزی (۱۳۷۸) تقطیع‌گری برای تقطیع جملات سادهٔ خبری، بر اساس دستور گروه ساختی هسته‌بنیاد (head-driven phrase structure grammar (HPSG)) و الگوریتمی بالا به پایین، ارائه داده است. این تقطیع‌گر قادر به شناساییِ گروه اسمی شامل وابستهٔ پیشین اسم، گروه اسمی هم‌پایه، گروه پیش‌اضافه، گروه پس‌اضافه و گروه فعلی است. تقطیع‌گر، علاوه بر این، ساده یا ترکیبی بودن گروه فعلی را تشخیص می‌دهد و از میان ترکیب‌ها فعل مرکب و پیشوندی را به اجزای آنها تقطیع می‌کند. قواهد ساخت ۴۵۰ جمله و واژگان برای تقطیع، به تقطیع‌گر داده شده است. تقطیع‌گر، پس از دریافت جملهٔ ورودی، درختی ارائه می‌دهد که ساخت نحوی جمله را در شش مرحله مشخص می‌کند.

طیبی (۱۳۷۴) چندین تلکس دریافتی سازمان هواپیماییِ کشوری را که ساختاری ساده و عاری از ابهام دارند و به زبان انگلیسی‌اند انتخاب کرده است. سپس، با رویکرد دستور واژگانی نقشمند (Lexical Functional Grammar)، ساخت هرکدام از جملات و ترجمهٔ آنها را به کمک رایانه ارائه داده است.

یونسی‌فر (۱۳۷۳) نیز تحقیقی انجام داده که، در آن، جملات انگلیسی با شبکهٔ خودکار پیشرو تجزیه می‌شوند و سپس ترجمه بر اساس روش‌های نحوی انجام می‌گیرد. این کار بر پایهٔ نظریهٔ وابستگیِ مفهومی انجام شده است.

۲-۳ معناشناسی فارسی

معناشناسی (semantics)، که به بررسی و توصیف معنای واژه‌ها و جمله‌های زبان می‌پردازد، پیشینه‌ای بسیار طولانی دارد و بیرون از حوزهٔ زبان‌شناسی ـ مانند فلسفه و روان‌شناسی ـ نیز مطرح بوده است. واژه‌ها واحدهای منفرد معنایی به‌شمار می‌آیند که در شکل‌دهی معنای جمله با کمک روابط نحوی شرکت می‌کنند. از سوی دیگر، هر جنبه‌ای از معنای واژه نیز به صورت طرحی خاص از هنجارهای معنایی، در بافت‌های مناسب دستوری، نمود می‌یابد. مجموعهٔ روابط به‌هنجاری که یک واحد واژگانی در همهٔ بافت‌های ممکن به‌وجود می‌آورد روابط بافتی (contextual relations) نامیده می‌شود. از این رو، می‌توان گفت معنای یک واژه در روابط آن منعکس است (Cruse 1989, pp. 15, 16). معنای واژه را به‌طور کلی در دو لایهٔ معنای ادراکی یا مفهومی (conceptual meaning) و معنای متداعی یا ضمنی (associative meaning) در نظر می‌گیرند. معنای مفهومی بخش‌های اساسی و ضروری معنای واژه را در بر می‌گیرد و معانی ضمنی یا متداعی مانند هاله‌ای آن را فرا می‌گیرد.

۲-۳-۱ مؤلفه‌های معنایی

یکی از روش‌های تحلیل معنا، مشابه روشی است که در تحلیل آوایی و ساخت‌واژی زبان به کار می‌رفت و به تجزیه به مؤلفه‌ها یا مشخصه‌های معنایی (semantic feature / components analysis) معروف است. در این رویکرد، با بررسی مجموعه‌ای از واژه‌های مرتبط (مانند اصطلاحات خویشاوندی)، مشخصه‌های مهم و تمایزدهندهٔ معنا شناسایی و دسته‌بندی می‌شود و در جدول‌های تحلیل معنایی قرار می‌گیرد:

پردازش دستوری زبان فارسی مصطفی عاصی مولفه‌های معنایی

۲-۳-۲ روابط معناییِ واژه‌ها

یکی از راه‌های توصیف و تحلیل معنا بررسی روابط مفهومی واژه‌ها و مقایسهٔ آنها با یکدیگر است. مهم‌ترین روابط معنایی عبارت‌اند از:

ـ هم‌معنایی (synonymy): دو صورت زبانی متفاوت با معنای یکسان، گرچه معمولاً گفته می‌شود که هم‌معناییِ مطلق کمتر وجود دارد، مانند کامپیوتر و رایانه؛

ـ تضاد معنایی (antonymy): دو صورت با دو معنای متضاد، مانند خوب و بد؛

ـ شمول معنایی (hyponymy): معنای یک صورت زبانی معنای دیگری را در بر می‌گیرد و معمولاً رابطه‌های شمول معنایی سلسله‌مراتبی هستند. مانند حیوان و اسب؛

ـ هم‌آوایی (homophony): دو واژه با صورت آواییِ یکسان و معنی متفاوت (ممکن است صورت نوشتاری آنها متفاوت باشد)، مانند خوار و خار؛

ـ همنامی (homonymy): دو واژه با معنی متفاوت که صورت آوایی و نوشتاری آنها یکسان است، مانند دوش (=دیشب) و دوش (وسیله‌ای در حمام)؛

ـ چندمعنایی (polysemy): یک واژه که دارای چندین معنی مرتبط با یکدیگر است، مانند دل به معنی «قلب»، «مرکز»، «میان»، «جرٱت»، «شکم»،….

و بسیاری روابط فرعی دیگر.

از دیدگاه زبان‌شناسی، ساخت و معنای واژه‌های زبان به‌طور عام در حوزهٔ واژه‌شناسی (lexicology) بررسی می‌گردد و ساختار معنای و مفهومی واژگان فنی رشته‌های علمی اصطلاحات (terms) در حیطهٔ اصطلاح‌شناسی (terminology) مورد بررسی قرار می‌گیرد.

۲-۳-۳ برخی پژوهش‌های معنایی

عظیمی (۱۳۷۵) تولید و درک گفتار فارسی را مورد بررسی قرار می‌دهد. به‌نظر وی، انسان چیزی را می‌شنود که انتظار شنیدن آن را دارد. انسان برای درک گفتار طرف مقابل به دنبال سرنخ‌هایی می‌گردد و، اگر آنها را بیابد، از جزییات کلام صرف‌نظر می‌کند و به یک نتیجه‌گیری کلی مبادرت می‌ورزد. فهمیدن جملات موقعی مشکل می‌شود که یا این راه‌کارهای ادراکی مؤثر نیفتد یا جمله متضمّن مسائلی چون پردازش جملات پیچیده‌تر باشد. اگر جملات پیچیده باشند، احتمالاً قدم‌به‌قدم پردازش می‌شوند. وی نظریهٔ خلٱیابی را نیز بررسی می‌کند. در این نظریه شنونده الفاظی را در حافظه نگه می‌دارد تا در بخش‌های بعدیِ جمله به یک خلٱ برسد و آن‌گاه لفظ را وارد خلٱ کند. به‌نظر وی، نه‌تنها ساخت نحوی جمله بلکه عناصر واژگانی نیز به درک گفتار کمک می‌کند. علاوه بر اینها، که همه جنبهٔ زبانی دارند، مسائلی غیرزبانی نیز در این روند مؤثرند.

شمس فرد (۱۳۷۴) در پایان‌نامهٔ کارشناسی ارشد خود طرحی برای درک متن فارسی بر پایهٔ نظریهٔ وابستگی مفهومی ارائه داده است. باقری (۱۳۷۵) نیز، با استفاده از قواعد تولیدی، جملات حوزهٔ خاصی را بر پایهٔ نظریهٔ وابستگی مفهومی تقطیع کرده است.

تقطیع‌گر رئیس‌قاسم (۱۳۷۰) از دو قسمت نحوی و معنایی تشکیل شده است. قسمت نحوی آن شامل تمام توالی‌های ممکن موضوع‌های بندهای ساده است. قسمت معنایی هم شبکهٔ وابستگی مفهومی جملات را به‌دست می‌دهد.

نمونه‌های یادشده تنها شمار کوچکی از بررسی‌های انجام‌شده را در بر می‌گیرد و کارهای بسیاری در حال حاضر در دست انجام است که هریک نیاز به معرفی مفصّل دارد و نتایج آنها در آینده نمودار خواهد گردید.

منابع

  • آریان‌پور، منوچهر و مصطفی عاصی (۱۳۸۲)،‌ فرهنگ فارسی به انگلیسی پیشرو آریان‌پور، جهان‌رایانه، تهران؛
  • اسلامی، محرم (۱۳۷۹)، شناخت نوای گفتار زبان فارسی و کاربرد آن در بازسازی و بازشناسی رایانه‌ای گفتار، پایان‌نامهٔ دکتری، دانشگاه تهران، تهران؛
  • امامی، شیلا (۱۳۸۰)، ‌بررسی و طبقه‌بندی تکواژهای زبان فارسی (بخش دوم)، پایان‌نامهٔ کارشناسی ارشد، دانشگاه آزاد اسلامی، واحد تهران مرکزی؛
  • انواری،‌مرتضی و ملک‌آفاق فتحیان‌پور (۱۳۷۳)، «پایگاه‌های معرفتی در سیستم‌های اطلاع‌رسانی»، اطلاع‌رسانی، دورهٔ ۱۱، شماره‌ٔ ۱، ص ۶۶-۶۸؛
  • اگرادی، ویلیام و دیگران (۱۳۸۰)، درآمدی بر زبان‌شناسی معاصر، ترجمهٔ علی درزی، سمت، تهران؛
  • باقری، مسعود (۱۳۷۵)، ‌استنباط موضوعات مشترک از جملات مرتبط به هم، پایان‌نامهٔ کارشناسی ارشد، دانشگاه صنعتی شریف، تهران؛
  • بقایی، بهروز (۱۳۸۰)، بررسی و طبقه‌بندی تکواژهای زبان فارسی (بخش اول)، پایان‌نامهٔ کارشناسی ارشد، دانشگاه آزاد اسلامی، واحد تهران مرکزی؛
  • دانش‌کار آراسته، پویان (۱۳۸۱)، نرم‌افزار تشخیص فعل در زبان فارسی، پایان‌نامهٔ کارشناسی ارشد، دانشگاه علامه طباطبایی، تهران؛
  • رئیس‌قاسم، محسن (۱۳۷۰)، پردازش زبان طبیعی و پردازش زبان فارسی، پایان‌نامهٔ کارشناسی ارشد، دانشگاه صنعتی شریف، تهران؛
  • سمائی، سید مهدی (۱۳۷۷)، واژگان در دستورسنج، انگارهٔ نظری، پایان‌نامهٔ دکتری، دانشگاه تهران، تهران؛
  • شمس‌فرد، مهرنوش (۱۳۷۴)، درک متون فارسی، پایان‌نامهٔ کارشناسی ارشد، دانشگاه صنعتی شریف، تهران؛
  • طیبی، اکرم (۱۳۷۴)، کاربرد دستور واژگانی نقشمند در ترجمهٔ ماشینی پاره‌ای از متون فارسی، پایان‌نامهٔ کارشناسی ارشد، دانشگاه تهران، تهران؛
  • عاصی، مصطفی (۱۳۷۳)، «طرحی برای تهیهٔ فرهنگ‌های تخصصی با کمک کامپیوتر»، مجموعهٔ مقالات دومین کنفرانس زبان‌شناسی نظری و کاربردی، دانشگاه علامه طباطبایی، تهران، ص ۲۶۷ – ۲۸۵؛
  • ـ (۱۳۷۶)، «پایگاه داده‌های زبان فارسی»، مجموعهٔ مقالات سومین کنفرانس زبان‌شناسی، دانشگاه علمه طباطبایی و پژوهشگاه علوم انسانی و مطالعات فرهنگی، تهران، ۲ ۲۰۵ ـ ۲۱۱؛
  • ـ (۱۳۸۲)، «از پیکرهٔ زبانی تا زبان‌شناسی پیکره‌ای»، مجموعهٔ مقالات پنجمین کنفرانس زبان‌شناسی، دانشگاه علامه طباطبایی، تهران، ص ۴۸۴ ـ ۴۹۵؛
  • عاصی، مصطفی و محمد عبدعلی (۱۳۷۵)، واژگان گزیدهٔ زبان‌شناسی، تهران، شرکت انتشارات علمی و فرهنگی؛
  • عظیمی اکبریه، محسن (۱۳۷۵)، تولید و درک گفتار با توجه به داده‌های زبان فارسی، پایان‌نامهٔ کارشناسی ارشد، دانشگاه فردوسی مشهد، مشهد؛
  • غلام‌پور، ایمان (۱۳۷۹)، بازشناسی گفتار مستقل از گوینده، پایان‌نامهٔ دکتری، دانشگاه صنعتی شریف، تهران؛
  • فرخ، ماندانا (۱۳۸۱)،‌بررسی ساختمان افعال ساده و مرکب فارسی و تدوین روش‌های سرواژه‌سازی به کمک رایانه، پایان‌نامهٔ کارشناسی ارشد، دانشگاه آزاد اسلامی، واحد تهران مرکزی؛
  • قاسمی، سید ضیاءالدین (۱۳۷۷)، اصول آواشناختی سنتز گفتار فارسی، پایان‌نامهٔ کارشناسی ارشد، تهران، دانشگاه تهران؛
  • کشاورزی، نیما (۱۳۷۸)، تقطیع نحوی جملات سادهٔ فارسی بر اساس دستور گروه ساختی هسته‌بنیاد، پایان‌نامهٔ کارشناسی ارشد، تهران، پژوهشگاه علوم انسانی و مطالعات فرهنگی؛
  • ماه‌جانی، بهزاد (۱۳۷۸)، ارائهٔ یک مدل جهت نمایش اطلاعات مرتبط با نحو در مدخل‌های واژگانی، پایان‌نامهٔ کارشناسی ارشد، تهران، دانشگاه تهران؛
  • یونسی‌فر، فریبا (۱۳۷۳)، پیاده‌سازی یک مترجم ماشینی به روش نحوی، پایان‌نامهٔ کارشناسی ارشد، تهران، دانشگاه صنعتی‌شریف.
  • Assi, S.M. and M. H. Abdolhosseini (2000), “Grammatical Tagging of a Persian Corpus”, International Journal of Corpus Linguistics, Vol. 5, No. 1, pp. 69-81;
  • Cruse, D.A. (1989), Lexical semantics: Cambridge Textbooks in Linguistics, Cambridge, Cambridge University Press;
  • Halliday, M.A.K. (1992), “Language as System and Language as Instance: The Corpus as a Theoretical Construct”, Directions in Corpus Linguistics, SVartvik (ed.), Berlin, Mouton de Gruyter;
  • Kennedy, G. (1998), An Introduction to Corpus Linguistics, London, Long,am;
  • Leech, G. (1992), Corpora and Theories of Linguistics Performance, Directions in Corpus Linguistics, Svartvik (ed.), Berlin, Mouton de Gruyter;
  • Rezaei, Siamak (1992), Linguistic and Computational Analysis of Word Order and Scram Bling in Persian, Ph.D. Dissertation, Edinburgh, University od Edinburgh;
  • Schuetze, Hinrich (1995), “Distributional Part-of-Speech Tagging”, From Texts to Tags: Issues in Multilingual Language Analysis, Online Proceedings of the ACL SIDGAT Workshop. on the Internet at http://www.lanl.gov/find/cmp.lg;
  • Svartvik (ed.) (1992), Directions in Corpus Linguistic, Proceedings of Nobel Symposium 82 (Stokholm, 4-6 August 199)1, Berlin, Mouton de Gruyter;
  • Teubert, W. (1999), “Corpus Linguistics: A Partisan View”, International Journal of Corpus Linguistics, Vol. 4 / No. 1., pp. 1-10

برگرفته از: مجله «دستور» فرهنگستان، شماره ۱/۱


 


٠٩:٠٧ - 1390/05/16    /    شماره : ٨٠٦٠    /    تعداد نمایش : ٦١٠١


نظرات بینندگان
این خبر فاقد نظر می باشد
نظر شما
نام :
ایمیل : 
*نظرات :
متن تصویر:
 





کلیه حقوق برای دانشگاه مجازی المصطفی(ص) محفوظ است.