கணினிநிரல் எழுத்து, சில புதிய வாசல்கள்…

அன்புள்ள ஜெ,

நான் கோவை பிஎஸ்ஜி தொழில்நுட்ப கல்லூரியில் 2001-2005 B.Tech IT பயின்றேன். பிஎஸ்ஜி கல்லூரியின் மாணவர் வட்டமும், ஆசிரியர்களும் என் வேலைக்கும், பின்னர் அமெரிக்காவில்  மேற்படிப்பு படிப்பதற்கும் உதவினார்கள். என் வகுப்பில் படித்தவர்களில் இப்போது 75% வெளிநாட்டில் தான் இருக்கிறோம். கல்லூரிக்கு மீண்டும் ஏதாவது ஒரு வகையில் பங்களிப்பாற்ற வேண்டும் என்று கடந்த சில வருடங்களாக தோன்றியது. உண்மையை சொல்லப்போனால், பிறகு பார்த்துக்கொள்ளலாம் என்று விட்டுவிட்டேன். ஆனால் சென்ற ஆண்டு கொரோனா ஊரடங்கு வந்த போது, இப்பொழுது விட்டால் பிறகு செய்ய முடியாது என்று தெளிவாகியது. “பெரு வெள்ளம் வரும்போது, தனிக் கிணறுகளால் என்ன பயன்?” என்று உங்கள் தளத்தில் வாசித்த வரிதான் தூண்டுதல்.

சென்ற ஆண்டு கல்லூரி முன்னாள் மாணவர்கள் சங்கம் மூலமாக இரண்டு இணையவழி கலந்துரையாடலில் பங்கேற்றேன். அதன் தொடர்ச்சியாக ரூ.10,000 நிரல் போட்டி ஒன்றை அறிவித்தோம். இப்பொழுது அமெரிக்காவில் கூகிள், மைக்ரோசாப்ட்டில் பணிபுரியும் என் கல்லூரி நண்பர்கள் போட்டி நடுவர்களாக இருந்தார்கள். போட்டி: கல்லூரி முதலாம் ஆண்டு / இரண்டாம் ஆண்டு மாணவர்களுக்கானது. வெண்முரசு நாவலில் உள்ள நீளமான பத்து வார்த்தைகளை கண்டுபிடிக்க வேண்டும். வெண்முரசு இனையதளத்தை மொத்தமாக சொல் சொல்லாக பிரித்து, அடுக்கி, வார்த்தைகளை கண்டுபிடிக்க வேண்டும்.

இது ஒரு வகையில் சூப்பர் சிங்கர், கராத்தே போட்டி போலத்தான். இவற்றால் உடனடியான பலன் இல்லாவிட்டாலும், இவை போன்ற கொந்தர், நிரல் போட்டிகள் ஒரு வளமான கணினி தொழில்நுட்ப சூழலுக்கு முக்கியம். 13 மாணவர்கள் (5 மாணவிகள் உட்பட) பரிசு பெற்றார்கள். நாங்கள் எதிர்பார்த்ததை விட அதிகம் பேர் போட்டியில் வென்றதால், பரிசுத்தொகையை ரூ.21,000 ஆக அதிகரித்தோம்.

2020 நிரல் போட்டி குறித்த சுட்டி: https://vpt.ai/2021/11/23/contest/

வருடா வருடம் இது போல ஒரு போட்டி நடத்த வேண்டும் என கல்லூரியில் கேட்டு, அதை வெண்முரசு நாவல் வரிசையை தமிழ் சமூகத்திற்கு இலவசமாக அளித்த உங்களை கௌரவிக்கும் பொருட்டு “Venmurasu Programming Team Endowment Fund”  என நாங்கள் அளித்த நிதிக்கு பெயரிட விரும்பினோம். கல்லூரியிலும் ஏற்றுக்கொண்டார்கள்.

இந்த ஆண்டின் துவக்கத்தில் நண்பர் மகேந்திரராஜன் சந்திரசேகரன் வெண்முரசு தொழில்நுட்ப வாட்ஸ்அப் குழு வழியாக அறிமுகமானார். [மகேந்திரா venmurasu.in தளத்தில் தேடுபொறியை மேம்படுத்தியுள்ளார்.] கிண்டி பொறியியல் கல்லூரியில் முதுகலை பொறியியல் படித்தவர். கனடா வேன்கூவர் நகரில் வசிக்கிறார். அவரும் என்னைப் போல பெரிய நிறுவனங்களில் வேலை செய்யாமல், பல ஆண்டுகளாக ஸ்டார்டப்களில் வேலை செய்கிறார். ஒரு இணை-மனதை கண்டு கொண்ட பரவசம் எனக்கு. மகேந்திராவும் நானும் சேர்ந்து இந்த ஆண்டிற்கான நிரல் போட்டியை நடத்தலாம் என்று முடிவு செய்தோம்.

ஐரோப்பிய மொழிகளில் ஒன்றிலிருந்து மற்றொன்றிற்கு கூகுள் நன்றாகவே மொழிபெயர்க்கிறது. ஐரோப்பிய மொழிகளுக்கும் ஆங்கிலத்திற்கும் இடையே வரிக்கு வரி சரியான மொழிபெயர்ப்பில் ஏராளமான நல்ல training dataset இருப்பதால் (உதா: ஐரோப்பிய யூனியனில் ஒரு சட்டம் இயற்றப்பட்டால், அதிகார்வ பூர்வமாக மற்ற 27 ஐரோப்பிய மொழிகளிலும் அவை மொழிபெயற்கப்படுகிறது. விக்கிப்பீடியா, செய்தித்தாள்கள், மனித மொழிபெயர்ப்பாளர்களின் பங்களிப்பு என சரியான வரிக்கு வரி மொழிபெயர்ப்புகள் ஏற்கனவே நிறைய உள்ளது.) அதனால் கணினி இருப்பதில் இருந்து கற்றுக்கொண்டு, புதியவற்றை ஓரளவு சரியாக ஆங்கிலத்தில் மொழிபெயர்க்கிறது. இலக்கியத் தரமாக இல்லையென்றாலும் அர்த்தம் சரியாக அமையுமாறு மொழிபெயர்க்கிறது.

இவ்வாறு நிறைய training dataset இருக்கும் மொழிகளை High Resource Languages என்று வகைப்படுத்துகிறார்கள். தமிழ், ஹிந்தி உள்ளிட்ட எந்த இந்திய மொழியில் இருந்தும் ஆங்கிலத்திற்கு தேவையான அளவு நல்ல training dataset இல்லை. இந்திய மொழிகள் Low Resource Languages வகையில் வருகிறது. கூகிள், மைக்ரோசாப்டிற்கு வெளியே Indic NLP / Machine translation தொடர்பான இலவச நிரலை IIT மெட்ராஸில் பணிபுரியும் இரண்டு பேராசிரியர்கள் உருவாக்கியுள்ளார்கள் –  https://indicnlp.ai4bharat.org/home/. Ai4Bharat தன்னார்வலர் நிரல் குழுவை சேர்ந்த இரண்டு இளைஞர்களை தொடர்பு கொண்டோம். (கோகுல், பிரேம்). அவர்கள் இந்த ஆண்டு போட்டியின் நடுவர்களாக இருக்க ஒப்புக்கொண்டார்கள்.

ஆகஸ்ட் மாதத்தில் மாணவர்களிடையே மகேந்திரா “Natural Language Computing” குறித்து உரை ஆற்றினார். சுட்டி: https://vpt.ai/2021/11/24/introduction-to-machine-learning-in-natural-language-computing/

கடந்த ஆண்டு போட்டியை விட இந்த ஆண்டு போட்டி கடுமையானது. கிஸாரி மோகன் கங்குலியின் மகாபாரத மொழியாக்கத்திலிருந்து பத்து பகுதிகளையும், அதன் வரிக்கு வரி தமிழ் மொழிபெயர்ப்பான அருட்செல்வ பேரரசன் அவர்களின் மொழிபெயர்ப்பையும் தந்தோம். Ai4bharat மாடல்களை பயன்படுத்தி, தமிழ் அத்தியாயங்களில் இருந்து ஆங்கிலத்திற்கு மொழி பெயர்த்து, அவற்றை கிஸாரியின் மூலத்தோடு ஒப்பிட வேண்டும். ஐம்பது மாணவர்கள் கலந்து கொண்டார்கள். பதினைந்து மாணவர்கள் எங்கள் எதிர்ப்பார்ப்பை மீறி சிறப்பாக செயல்பட்டிருந்தார்கள். மேலும் பதினைந்து பேர் முயன்றிருந்தார்கள்.

2021 நிரல் போட்டி குறித்த சுட்டி: https://vpt.ai/2021/11/23/2021-vpt-contest/

இனி வரும் ஆண்டுகளில் போட்டி சீனியர் மாணவர்களால் ஜூனியர்களுக்கு நடத்தப்படும். முன்னாள் மாணவர்கள் நடுவர்களாக இருப்பார்கள். முதலில் பி.எஸ்.ஜி கல்லூரிக்குள் போட்டியை நடத்தி விட்டு, ஓரளவு பிடி கிடைத்தபின் மற்ற கல்லூரிகளுக்கும் போட்டியை விரிவு படுத்தும் திட்டம் இருக்கிறது.

வருடந்தோறும் வெல்லும் மாணவர்களை கொண்டு, பிஎஸ்ஜி கல்லூரியில் Tamil NLP தன்னார்வலர் நிரல் குழு ஒன்றை துவங்கும் முயற்சியில் இருக்கிறோம். கல்லூரியிலும் இரண்டு ஆசிரியர்களை நியமித்திருக்கிறார்கள். நான் சான் ஃபிராண்ஸிஸ்கோவிலும், மகேந்திரா வான்கூவரிலும், மாணவர்கள் கோவையிலும்,  Ai4bharat நண்பர்கள் சென்னையிலும் இருக்கிறோம். சில சிறிய திட்டங்களை செயல்படுத்தி பார்ப்பதன் மூலம் கற்றுகொண்டு அடுத்த கட்டங்களை திட்டமிடலாம் என்று இருக்கிறோம்.

நம் வாசகர்களில், NLP துறையில் அனுபவம் உள்ள நண்பர்கள் இருந்தால், எங்களை தொடர்பு கொள்ளவும்.

We are looking for mentors. Please reach out to us – [email protected] – If you have:

  • Working experience (at least 2 years) in NLP for Indian languages, especially Tamil.
  • Understanding of state of the art methods and models in NLP:
    — For example, how multilingual models work, what is multi-task training, exploiting information from high-resource languages for low-resource languages.
    — Understanding on how Transformer-based attention models work.
  • Interest in mentoring students for open source Tamil NLP projects (mostly during weekends).
  • [Bonus] If you have open source contributions, experience in publishing research works.

மேலும், ஸ்டார்டப்கள் தொடர்பான சில முக்கியமான கட்டுரைகளை மொழிபெயர்த்துள்ளேன். அவற்றை https://vpt.ai/ தளத்தில் வெளியிடும் திட்டமும் இருக்கிறது.

உங்கள் மற்றும் நண்பர்களின் ஆலோசனைகளையும் எதிர்பார்கிறோம்.

நன்றி,

விசு

https://visu.me/