‘பொய்பித்தல்வாதம் Vs பேய்சியன் வாதம்’ – 3 – இளையராஜா

  1. மெய்மையின் மொழி

அடிப்படை அறிவியலின் கையில் இருக்கும் தரவுகள் பெரும்பாலும் முழுமையற்றவை. எனவே இயற்கையைப் பற்றிய அறிவியல் கூற்றுகளை முழுமுற்றான உண்மைகளாக முன்வைக்க முடியாது. அவற்றை நிகழ்தகவின் மொழியில்தான் எழுத முடியும்.

பேய்சியன் முறையில் தரவு அல்லது சான்று கிடைப்பதற்கு முன்பே கருதுகோளின் நிகழ்தகவை ஊகம் செய்கிறோம். இந்த நிகழ்தகவு அந்த அறிவுத்துறையில் இருந்து விளையும் ஊகம். அவ்வாறு ஊகிக்கப்பட்ட நிகழ்தகவு முன் நிகழ்தகவு (Prior probability). சோதனை மூலம் பெறும் தரவின் அல்லது சான்றின் அடிப்படையில் நிகழ்தகவு கணக்கிடப்பட்டு கருதுகோளின் நிகழ்தகவு பின்பு புதுபிக்கப்படுகிறது. சான்றின் அடிப்படையில் நாம் புதுப்பிக்கும் நிகழ்தகவு பின் நிகழ்தகவு (Posterior probability).

பேய்சியன் வாதம் நிகழ்தகவை ஒரு தர்க்கமுறைமையாக முன்வைக்கிறது. இது ஒரு கருதுகோளின் அல்லது போட்டி கருதுகோள்களின் நிகழ்தகவை கணக்கிடுகிறது. அப்படி கணக்கிடுவதன் மூலம் சான்றின் அடிப்படையில் ஒரு கருதுகோளுடைய உண்மையின் வாய்ப்பை கணக்கிடுகிறது. கருதுகோளை நிகழ்தகவின் மொழியில் உறுதி செய்கிறது.

சாலி கிளார்க் வழக்கு

பிரிட்டனில் சாலி கிளார்க் என்பவள் தன் இரு கைக்குழந்தைகளை கொன்றதற்காக 1998-ல் கைது செய்யப்பட்டாள். முதல் குழந்தை பிறந்த சில வாரங்களிலே 1996-ல் இறந்தது. இரண்டாவது குழந்தையும் அதே போல் 1998-ல் இறந்து போனது. குழந்தைகள் நோயின் காரணமாக இறந்து போயின என்பது கிளார்க்கின் டிஃபன்ஸ் தரப்பு வாதம். பூக்குழந்தைகள் திடீரென சில வாரங்களிலே இறக்கும் நோய்க்கு Sudden Infant Death Syndrome (SIDS) என்று பெயர். சுருக்கமாக இதை தொட்டில் இறப்பு என்போம்.

குழந்தை மருத்துவரின் புள்ளி விபரப்படி 8543 குழந்தைகளில் ஒரு குழந்தை இந்த நோயினால் இறக்கிறது. இரு குழந்தைகள் நோயின் மூலம் இறந்ததற்கான நிகழ்தகவு

*  =

அதாவது தோராயமாக 73 மில்லியன் குழந்தைகளில் இரு குழந்தைகள். இந்த நிகழ்வு மிக மிக அரிதான நிகழ்வு. எனவே சாலி கிளார்க்தான் குற்றவாளி. அவள் சிறை சென்றாள்.

இந்த வழக்கை இன்னும் கொஞ்சம் கூர்ந்து நோக்குவோம்.

1) பிறந்து ஏறக்குறைய பத்து வாரமே ஆன இரு குழந்தைகள் இறந்தன. (இரண்டு வருட இடைவெளியில்). இது நம் கையில் இருக்கும் தரவு. Data. சுருக்கமாக D.

2) கருதுகோள் 1. Hypothesis 1. சுருக்கமாக H1: SIDS தான் இரு குழந்தைகளும் இறந்ததற்கான காரணம்.

3) கருதுகோள் H2: கொலைதான் இரு குழந்தைகளும் இறந்ததற்கான காரணம்.

4) சாலி இரட்டை கொலை செய்ததற்காக கைதுசெய்யப்பட்டாள்.

5) குழந்தை மருத்துவர் வழக்கின் நிபுணர் சாட்சி.

இனி நிகழ்தகவை கணக்கிடுவோம்.

P(ஒரு தொட்டில் இறப்பு) =

P(இரு தொட்டி இறப்புகள்) =  *  =

எனவே

P(H1) =

ஆனால் மேலுள்ள வாதம் தர்க்கப்பிழைகளைக் கொண்டது. அவையாவன,

1) SIDS-ன் உண்மையான காரணிகள் பற்றி இன்னும் சரியாகத் தெரியவில்லை. சூழல் மற்றும் ஜெனிடிக் காரணிகள் இருக்கலாம். எனவே ஒரே குடும்பத்தில் இரு குழந்தைகள் இறப்பதற்கான நிகழ்தகவு 1/8543 விட குறைவான எண்.

2) இரு தொட்டில் இறப்புகள் எவ்வளவு அரிதான நிகழ்வாக இருந்தாலும் கறாராகப் பார்த்தால் அதற்கும் சாலிக்கும் எந்த சம்பந்தமும் இல்லை. இங்கு இரு தொட்டில் இறப்புகளுக்கான நிகழ்தகவு சாலி கிளார்க்கின் களங்கின்மையின் நிகழ்தகவாக பிழையாகப் புரிந்துகொள்ளப்படுகிறது. இதை உண்மையில் சாலி கிளார்க்கின் குற்றத்தின் நிகழ்தகவாக பார்க்கமுடியாது. இந்தப் பிழை வழக்கறிஞர் பிழை என்று சொல்லப்படுகிறது. (Prosecutor’s fallacy).

இந்த வழக்கை பேய்சியன் முறைப்படி அணுகலாம். அதை கட்டுரையின் கடைசியில் காண்போம். அதற்குமுன் பேய்சியன் தேற்றம் என்றால் என்ன என்று அறிய வேண்டும்.

***

பேய்சியன் அணுகுமுறை சார்புநிலை நிகழ்தவை அடிப்படையாகக் கொண்டது. சார்புநிலை நிகழ்தகவின் அடிப்படையில் அமைந்த ஒரு கணித சமன்பாடுதான் பேய்சியன் தேற்றம் எனப்படுகிறது. இந்த தேற்றம்தான் பேய்சியன் அறிதல் முறையின் மையம். இது தாமஸ் பேயிஸ் (1702-1761) என்ற பிரிட்டிஷ் புள்ளியல் மேதையால் கண்டறியப்பட்டது.

இந்த தேற்றத்தை இருவகையில் எழுதுவோம்.

முதலில் கணிதத்தின் குறியீட்டு மொழியில்…

A, B என்பவை இரு நிகழ்வுகள். அவைகளை நாம் A = கருதுகோள், B = தரவு அல்லது சான்று என்போம்.

சொற்களில்…

சமன்பாடு என்பது = குறியீட்டின் இடப்பக்கத்திலும் வலப்பக்கத்திலும் உள்ள இரண்டும் சமம் என்கிறது.

5 = 3 + 2

6 = 3 + 3

இதை பொதுமைபடுத்து இப்படி எழுதலாம்.

X = Y + Z

= குறியீட்டின் வலப்புறம் உள்ள இரு எண்களை கூட்டினால் அதன் கூட்டல் தொகை இடபக்கத்தில் உள்ள எண். இந்த சமன்பாட்டின் pattern இதுதான்.

அதே போல் பேய்சியன் சமன்பாட்டின் pattern என்ன?

என்ற pattern-ல் உள்ளது. வலப்பக்கம் உள்ள Y மற்றும் Z இரண்டையும் பெருக்குகிறோம். அந்த பெருக்குத்தொகையை W ஆல் வகுக்கிறோம். அந்த விடை X.

இதைப்போலவே பேய்சியன் தேற்ற சமன்பாட்டிலும் நான்கு கூறுகள் உள்ளன.

1) P(A) = P(கருதுகோள்)

2) P(B) = P(தரவு)

3) P(B|A) = P(தரவு|கருதுகோள்)

4) P(A|B) = P(கருதுகோள்|தரவு)

P(A) என்பது அடைப்புக்குறிக்குள் உள்ள நிகழ்வின் அதாவது A என்ற நிகழ்வின் நிகழ்தகவை குறிக்கிறது. அதாவது கருதுகோளின் நிகழ்தகவு. P(A) என்பது முன் நிகழ்தகவு எனப்படுகிறது. இது B என்ற நிகழ்வை- சான்றை- அவதானிப்பதற்கு முன் நாம் ஊகம் செய்யும் நிகழ்தகவு.

P(A|B) என்று எழுதினால் இது சார்புநிலை நிகழ்தகவை குறிக்கிறது. B என்ற நிகழ்வு நிகழ்ந்திருக்கிறது என்ற அடிப்படையில் A என்ற நிகழ்வின் நிகழ்தகவு. தரவை அல்லது சான்றை அவதானித்தப்பின் கருதுகோளின் நிகழ்தகவு யாது என்பதை குறிக்கிறது. P(A|B) பின் நிகழ்தகவு. B என்ற நிகழ்வை அவதானித்தப்பின் நம் அறிதலின் நிகழ்தகவு. இதைத்தான் நாம் கணக்கிடுகிறோம்.

உதாரணமாக, X, Y, Z என்று மூன்று நிலங்கள் உள்ளன. ஒவ்வொன்றும் ஒவ்வொரு ஏக்கர். இதில் ஒரு நிலத்தின் அடியில் எண்ணெய் இருப்பதற்கான வாய்ப்பு இருக்கிறது என்ற ஒரு கருதுகோளை முன்வைப்போம். மூன்று நிலங்களில் எந்த ஒரு நிலப்பகுதியிலும் எண்ணெய் இருப்பதற்கான வாய்ப்பு 1/3 = 0.333. X என்ற நிலத்தில் நிகழ்ந்த சோதனையின் படி அங்கு எண்ணெய் இல்லை என்று அறிகிறோம். இது சான்று. இப்போது நமது நிகழ்தகவு புதுபிக்கப்படவேண்டும். Y, Z  நிலத்தில் எண்ணெய் இருப்பதற்கான வாய்ப்பு இப்போது 0.5 ஆக உயர்கிறது.

இன்னும் இரண்டு கூறுகள். P(B|A) மற்றும் P(B).

P(B|A) = P(தரவு|கருதுகோள்). இதை சாத்தியக்கூறு எனலாம். (Likelihood). இது கொஞ்சம் டெக்னிக்கல் சிடுக்கு கொண்டது. சோதனை மூலம் பெறப்பட்ட சான்று எந்த கருதுகோளுக்கு அதிக வலு சேர்க்கிறது என்பது இந்தக் சாத்தியக்கூறு பதத்தின் மூலம் கணக்கிடப்படுகிறது. அதாவது சோதனை மூலம் பெற்ற தரவுகள் ஒரு குறிப்பிட்ட கருதுகோளுக்கு மிக அதிக அளவில் (Maximum likelihood) ஆதரவாக அமையும். இரண்டு கருதுகோள்களை ஒப்பிடும்போது நமது சான்று எந்தக் கருதுகோளுடன் மிக அதிக அளவில் ஒத்துப்போகிறதோ அதுதான் நமது சிறந்த கருதுகோள்.

P(B) = இது தரவு அல்லது சான்றின் நிகழ்தகவு.

***

இன்று வானியல் துறையில் புள்ளியல் மிக அதிக அளவு பயன்படுத்தப்படுகிறது. Astro statistics என்று சொல்லப்படுகிறது. நட்சத்திர பெருவெடிப்பு, இரு கருத்துளைகளின் அல்லது நியூட்ரான் நட்சத்திரங்களின் இணைவு போன்ற நிகழ்வுகள் பிரபஞ்ச வெளியையே குலைக்கிறது. இந்தக் குலைவு அலை வடிவத்தில் பிரபஞ்சம் முழுவதும் பரவுகிறது.

நமது பிரபஞ்சம் முன்பின் இடவல மேல்கீழ் என அனைத்து திசைகளிலும் முடிவற்று விரியும் நீச்சல் குளம் போல. அதில் நிறைந்துள்ள தண்ணீர்தான் காலமும் வெளியும். அதனுள் மிதக்கும் நிறைகள்தான் நமது அனைத்து கேலக்ஸிகளும். சூப்பர் நோவா போன்ற  நட்சத்திர வெடிகள் குளத்தில் பெரும் சலனத்தை ஏற்படுத்துகிறது. அந்தச் சலனம் பல கோடி மைல்கள் கடந்து பூமியை வந்தடைகிறது.

பூமியில் உள்ளே சிறப்பு வகை கருவிகளின் மூலம் அதைக் கண்டறியலாம். மிக மிகச் சிறிய அளவு – புரோட்டனின் அளவை விட ஆயிரம் மடங்கு குறைவாக – புவியின் வெளியை நெருக்கி விரிக்கிறது.

இதற்கு மிக மிகத் துல்லியமான கருவிகளை வடிவமைக்க வேண்டும். துல்லியத்தை நோக்கிச் செல்ல செல்ல இன்னொரு இடர் அதிகமாகிறது. நுண்மையில் பொதிந்துள்ள மூலக்கூறுகளால் ஆன காடு ஒன்று விழித்துக்கொள்கிறது. பல நூறு கோடி சீவிடுகளின் ஒலியைப் போல துகள்களின் இரைச்சல்அலைகள் எழுந்து வருகின்றன. இந்த பெரும் இரைச்சலின் நடுவே கிசுகிசுப்பு போன்ற நம் தகவலைக் கண்டறிய மிக பிரம்மாண்டமான புள்ளியல் பகுப்பாய்வுகள் செய்யப்படுகின்றன.

இதுப்போன்ற சூழல்களின் பேய்சியன் முறைமை பயன்படுத்தப்படுகிறது.

நமது சிறப்புவகை கருவி ஒரு புது சிக்னலை கண்டறிகிறது. அது இரைச்சலா அல்லது உண்மையிலேயே சூப்பர் நோவா நிகழ்வா என்பதைக் கண்டறிய வேண்டும். இதுப்போன்ற சூழல்களில் 10000 முறைகளில் ஒரு முறைதான் சிக்னல் சூப்பர் நோவா நிகழ்வாக இருக்க வாய்ப்புள்ளது என்று எடுத்துக்கொள்வோம்.

ஒரு குறிப்பிட்ட சோதனை சிக்னல் சூப்பர் நோவாவாக இருந்தால் அதை 95 % சரியாக உறுதிச்செய்யும். சிக்னல் இரைச்சலாக இருக்க 1 %  சோதனைகளில் அது சூப்பர் நோவா நிகழ்வு என்று பிழையாக உறுதிச்செய்யும்.

ஒரு சிக்னல் நமது சோதனையை பாஸ் செய்துவிட்டது. அது சூப்பர் நோவாவாக இருக்க என்ன நிகழ்தகவு?

S = Signal = சிக்னல் உண்மையிலே சூப்பர் நோவா

G = Glitch = சிக்னல் உண்மையில் இரைச்சல்

+ = Test positive = சோதனையின் முடிவு சூப்பர் நோவா

– = Test negative = சோதனையின் முடிவு இரைச்சல்

D = Data = தரவு

1) P(S|D) = 0.0001

2) P(G|D) = 0.9999

இவை இரண்டும் முன் நிகழ்தகவுகள்

3) P(+|S, D) = 0.95

4) P(+|G, D) = 0.01

இவை இரண்டும் சாத்தியத்தின் நிகழ்தகவுகள்.

சூப்பர் நோவா என்ற நிகழ்வின் நிகழ்தகவை நாம் கணக்கிடவேண்டும். நிபந்தனை அது சோதனையை பாஸ் செய்துவிட்டது.

P(+|D) என்பது சிக்னல் சோதனையை பாஸ் செய்வதற்கான நிகழ்தகவு. அதை சூப்பர் நோவாவாக இருந்தால் அது பாஸ் செய்வதற்கான நிகழ்தகவு மற்றும் இரைச்சலாக இருந்து அது பாஸ் செய்வதற்கான நிகழ்தகவு ஆகியவற்றின் கூட்டுத்தொகையாக எழுதலாம்.

இது ஒரு சதம்தான். சோதனையை வெற்றி கொள்ளும் சிக்னல் உண்மையில் பெரும்பாலான சமயங்களில் கருவி இரைச்சலே. ஆனால் இந்த சோதனையை பாஸ் செய்ததன் மூலம் சூப்பர் நோவா நிகழ்வின் நிகழ்தகவு 0.0001 –ல் இருந்து 0.01 ஆக உயர்ந்துவிட்டது. முன்பு இருந்த நிலையை விட நூறு மடங்கு அதிகம். இது பின் நிகழ்தகவு.

தரவுகள் வர வர இந்த நிகழ்தகவு புதுபிக்கப்பட்டு iterative முறையில் மீண்டும் கணக்கிடப்படுகிறது. இது ஒரு எளிய உதாரணம் என்றாலும் பேய்சியன் மெய்காண்முறையின் மையம் இதுதான்.

***

கொலையின் நிகழ்தகவுஷாலி கிளார்க் வழக்கு பேய்சியன் வாதத்தின் அடிப்படையில்…

1) பிறந்து ஏறக்குறைய பத்து வாரமே ஆன இரு குழந்தைகள் இறந்தன. (இரண்டு வருட இடைவெளியில்). இது நம் கையில் இருக்கும் தரவு. Data. சுருக்கமாக D.

2) கருதுகோள் H1: SIDS தான் இரு குழந்தைகளும் இறந்ததற்கான காரணம்.

3) கருதுகோள் H2: கொலைதான் இரு குழந்தைகளும் இறந்ததற்கான காரணம்.

இப்போது இரண்டு கருதுகோள்களுக்கான பேய்சியன் தேற்றத்தை இவ்வாறு எழதலாம்.

இப்போது இரண்டு கருதுகோள்களின் வாய்ப்பு விகிதத்தை கணக்கிடுவோம். (Odd’s ratio).

 =

= 1

ஏனெனில் இறப்பின் தன்மையை வைத்து நோக்கினால் அது தொட்டில் இறப்பா அல்லது கொலையா என்பது குறித்து எந்த பேதமும் இல்லை.

=

உண்மையில் சாலி கிளார்க்கை குற்றவாளி என்று நிரூபிக்க நாம் கொலைக்கான நிகழ்தகவை P(H2) கணக்கிடவேண்டும். இது பிழையான வாதத்தில் கணக்கிலே எடுத்துக்கொள்ளப்படவில்லை. சந்தேகத்திற்கு இடமின்றி அதை கணக்கிடவும் முடியாது. எனவே சாலி கிளார்க் நிரபராதி என்று இறுதி தீர்ப்பு வழங்கப்பட்டது. ஆனால் பாவம் சாலி கிளார்க் மனமுடைந்து குடிக்கு அடிமையாகி இறந்துபோனாள். ஊழ் மட்டும் என்னவோ முழுமுற்றான நிச்சயத்துடன் மனிதனை வந்து அடைந்துவிடுகிறது.

தொடரும்

முந்தைய கட்டுரைதஞ்சை சந்திப்பு கடிதம், பதில்
அடுத்த கட்டுரைசொல்தளிர்க்கும் பாதை