เครื่องแปลภาษา (Machine Trans lation)

เครื่องแปลภาษาคือ  เครื่องมือที่ใช้สำหรับการแปลข้อความจำนวนมากๆ จากภาษาหนึ่งไปยังอีกภาษาหนึ่ง  โดยที่สามารถป้อนข้อมูลภาษาต้นทางเป็นข้อความหรือเสียงก็ได้  และจะได้ภาษาปลายทางเป็นข้อความหรือเสียงก็ได้เช่นกันซึ่งจะช่วยให้วงการการ แปลสามารถแปลข้อความได้เป็นจำนวนมากและรวดเร็ว  ในยุคที่ต้องการข้อมูลข่าวสารอย่างรวดเร็ว

          ประวัติการทำวิจัยและพัฒนาเครื่องแปลภาษา

การทำวิจัยและพัฒนาเครื่องแปลภาษาเป็นงานแขนงหนึ่งในศาสตร์แห่งการประมวลผล ภาษาธรรมชาติ  (Natural  Language  Processing)เครื่องแปลภาษาเครื่องแรกได้กำเนิดขึ้นประมาณปี  ค.ศ.  ๑๙๓๐  เครื่องแปลภาษาเป็นซอฟต์แวร์ที่

เครื่องแปลภาษาในยุคแรก (ปี ค.ศ. ๑๙๕๐- ๑๙๖๐)

          เครื่องแปลภาษาในยุคแรก  (ปี  ค.ศ. ๑๙๕๐-๑๙๖๐)
จากการสำรวจการทำวิจัยและพัฒนาเครื่องแปลภาษา  (ALPAC  1966-1972) พบว่า  ระบบที่สำคัญที่สุดในยุคนี้  คือ  ระบบ  GeorgetownAutomatic  Translation  (GAT)  ส่วนในยุโรปก็ได้แก่ งานของ  Kulagina  และ  Mel’cuk  ในยุคแรกนี้  เครื่องแปลภาษาจะแปลแบบตรง (direct approach)  คือ  แปลแบบพิจารณาเฉพาะที่  โดยแปลจากภาษาต้นทางเป็นภาษาปลายทางโดยตรงทีละคู่ภาษาเท่านั้น  และโปรแกรมจะพิจารณาไปทีละคำ  ไม่ได้ดูเป็นประโยค  เป็นการแปลคำต่อคำแล้วใช้การเปลี่ยนการเรียงลำดับคำให้สอดคล้องกับภาษาเป้า หมาย  ส่วนการเขียนกฎไวยากรณ์ หรือการใช้ความรู้ทางภาษาศาสตร์เพื่อมาช่วยในการ วิเคราะห์นั้น  ในยุคแรกนี้  จะเขียนเป็นรหัสโดยตรง  จึงใช้งานได้ยาก  และมีลักษณะเป็นกระบวนการ  (procederal)  กล่าวคือ  กระบวนการแปลทั้งหมดคือการทำตามคำสั่งต่อๆ กัน

แต่เป็นที่น่าเสียดายที่รายงาน  ALPAC  ดัง-กล่าว  แสดงผลว่า  การทำวิจัยและพัฒนาเครื่องแปลภาษาไม่ประสบความสำเร็จ  รัฐบาลสหรัฐอเมริกาจึงไม่สนับสนุนงบประมาณในการทำวิจัยเรื่องนี้  ซึ่งส่งผลให้เกิดยุคมืดของการทำวิจัยและพัฒนาระบบแปลภาษาขึ้น  อย่างไรก็ตาม  การทำวิจัยและพัฒนาในประเทศอื่นๆ ก็ยังดำเนินต่อไป

ในยุคนี้ได้มีการนำเครื่องแปลภาษามาใช้งานจริงในปี  ค.ศ. ๑๙๗๖  ซึ่งทาง  Commission  ofthe  European  Communities  ได้ตัดสินใจสั่งซื้อและพัฒนาระบบ Systran  ซึ่งเป็นเครื่องแปลภาษาอังกฤษ – ฝรั่งเศส  เพื่อใช้สำหรับบริการการกระจายข่าวของแคนาดา  และหลังจากนั้นมาอีก  ๕  ปีบริษัทต่างๆ ที่พัฒนาเครื่องแปลภาษาก็สามารถนำผลงานออกสู่ตลาดได้เป็นผลสำเร็จ

เครื่องแปลภาษาในยุคปี ค.ศ. ๑๙๘๐

          เครื่องแปลภาษาในยุคปี ค.ศ. ๑๙๘๐
งานวิจัยและพัฒนาเครื่องแปลภาษาในยุคนั้นยังให้ความสำคัญกับวากยสัมพันธ์ของ ภาษาและใช้วิธีการ “เปลี่ยน” (transfer approach)ตัวอย่างเช่น ระบบเอเรียน (Ariane) ของมหาวิทยาลัยเกรอนอบล์ ประเทศฝรั่งเศส ระบบเมทัล ของเทกซัส ระบบซูซี ของ Sarbrukenระบบ MU ของมหาวิทยาลัยเกียวโต รวมถึงโครงการ Multilingual Eurotra ของกลุ่มประชาคมยุโรป

ต่อมามีการนำวิธีการใช้ภาษากลาง (inter-lingual approach) เข้ามาใช้ เพื่อที่จะทำการแปลแบบหลายภาษา (multilingual machine translation)ให้ได้ผล เช่น โครงการ DLT และ โรเซตตา(Rosetta) ประเทศเนเธอร์แลนด์ รวมทั้งโครงการระบบเครื่องแปลหลากภาษาสำหรับภาษาอาเซียน๕ ภาษา คือ ภาษาญี่ปุ่น ภาษาจีน ภาษามาเลเซียภาษาอินโดนีเซีย และภาษาไทย

การพัฒนาเครื่องแปลภาษาในยุคนี้มีแนวคิดเปลี่ยนไปจากเดิมคือ เริ่มมองว่าเครื่องแปลภาษาเป็นเครื่องมือที่จะช่วยแปลภาษาเท่านั้น แต่ไม่สามารถนำมาทดแทนนักแปลภาษามืออาชีพได้แนวคิดเช่นนี้ก่อให้เกิดการรวม ตัวของนักวิจัยเพื่อหาแนวทางใหม่ๆในการทำวิจัยและพัฒนา ซึ่งสามารถสรุปแนวทางที่เกิดขึ้นในยุคนี้ได้ดังนี้

          ๑. เครื่องแปลภาษาแบบใช้กฎไวยากรณ์ สมมติฐาน ของการพัฒนาเครื่องแปลภาษาแบบใช้กฎไวยากรณ์ก็คือ การมีกระบวนการวิเคราะห์และการสร้างรูปแทน (representation)ความหมายของภาษาต้นทาง และสร้างภาษาปลายทางจากรูปแทนนั้น โดยที่รูปแทนจะต้องไม่มีความกำกวมทั้งในระดับคำและโครงสร้าง โดยมีการวิเคราะห์ภาษาต้นทางด้วยความรู้ทางภาษาศาสตร์ ซึ่งประมวลผลออกมาเป็นกฎไวยากรณ์และมีวิธีใช้เพื่อให้สามารถไปถึงจุดหมาย นั้นได้หลายวิธี ดังนี้

๑.๑ เครื่องแปลภาษาแบบ “เปลี่ยน”แนวทางการใช้วิธีการ “เปลี่ยน” นั้น ได้แก่ระบบเอเรียน และระบบยูโรทรา ฯลฯ ซึ่งเป็นระบบที่ให้ความสำคัญกับวากยสัมพันธ์ของภาษา และมีการทำงานเป็นขั้น ตอน ดังนี้

๑.๒  เครื่องแปลภาษาแบบ “ภาษากลาง”(Interlingual  Approach)การทำวิจัยเครื่องแปลภาษาด้วยการใช้ภาษากลางนั้นเริ่มต้นที่ มหาวิทยาลัย  Carnegie – Melon  ซึ่งทำวิจัยและพัฒนา Knowledge – based  MTsystem  โดยมีแนวคิดว่า  นอกเหนือจากการใช้ความรู้ทางภาษาศาสตร์แล้ว  ในการแปลภาษาจะต้องมีความเข้าใจเรื่องหลักภาษาด้วย  จึงมีการแปลงรูปแทนทางวากยสัมพันธ์เป็นรูปแทนทางอรรถศาสตร์  โดยใช้ความรู้จากฐานความรู้ในโดเมนใดๆ ซึ่งแสดงเป็นโครงข่าย (network)  ที่แสดง actual  events

          ๒.  เครื่องแปลภาษาแบบใช้คลังข้อความ(Corpus – based  Approach) แนว คิดการทำวิจัยและพัฒนาเครื่องแปลภาษาได้เริ่มเข้าสู่ยุคใหม่  ซึ่งมีการเก็บรวบรวมข้อความจำนวนมากที่เรียกว่า  คลังข้อความ(Corpus  base)  เพื่อนำไปศึกษาวิจัย  โดยอ้างอิงข้อมูลขนาดใหญ่ที่ใช้จริงในภาษา  และมีการดึงข้อมูลจากคลังข้อความไปใช้ในการวิเคราะห์ภาษาหรือการสร้างภาษา โดยตรง  จึงก่อให้เกิดวิธีการนำไปใช้ดังต่อไปนี้

๒.๑  วิธีอาศัยค่าสถิติ (Statistic  Approach)ในช่วงปลายคริสต์ทศวรรษ  ๑๙๘๐  โครงการIBM  candide  Research  (Brown  et  all. 1980,1990)  ได้อาศัยวิธีการทางสถิติในการวิเคราะห์ และการสร้างภาษา  โดยอาศัยคลังข้อความขนาดใหญ่ที่มีชื่องว่า  Canadian   Hansard  ซึ่งได้เก็บบันทึกการอภิปรายในสภาไว้เป็น  ๒  ภาษาคือภาษาอังกฤษ  และภาษาฝรั่งเศส  วิธีการที่นำมาใช้คือ  การหาขอบเขตของประโยค  ๒  ภาษาที่ตรงกันจากคลังข้อความที่เป็นคู่ภาษา  จากนั้นนำมาคำนวณหาค่าความเป็นไปได้ของคำในภาษาต้นทางว่าตรงกับภาษาปลายทาง กี่คำ  โดยคำนวณค่าความเป็นไปได้จากการจับคู่คู่คำที่อยู่ติดกัน  (bigram)ของภาษาอังกฤษ  กับคู่คำที่อยู่ติดกัน  (bigram)ของภาษาฝรั่งเศส  ซึ่งผลสำเร็จที่สามารถแปลได้มีความถูกต้องประมาณ  ๔๘ %

ต่อมามีการปรับปรุงการทำวิจัยและพัฒนาในเรื่องนี้  โดยปรับการคำนวณค่าความเป็นไปได้ให้ถูกต้องมากยิ่งขึ้น  นอกจากนั้น  นักวิจัยบางคนก็นำความรู้ทางภาษาศาสตร์เรื่องคำและไวยากรณ์มาใช้ร่วมกัน  เพื่อให้งานนั้นถูกต้องยิ่งขึ้น

๒.๒  วิธีการแปลแบบใช้ประโยคตัวอย่าง(Example  base  Approach)ในกลางคริสต์ทศวรรษ  ๑๙๘๐  นากาโอะ(Nagao)  ได้เสนอวิธีการแปลโดยการใช้ประโยคตัวอย่างจากคลังข้อความคู่ภาษาขนาดใหญ่  ซึ่งโปรแกรมจะคำนวณว่า  ประโยคที่มีปรากฏว่าแปลไว้ในคลังตัวอย่าง  และดึงขึ้นมาใช้  โครงการATR  ซึ่งมีเครื่องแปลภาษาแบบใช้วิธี  “เปลี่ยน”ก็ได้นำวิธีนี้มาใช้  โดยเลือกเก็บประโยคตัวอย่างซึ่งได้มาจากการคำนวณค่าระยะะห่างของคำที่มีความ หมายใกล้เคียงกันในอภิธานศัพท์  (Thesaurus)  และจะใช้การ  “เปลี่ยน”  ในระดับต่างๆ เช่นระดับคำ  ระดับรูปแบบ  และระดับวากยสัมพันธ์เช่น  ในภาษาญี่ปุ่น  โครงสร้าง  N1  no  N2  จะเปลี่ยนไปให้ตรงกับ  N2  of  N1  แต่ก็ไม่เสมอไปเช่น  จะใช้สำนวนว่า  fee for the conference  มากกว่า   fee of the conference  และจะใช้ conferencein  Tokyo  มากกว่า  conference   of  Tokyo ดังนั้น  จึงมีการเก็บประโยคตัวอย่างเหล่านี้ไว้

เครื่องแปลภาษาไทยเป็นภาษาอื่นๆ

          เครื่องแปลภาษาไทยเป็นภาษาอื่นๆ 
การทำวิจัยและพัฒนาเครื่องแปลภาษาในประเทศไทยเริ่มต้นในปี  พ.ศ.  ๒๕๒๔  โดยจุฬาลงกรณ์มหาวิทยาลัยร่วมกับมหาวิทยาลัยเกรอนอบล์  (Grenoble)  แห่งประเทศฝรั่งเศสได้ร่วมโครงการทำวิจัยและแปลภาษาเป็นไทยด้วยคอมพิวเตอร์  ซึ่งเป็นโครงการของทบวงมหาวิทยาลัย  (พ.ศ.  ๒๕๒๔ – ๒๕๓๐)

ต่อมาก็เกิดโครงการความร่วมมือในการพัฒนาระบบแปลหลากภาษาสำหรับภาษาในเอเชีย ซึ่งได้แก่  ภาษาจีน  ญี่ปุ่น  มาเลเซีย  อินโดนีเซียและไทย  โครงการนี้เป็นโครงการของกระทรวงวิทยาศาสตร์  เทคโนโลยีและสิ่งแวดล้อม  ซึ่งดำเนินการโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ  (พ.ศ.  ๒๕๓๐ – ๒๕๓๗)

ภาษาสอบถามเชิงโครงสร้าง (SQL)

คนทั่วไปมักจะเรียกกันว่า  ภาษาเอสคิวแอล (SQL)  แต่เดิมเรียกว่า ซีเควล  (Structured  English Query  Language : SEQUEL) เป็นภาษาที่ใช้ในการสอบถามข้อมูลจากฐานข้อมูลสำหรับแบบจำลองข้อมูลเชิง สัมพันธ์ที่ได้รับความนิยมสูงสุด    เนื่องจากมีความสามารถในการสอบถามข้อมูลเทียบเท่าพีชคณิตเชิงสัมพันธ์  (Relational  Algebra) หรือมากกว่าในบางคำสั่ง  ภาษานี้เป็นผลงานการวิจัยของไอบีเอ็ม  (IBM  Research)  โดยพัฒนาขึ้นครั้งแรก  เพื่อเป็นเครื่องมือในการติดต่อ  สำหรับระบบฐานข้อมูลเชิงสัมพันธ์ที่เรียกว่า  ซิสเทมอาร์ (System  R)  และปัจจุบันนำมาใช้ในระบบจัดการฐานข้อมูลดีบีทู (DB2)  ของบริษัทไอบีเอ็ม  และระบบจัดการฐานข้อมูลเชิงสัมพันธ์อีกมากมาย
ภาษาเอสคิวแอลมีหลายแบบแตกต่างกันไปตามผู้ผลิตระบบจัดการฐานข้อมูลแต่ละราย  แบบที่ค่อนข้างได้รับความนิยมให้ใช้เป็นมาตรฐานคือ  เอสคิวแอลที่กำหนดขึ้นโดยสถาบันมาตรฐานแห่งชาติของสหรัฐอเมริกา  หรือ แอนซี American National  Standards  Institute  :  ANSI)เรียกกันว่า  เอสคิวแอล  ๑  (SQL 1)  กำหนดขึ้นเมื่อปี  พ.ศ.  ๒๕๒๙  ต่อมาได้มีการปรับปรุง
แก้ไขและขยายมาตรฐานอีกเมื่อปี  พ.ศ.  ๒๕๓๕ เรียกว่า  เอสคิวแอล ๒  (SQL 2 หรือ  SQL-92) ขณะนี้กำลังมีการร่างมาตรฐานสำหรับเอสคิวแอล ๓  ซึ่งคาดว่า  จะรวมแนวคิดในเรื่องการโปรแกรมเชิงวัตถุเข้าไว้ด้วย

โครงสร้างภาษาเอสคิวแอล

          ภาษาเอสคิวแอลเป็นภาษาที่กระชับ  มีชุดคำสั่งที่ใช้ในการกำหนดโครงสร้างข้อมูล  การสอบถามข้อมูล  และการปรับปรุงข้อมูลด้วยดังนั้น  ภาษานี้จึงจัดเป็นทั้งภาษากำหนดโครงสร้าง  ข้อมูล (DDL) และภาษาจัดดำเนินการข้อมูล (DML)  นอกจากนี้  ยังมีคำสั่งสำหรับสร้างและยกเลิกดัชนี (Index)  ของแฟ้มข้อมูล  และคำสั่งสำหรับนำเอสคิวแอลไปใช้ร่วมกับภาษาโปรแกรมคอมพิวเตอร์อื่น ๆ ได้อีกด้วย  เช่น  ภาษาซี  ภาษาปาสกาล  เป็นต้น
คำสั่งภาษาเอสคิวแอล 

          คำสั่งสำหรับการสอบถามข้อมูลด้วยเอสคิวแอล  มีชุดคำสั่งซึ่งประกอบไปด้วยชุดคำสั่ง  SELECT-FROM-WHERE  เป็นชุดคำสั่งที่มักจะใช้โดยทั่วไป  ข้อมูลที่ต้องการสอบถามสามารถนำมาจากหลายๆ ตารางได้ (ด้วยการใส่ชื่อตารางหลังคำสั่ง  FROM)  และ เงื่อนไขของการนำเสนอข้อมูลจะถูกระบุไว้หลังคำสั่ง  WHERE  โดยคุณสมบัติที่ต้องการได้ในรายงานจะระบุไว้ในคำสั่ง  SELECT  ตัวอย่างของการเขียนภาษาเอสคิวแอล  เช่น  ถ้าต้องการสอบถามเบอร์โทรศัพท์ของนักศึกษาที่ชื่อ “สมชาย  รักไทย” จากตารางความสัมพันธ์ “นักศึกษา” จะเขียนด้วยเอสคิวแอลได้ว่า

ระบบจัดการฐานข้อมูลกับเอสคิวแอล

          ระบบจัดการฐานข้อมูลก็จะค้นหาข้อมูลเบอร์โทรศัพท์จากตารางนักศึกษา  โดยดูว่าระเบียนข้อมูลใดบ้างที่มีคุณสมบัติ “ชื่อ” เท่ากับ สมชาย  และมีคุณสมบัติ “นามสกุล” เท่ากับ รักไทย  ผลลัพธ์ที่ได้จากตัวอย่างนี้  จะเป็นตารางความสัมพันธ์ใหม่ที่มีคุณสมบัติ ๑ คุณสมบัติเท่านั้นคือ  เบอร์โทรศัพท์  และจำนวนระเบียนจะขึ้นอยู่กับว่ามีข้อมูลที่มีชื่อและนามสกุลนั้นเป็นจำนวน เท่าไร หรือเป็น ๐ ระเบียน (ถ้าไม่มีข้อมูลใดสอดคล้องกับเงื่อนไขที่ระบุเลย)  สำหรับตัวอย่างที่  ๒ เป็นการสอบถามรายละเอียดเกรดเฉลี่ยสะสม (average : AVG)  ของนักศึกษาในแต่ละชั้นปีโดยขอดูเฉพาะชั้นปีที่มีเกรดเฉลี่ยสะสมของนักศึกษา สูงกว่า ๒.๐  โดยให้ผลลัพธ์ที่ออกมามีการเรียงลำดับของระเบียนจากมากไปหาน้อย (descend    ing : DESC)  ของชั้นปี  ซึ่งเขียนเป็นภาษาเอส คิวแอลได้ดังนี้

ในระบบจัดการฐานข้อมูลเชิงสัมพันธ์ทั่วไปจำเป็นจะต้องมีส่วนสำหรับทำการค้น หาวิธีการที่ดีที่สุดในการหาคำตอบ  (Query  Optimization) ให้แต่ละการสอบถามด้วยภาษาเอสคิวแอลเนื่องจากการสอบถามด้วยเอสคิวแอลแต่ละ อัน จะมีวิธีการประมวลผลได้หลายวิธี  ซึ่งแต่ละวิธีจะใช้ทรัพยากรต่างๆ กันไป  ซึ่งระบบจัดการฐานข้อมูลโดยทั่วไปจะเตรียมส่วนนี้ไว้ให้  โดยที่ผู้ใช้ไม่ต้องเป็นผู้หาวิธีการทำงานที่ดีที่สุดสำหรับการสอบถามด้วย เอสคิวแอลแต่ละอันด้วยตัวเองตัวอย่างเทคนิคที่ใช้ในการค้นหาวิธีการที่ดีที่ สุดในการหาคำตอบของการสอบถาม  ได้แก่  กฎแบบศึกษาสำนึก  (Heuristic  Rules)  และการประเมินราคา  (Cost  Estimation)  เป็นต้น

รวมมิตรโรคฮิตจากคอมพิวเตอร์

-ปัญหาเกี่ยวกับสายตา การใช้คอมพิวเตอร์เป็นเวลานานกว่า 6 ชั่วโมงต่อวันจะทำให้ตาขาดน้ำหล่อเลี้ยงเกิดอาการระคายเคือง และอาการที่ตามมาคือ ตาพร่ามองไม่เห็นชั่วคราว รวมทั้งสายตาสั้น นอกจากนี้ ยังมีอาการไมเกรนตามมา เพราะกล้ามเนื้อตาจะบีบรัดเลนส์ตาจนล้า

-”คอมพิวเตอร์ วิชั่น ซินโดรม” หรือซีวีเอส จะมีอาการเมื่อยล้าตา ปวดตา เคืองตา ตาแห้ง น้ำตาไหล ตามัว เห็นภาพซ้อน ปวดคอ หลัง และไหล่

-”รีพิททีทีฟ สเตรน อินเจอรี” หรืออาร์เอสไอ เกิดจากการที่เรานั่งทำงานหน้าเครื่องคอมพิวเตอร์ อย่างไม่ถูกสุขลักษณะ สามารถเกิดได้ทุกส่วนของร่างกาย ตั้งแต่แขน ข้อมือ ข้อนิ้ว แผ่นหลัง ต้นคอ หัวไหล่ และสายตา หากปล่อยไว้นานๆ อาจต้องผ่าตัดเอ็นก็มี

-อาการท้องร่วงเพราะคีย์บอร์ด (QWERTY Tummy) ชื่ออาการนี้มาจากกลุ่มตัวอักษรชุดแรกบนแป้นคีย์บอร์ด สาเหตุที่ทำให้ท้องร่วง เพราะคีย์บอร์ดมีแบคทีเรียสะสมอยู่ บางคนมักรับประทานอาหารหน้าจอคอมฯที่มีคีย์บอร์ด มือที่สัมผัสคีย์บอร์ดติดเชื้อแบคทีเรีย เมื่อหยิบอาหารอาจทำให้แบคทีเรียเหล่านั้นปะปนในอาหารได้

-”คาร์ปาล ทุนเนล ซินโดรม” เกิดจากการใช้ งานซ้ำๆที่บริเวณข้อมือ ทำให้เอ็นรอบบริเวณข้อมือหนาตัวขึ้น แล้วไปกดเส้นประสาทที่วิ่งผ่าน ทำให้เกิดอาการชาและเจ็บได้ในเมื่อการทำงานโดยใช้คอมพิวเตอร์ยังต้องดำเนิน ต่อไป ก็ต้องคอยเตือนตัวเองให้ปรับสภาพการทำงานให้ถูกสุขลักษณะ ลุกจากที่นั่งขึ้นมายืดเส้นยืดสายเป็นระยะเสียบ้าง เพื่อจะได้ให้บรรเทาเบาบางจากโรคฮิตเหล่านี้