Thai sentences segmentation

คุณวีร์คิดได้เสนอความคิดว่า หลายๆภาษามีสัญลักษณ์หรือตัวอักษรที่บ่งบอกจุดสิ้นสุดของประโยคอยู่ภายในตัวภาษา เช่นภาษาอังกฤษที่มีเครื่องหมายจุดฟูลสต็อปเป็นเครื่องหมายบอกจุดสิ้นสุดประโยค แต่สำหรับภาษาไทยที่ไม่มีสัญลักษณ์นี้ ถ้าเราให้ผู้อ่านแต่ละคนทดลองทำการตัดประโยคโดยการเพิ่มตัวอักษรพิเศษเช่นฟูลสต็อปเข้าไป ผลลัพธ์ที่ได้จากการตัดประโยคของผู้อ่านแต่ละคนอาจจะได้ผลลัพธ์ที่ต่างกัน

จากความคิดของผม สาเหตุที่เกิดความแตกต่างกันเพราะธรรมชาติของภาษาไทยเป็นภาษาที่ค่อนข้างอิสระ การตัดประโยคเกิดจากความรู้สึกและสัญชาตญาณมากกว่าจะเกิดขึ้นจากกฏเกณฑ์ ผลที่ได้จึงแตกต่างกันตามสภาพแวดล้อม ความเชี่ยวชาญ และความรู้ของผู้ตัดประโยคแต่ละคนว่าทำให้เกิดหลักเกณฑ์ในการตัดประโยคอย่างไร

จากการทดลองอ่านข้อความที่ถูกตัดประโยคแล้วพบว่า ความเร็วในการอ่านโดยรวม และความต่อเนื่องในการอ่านในแต่ละประโยคนั้นลดลงอย่างเห็นได้ชัด เวลาอ่านไม่รู้สึกไหลลื่นเหมือนอ่านข้อความปกติ

ผมถามเพื่อนว่าภาษาเขมรมีตัวแบ่งประโยคหรือเปล่า. เขาก็ว่ามี. ถามมาหลายคนหลายภาษาแล้ว. เขาก็ว่ามีหมด. ลองดูในวิกิพีเดียลาว ก็ปรากฎว่ามีตัวแบ่งประโยคเช่นกัน. จำได้ว่าป๋าเทพเคยกล่าวถึงว่าอาจจะใช้ ๛ (โคมูตร) มาเป็นตัวจบประโยคดูก็ได้ แต่ว่าแหมมันกดยากเหมือนกัน.

นักภาษาศาสตร์บางท่านชี้ว่า, ภาษาไทยอาจจะไม่มีขอบเขตประโยคที่แน่นอน. ให้คนไทยด้วยกันเองลองแบ่งประโยคออกมา, ก็อาจจะไม่ตรงกัน. ผมออกจะเชื่อตามนั้น. แต่ว่ากันยังอยากจะลองเองอยู่ดีว่า, ถ้าลองแบ่งประโยคดูแล้วจะเป็นอย่างไร.

จาก ชิลๆ 

เวลาที่ผมอ่าน ทุกครั้งที่เจอกับเครื่องหมายแบ่งประโยค ซึ่งในที่นี้คือ ลูกน้ำและจุด จะเว้นหายใจอยู่ประมาณ 1 วินาทีก่อนจะอ่านประโยคถัดไป เวลาอ่านเลยรู้สึกว่าเหนื่อยกว่าปกติมากๆ เพราะแบ่งช่วงหายใจถี่ สาเหตุก็คงจะเป็นเพราะไม่เคยชินกับภาษาไทยแบบนี้ แต่เคยชินกับการหยุดหายใจเมื่อใช้เครื่องหมายลูกน้ำซึ่งใช้เพื่อแจกแจงสมาชิกมากกว่า

ตอนนี้ยังไม่ได้ลองเอาไปคิดดูว่าถ้าตัดประโยคได้แล้วจะนำไปใช้อะไรได้บ้าง แต่คิดว่ามันน่าจะมีประโยชน์แน่ๆ อย่างน้อยก็น่าจะเป็นพวก Data Visualization เพื่อวิเคราะห์รูปแบบประโยคในงานประพันธ์ต่างๆ หรือไม่ก็เอาไปช่วยในงาน Natural Language Processing ได้ล่ะมั้ง

This entry was posted in Thought and tagged , , . Bookmark the permalink.

4 Responses to Thai sentences segmentation

  1. อ่านแล้วรู้สึกเหมือนตาวิ่งไปชนอะไรซักอย่างเข้า

  2. mk says:

    ปัญหานี้อดีตเจ้านายผมเคยไปนอนคิดอยู่พักนึง เพื่อหา universal word-breaking rule ที่เป็น grammar rule ปรากฎว่าเหลว (ฮา)

    เท่าที่ผมสัมผัสเป็นเพราะภาษาไทยนั้น undetermisnistic มากๆ เราตีความประโยคจากความหมายรวม ไม่ใช่ความหมายตามตัวอักษรเป๊ะๆ อย่างเช่น “เขาไปฟิตเนสบ่อยๆ”, “เขามักจะไปฟิตเนส” มีความหมายแทบไม่ต่างกัน ในขณะที่ภาษาอังกฤษ “often” กับ “sometimes” สามารถตี % ความถี่ออกมาอย่างคร่าวๆ ได้

  3. wiennat says:

    เป็นเพราะว่าเราใช้ความรู้สึก สัญชาตญาณ และความเคยชินมากกว่ากฏเกณฑ์ตายตัวรึเปล่าครับ

  4. iPAtS says:

    เอาไว้ใช้แปลภาษาไทยน่าจะดี :D

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>