ตัวถอดรหัส HTML คือเครื่องมือหรือกระบวนการที่แปลงเอนทิตี HTML (เช่น <, >, & เป็นต้น) กลับเป็นอักขระที่สอดคล้องกัน (เช่น <, >, & เป็นต้น) การถอดรหัส HTML เป็นการย้อนกลับของการเข้ารหัส HTML และใช้เพื่อแปลงข้อความที่เข้ารหัสกลับเป็นรูปแบบที่มนุษย์สามารถอ่านได้
ตัวอย่างเช่น:
< กลายเป็น <
> กลายเป็น >
& กลายเป็น &
เพื่อ แปลงข้อมูลที่เข้ารหัส HTML กลับไปเป็นรูปแบบที่อ่านได้หรือใช้งานได้
เพื่อ ตีความ เนื้อหาที่สร้างโดยผู้ใช้หรือข้อความอื่นที่ได้รับการเข้ารหัสเพื่อหลีกเลี่ยงการทำลายโครงสร้าง HTML
เพื่อ แสดงเนื้อหาอย่างถูกต้อง เมื่อเข้ารหัสไว้ก่อนหน้านี้เพื่อการแสดงผลที่ปลอดภัยในเบราว์เซอร์
เพื่อ ลบการเข้ารหัสที่ไม่ต้องการ จากข้อมูลที่ปลอดภัยสำหรับการแสดงผลเป็นข้อความดิบหรือ HTML
การถอดรหัส HTML มักจะทำผ่านฟังก์ชันในตัวในภาษาการเขียนโปรแกรมมากมาย:
ใน JavaScript คุณสามารถใช้ textContent หรือไลบรารีที่ถอดรหัสเอนทิตี HTML ได้
ใน Python คุณสามารถใช้โมดูล html ร่วมกับฟังก์ชันเช่น html.unescape()
ภาษาการเขียนโปรแกรมอื่นอาจมีฟังก์ชันหรือไลบรารีที่คล้ายคลึงกันสำหรับการถอดรหัสเอนทิตี HTML
กระบวนการนี้เกี่ยวข้องกับการระบุเอนทิตีที่เข้ารหัสแล้วและแทนที่ด้วยอักขระที่สอดคล้องกัน
เมื่อคุณได้รับเนื้อหาที่เข้ารหัส HTML (เช่น จาก URL อินพุตของผู้ใช้หรือการตอบสนองของ API) และจำเป็นต้องแสดงผลในรูปแบบเดิม
เมื่อคุณต้องการแสดงเนื้อหา HTML แบบดิบ (เช่น ข้อความที่เข้ารหัส HTML ในข้อความหรือความคิดเห็น) ที่ได้รับการเข้ารหัสไว้ก่อนหน้านี้ด้วยเหตุผลด้านความปลอดภัยหรือความเข้ากันได้
เมื่อดึงและแสดงเนื้อหาที่ได้รับการเข้ารหัสไว้สำหรับการใช้งานที่ปลอดภัยในเบราว์เซอร์แต่ตอนนี้ควรตีความว่าเป็นข้อความแบบดิบ (เช่น ความคิดเห็นของผู้ใช้ สนิปเป็ตโค้ด ฯลฯ)
เมื่อประมวลผลข้อมูลที่เข้ารหัส URL หรือ HTML เพื่อการส่งหรือจัดเก็บที่ปลอดภัยแต่ควรถอดรหัสก่อนใช้งานต่อไป