Microsoft เปิดตัวเครื่องมือ Pytho ใหม่สำหรับแปลงไฟล์เอกสารเป็น Markdown

Microsoft เปิดตัวเครื่องมือ Pytho ใหม่สำหรับแปลงไฟล์เอกสารเป็น Markdown


Microsoft สร้างความฮือฮาในวงการพัฒนาเทคโนโลยีด้วยการเปิดตัว MarkItDown ไลบรารี Python แบบโอเพ่นซอร์สที่ช่วยแปลงไฟล์เอกสารหลากหลายประเภทให้เป็น Markdown ภาษา lightweight markup ที่เป็นมิตรกับผู้ใช้และ AI

Markdown เป็นภาษาที่ออกแบบมาเพื่อการจัดการข้อความที่ง่ายต่อการอ่านและเขียน พร้อมทั้งรองรับการใช้งานในเครื่องมือยอดนิยม เช่น GitHub และ Jupyter Notebooks นอกจากนี้ Markdown ยังมีโครงสร้างไวยากรณ์ที่ชัดเจนและสม่ำเสมอ ทำให้ AI สามารถประมวลผลและวิเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพ

MarkItDown ถูกออกแบบมาเพื่อรองรับการแปลงไฟล์หลากหลายรูปแบบ เช่น:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • รูปภาพ (ข้อมูล EXIF และ OCR)
  • เสียง (ข้อมูล EXIF และการถอดเสียงพูด)
  • HTML (รวมถึงการแปลงเว็บไซต์ เช่น Wikipedia)
  • ไฟล์ข้อความอื่นๆ (.csv, .json, .xml)

MarkItDown ยังรองรับการเชื่อมต่อกับ Large Language Models (LLMs) เช่น GPT-4 เพื่อสร้างคำอธิบายภาพ (Image Descriptions) โดยอัตโนมัติ ด้วยโค้ดการตั้งค่าที่เรียบง่าย:

from markitdown import MarkItDown 

from openai import OpenAI 
 

ตั้งค่า Client สำหรับโมเดลภาษา 

client = OpenAI() 
 

ใช้ LLM สร้างคำอธิบายภาพ 

md = MarkItDown(mlm_client=client, mlm_model="gpt-4o") 

result = md.convert("example.jpg") 
 

แสดงผลลัพธ์คำอธิบาย 

print(result.text_content) 

MarkItDown มาพร้อมใบอนุญาต MIT License ช่วยให้นักพัฒนาสามารถใช้งาน แก้ไข หรือแจกจ่ายได้อย่างเสรี เพียงระบุใบอนุญาตต้นฉบับ

วิธีการติดตั้ง

นักพัฒนาสามารถดาวน์โหลดไลบรารี MarkItDown Python ได้ที่นี่ นอกจากนี้ยังสามารถเริ่มต้นใช้งาน MarkItDown ได้ง่ายๆ:

  • ติดตั้งผ่านคำสั่ง pip install markitdown
  • หรือ ติดตั้งจากซอร์สโค้ดด้วยคำสั่ง pip install -e

MarkItDown ไม่เพียงแค่ช่วยแปลงเอกสารต่างๆ เป็น Markdown แต่ยังช่วยยกระดับกระบวนการจัดเก็บและวิเคราะห์ข้อมูล รองรับการใช้งานในโครงการขนาดเล็กไปจนถึงระดับองค์กร

หากคุณไม่ใช่ผู้พัฒนา คุณสามารถทดลองใช้ไลบรารี MarkItDown เป็นแอปเว็บได้ที่นี่

สรุป

Microsoft เปิดตัว MarkItDown ไลบรารี Python แบบโอเพ่นซอร์สสำหรับแปลงไฟล์เอกสาร เช่น PDF, Word, Excel, และ PowerPoint เป็น Markdown ซึ่งเป็นภาษาที่ใช้งานง่ายและเหมาะสำหรับการจัดการข้อมูลที่ AI เข้าใจได้ดี

MarkItDown ยังรองรับการสร้างคำอธิบายภาพโดยใช้ AI อย่าง GPT-4 ผ่านการตั้งค่าที่ง่ายดาย พร้อมใบอนุญาต MIT License ช่วยให้นักพัฒนาสามารถใช้งานและปรับแต่งได้อย่างอิสระ

 

ที่มา neowin


Windows 11 Insider เปลี่ยนมาใช้ New Outlook แทน Mail & Calendar แล้ว
ไมโครซอฟท์ออก Windows 11 Insider Preview Build 23506 สถานะยังเป็น Dev Channel มีของใหม่ที่สำคัญคือเปลี่ยนแอพอีเมลที่มากับ OS จากของเดิม Mail & C...

Invoice
024609292
Line
Company