Cách đếm số từ của file XML khi dịch Game/ App/Website

Blog » Chia sẻ - kinh nghiệm » Cách đếm số từ của file XML khi dịch Game/ App/Website

Bạn nhận được những file XML, mỗi file chứa hàng ngàn dòng và được yêu cầu báo giá dịch thuật cho những từ trong thuộc tính (attributes) của XML và văn bản giữa các thẻ (tags) của XML.

Ví dụ một thẻ xml có chứa thuộc tính:

<item type=”expbook” id=”1001″ description=”相传自战国时期辗转流传至今的秘笈\n世人可将自己的经验写入秘笈中”>豪杰秘笈</item>

Chỉ dịch văn bản ở giữa thẻ <item>….</item> và thuộc tính description
Đếm số từ của file XML

Vậy với định dạng XML như thế này bạn làm sao để tính được chính xác số từ để báo giá cho khách hàng? Làm sao để khách hàng cảm thấy không bị thiệt còn phía công ty dịch thuật thì chắc chắn không bị lỗ và đảm bảo được sự tin tưởng của khách hàng?

Hiện nay trên thế giới có một số công cụ đếm file XML. Tuy nhiên về phần thuộc tính của XML thì không đếm được. Tại Việt Nam, theo tôi cách tốt nhất và để khách hàng tin tưởng nhất vẫn là word count trên Microsoft Word, do đó nhiệm vụ của chúng ta sẽ là trích xuất được toàn bộ phần text cần dịch trong file XML về file *.docx.

Ở bài trước “Cách đếm số từ khi dịch Game/App tiếng Trung“. Nếu cơ bản file XML của bạn chỉ dịch tiếng Trung thì bạn có thể áp dụng cách của bài đó. Còn ở bài viết này chúng ta nói cách trích xuất số từ của bất kỳ ngôn ngữ nào trong file XML.

Ok, bắt đầu nào:

Lưu ý: Nếu XML của bạn chỉ có nội dung ở thuộc tính thì bạn phải bật thuộc tính lên

Kết quả lọc văn bản từ XML
Kết quả lọc văn bản từ XML

Bạn có thể loại trừ các thuộc tính hoặc tag không muốn xuất hiện trong kết quả thì bạn hãy chèn Tags hoặc Attribute ở mục Tuỳ chọn nâng cao.

Ngoài ra, nếu bạn muốn loại bỏ các số từ kết quả trên thì bạn có thể sử dụng thêm công cụ xoá số khỏi văn bản tại đây: https://dichthuatphuongdong.com/tienich/xoa-so.html

Kết quả xoá số khỏi văn bản
Kết quả xoá số khỏi văn bản

Nếu văn bản cần lọc của bạn toàn tiếng Trung Quốc thì lại rất đơn giản, chỉ cần paste ngay nội dung vào đây: https://dichthuatphuongdong.com/tienich/chinese-only.html

Kết quả lọc tiếng Trung từ văn bản
Kết quả lọc tiếng Trung từ văn bản

Trên đây Phương Đông đã trình bày cách để lọc văn bản từ file XML cho từng file cụ thể. Nếu bạn có rất nhiều file thì rất vất vả để lọc kiểu này và phải sử dụng công cụ đặc biệt. Tại Dịch Thuật Phương Đông, chúng tôi đã phát triển công cụ chuyên nghiệp, chuyên để lọc/ đếm số từ từ tất cả các loại văn bản phức tạp như: XML, HTML, Source code các ngôn ngữ (LUA, C++,…)

Vậy nếu bạn có nhu cầu dịch thuật game, dịch thuật phần mềm (app), dịch thuật website hoặc các loại tài liệu khác. Vui lòng liên hệ với chúng tôi để được báo giá tốt nhất!

Email: contact@dichthuatphuongdong.com
Hotline: 0964.333.933
5/5 - (8 bình chọn)
Liên hệ dịch tài liệu hoặc tìm phiên dịch viên

Viết một bình luận

eleven + eighteen =