Bạn nhận được những file XML, mỗi file chứa hàng ngàn dòng và được yêu cầu báo giá dịch thuật cho những từ trong thuộc tính (attributes) của XML và văn bản giữa các thẻ (tags) của XML.
Ví dụ một thẻ xml có chứa thuộc tính:
<item type=”expbook” id=”1001″ description=”相传自战国时期辗转流传至今的秘笈\n世人可将自己的经验写入秘笈中”>豪杰秘笈</item>
Chỉ dịch văn bản ở giữa thẻ <item>….</item> và thuộc tính description
Vậy với định dạng XML như thế này bạn làm sao để tính được chính xác số từ để báo giá cho khách hàng? Làm sao để khách hàng cảm thấy không bị thiệt còn phía công ty dịch thuật thì chắc chắn không bị lỗ và đảm bảo được sự tin tưởng của khách hàng?
Hiện nay trên thế giới có một số công cụ đếm file XML. Tuy nhiên về phần thuộc tính của XML thì không đếm được. Tại Việt Nam, theo tôi cách tốt nhất và để khách hàng tin tưởng nhất vẫn là word count trên Microsoft Word, do đó nhiệm vụ của chúng ta sẽ là trích xuất được toàn bộ phần text cần dịch trong file XML về file *.docx.
Ở bài trước “Cách đếm số từ khi dịch Game/App tiếng Trung“. Nếu cơ bản file XML của bạn chỉ dịch tiếng Trung thì bạn có thể áp dụng cách của bài đó. Còn ở bài viết này chúng ta nói cách trích xuất số từ của bất kỳ ngôn ngữ nào trong file XML.
Ok, bắt đầu nào:
- Bước 1: Bạn truy cập vào công cụ Lọc văn bản từ file XML: https://dichthuatphuongdong.com/tienich/xml2text.html
- Bước 2: Dán nội dung XML vào ô nhập –> click button Lọc văn bản.
Lưu ý: Nếu XML của bạn chỉ có nội dung ở thuộc tính thì bạn phải bật thuộc tính lên
Bạn có thể loại trừ các thuộc tính hoặc tag không muốn xuất hiện trong kết quả thì bạn hãy chèn Tags hoặc Attribute ở mục Tuỳ chọn nâng cao.
Ngoài ra, nếu bạn muốn loại bỏ các số từ kết quả trên thì bạn có thể sử dụng thêm công cụ xoá số khỏi văn bản tại đây: https://dichthuatphuongdong.com/tienich/xoa-so.html
Nếu văn bản cần lọc của bạn toàn tiếng Trung Quốc thì lại rất đơn giản, chỉ cần paste ngay nội dung vào đây: https://dichthuatphuongdong.com/tienich/chinese-only.html
Trên đây Phương Đông đã trình bày cách để lọc văn bản từ file XML cho từng file cụ thể. Nếu bạn có rất nhiều file thì rất vất vả để lọc kiểu này và phải sử dụng công cụ đặc biệt. Tại Dịch Thuật Phương Đông, chúng tôi đã phát triển công cụ chuyên nghiệp, chuyên để lọc/ đếm số từ từ tất cả các loại văn bản phức tạp như: XML, HTML, Source code các ngôn ngữ (LUA, C++,…)
Vậy nếu bạn có nhu cầu dịch thuật game, dịch thuật phần mềm (app), dịch thuật website hoặc các loại tài liệu khác. Vui lòng liên hệ với chúng tôi để được báo giá tốt nhất!
Email: contact@dichthuatphuongdong.com
Hotline: 0964.333.933