提问者:小点点

PDF代从超文本标记语言具有多语言文本使用飞碟iText,只有中文字体工作


我正在尝试使用iText和飞碟将html页面转换为pdf。html页面的编码是

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">

<html xmlns="http://www.w3.org/1999/xhtml"><head>
 <title>中文測試</title>
 <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
 <style type="text/css">
     name
     {
         font-family: "Arial Unicode MS";
         color: blue;
         font-size: 48;
     }
 </style>
</head>
<body>  
  <name>名偵探小怪獸</name>
     <h1>भारतीय जनता पार्टी ने फिर कहा है कि बहुमत न होने के कारण वो दिल्ली में सरकार बनाने की
         इच्छुक नहीं है और दोबारा चुनाव के लिए तैयार है.
    </h1>
 <h1>Japanese 日本国</h1>
</body>
</html>

Java代码是

import java.io.*;
import org.xhtmlrenderer.pdf.*;
import com.lowagie.text.pdf.*;
public class ChineseToPdf {
    public static void main(String[] args) {
        try {
            String inputFile = "chinese.html";
            String url = new File(inputFile).toURI().toURL().toString();
            String outputFile = "test.pdf";
            OutputStream os = new FileOutputStream(outputFile);
            ITextRenderer renderer = new ITextRenderer();
            ITextFontResolver resolver = renderer.getFontResolver();
            resolver.addFont("C:/Windows/Fonts/arialuni.ttf", BaseFont.IDENTITY_H, BaseFont.EMBEDDED);
            renderer.setDocument(url);
            renderer.layout();
            renderer.createPDF(os);
            os.close();
        } catch (Exception e) {
            System.out.println(e.getMessage());
        }
    }
}

在输出中,只有中文字体渲染正确,印地语和日语作为空白。

请帮帮我。


共2个答案

匿名用户

您定义的样式仅适用于标签name,印地语和日语文本在此标签之外。它使用默认字体呈现,该字体不支持所有unicode字符。

要修复bug,您可以更改样式以对所有文档使用字体“Arial UnicodeMS”:

body{font-family: "Arial Unicode MS";}

匿名用户

公认的答案确实有效。但还有一件事要指出:

字体系列设置应该以“Arial UnicodeMS”开头。如果它以不支持CJK的字体开头,输出的pdf仍然不会显示这些字符。