Търся свестен PDF към HTML конвертор, понеже Acrobat Reader-a хич не ми чете добре PDF-ите.
Оказва се обаче, че повечето такива конвертори създават псевдо-html, като то представлява такава страница с png картинка, което е разбираемо, като се има предвид какво представлява PDF-a. Въпроса е, че има софтуер (OCR-like), който може да пренаправи PDF в plaintext html. Аз си намерих един много як на адрес http://sourceforge.net/projects/pdftohtml, на който единия автор (от двама) се казва Георги Овчаров :-), демек на българин ми прилича, а пък самия конвертор не може да ми пренаправи PDF съдържащ български символи, иначе тези на английски са перфектни с индекс на страниците и куп екстри.. може и в XML да експортва :-). Писах в тамошния форум, може би не успявам да го настроя.. или ми трябват допълнителни шрифтове, въпреки че в програмата за такова нещо не се споменава.. но в тази насока работя.
Друг вариант, който пробвах е с copy/paste от Acrobat Reader в Microsoft Word, което стана доста качествено, защото се запазиха всички видове форматирания на текста.. освен всичката кирилица, разните удебелени, наклонени, заглавия, подзаглавия и т.н. Но видите ли, ако на Word му дам да го запише като HTML, то ми изпрасква ебахти сложния XML-HTML, дето после ми е трудно да работя с него като изходен код, ама ако не намеря вариант.. май той остава.
Идеи?
<font size=1>I love Miranda!</font id=size1>