значи идеята е, (т.к. никой не ми каза къде има български rss-feed с по обширни новини), аз сам да си парсна някой новинарски сайт и да си направя такъв...
тъй, че input-а е примерно news.bg (т.е. какъвто е такъв, не мога да го променям), направих си няколко expression-a, които разкарват comments (<!-- * -->) и скриптовете (<script * /script>), след което разкарвам всички тагове и празни полета. обикновено се получава добър резултат, но като има "щ" и не мачва... , кво му е толкова по-различното на това "щ" не мога да разбера.
ей го на скриптчето:
Код:
$pageurl=$_REQUEST["url"];
$page=file_get_contents($pageurl);
//remove comments
$page=preg_replace('/(\<!--)([ЯВЕРТЪУИОПШЩАСДФГХЙКЛЮЗЬЦЖБНМЧявертъуиопшщасдфгхйклюзьцжбнмч&\%\\\\+!}<\'{;:?).\s" \/\(=,\/\>-]|\w)*(-->)/i','deleted',$page);
//remove scripts
$page=preg_replace('/(\<(no)*script)([ЯВЕРТЪУИОПШЩАСДФГХЙКЛЮЗЬЦЖБНМЧявертъуиопшщасдфгхйклюзьцжбнмч&\%\\\\+!}<\'{;:?).\s" \/\(=,\/\>-]|\w)*(\/(no)*script>)/i','',$page);
$page=preg_replace('@<[\/\!]*?[^<>]*?>@si','',$page); //remove tags
$page=preg_replace('@<[\/\!]*?[^<>]*?@si','',$page); //remove invalid tags
$page=preg_replace('/[\r\n]+[\s\t]*[\r\n]+/','\n',$page); //remove blank lines
echo $page;