Резултати от 1 до 9 от общо 9

regular expressions match кирилица

Сподели във Facebook Сподели в Twitter Изпрати на Email Сподели в LinkedIn
  1. Senior Member
    Тук е от
    Aug 2005
    Мнения
    1,029
    #1

    regular expressions match кирилица

    много страно нещо ми се случва, php-то неще да мачне щ, а всички други букви ги мачва или поне така изглежда...някой да е наблюдавал това поведение и да има разрешение на този въпрос... и въобще по-смислен начин за мачване на кирилица от този има ли?


    Код:
    ([ЯВЕРТЪУИОПШЩАСДФГХЙКЛЮЗЬЦЖБНМЧявертъуиопшщасдфгхйклюзьцжбнмч&\%\\\\+!}<\'{;:?).\s" \/\(=,\/\>-]|\w)

  2.  
     
  3. Senior Member Аватара на Bibi
    Тук е от
    Nov 2004
    Мнения
    2,757
    #2

    Re: regular expressions match кирилица

    А не може ли да се въвеждат и обработват като стойности, а не като символи?

    //
    (Препоръчително) данните да са UTF-8.
    Ако е така, трябва първо да се настрои PHP-то.
    Има доста настройки, включително и за MB_STRING библиотеката.
    Настроиваш internal енкодинга, или гледаш в php.ini :
    mb_regex_encoding();
    mb_internal_encoding();

    След това трябва да се използват не стандартните функции, а multibyte-аналозите (след като се активира този екстеншън).

    Ако не е UTF-8: по-добре да се използва preg_match вместо ereg.

  4. Senior Member
    Тук е от
    Aug 2005
    Мнения
    1,029
    #3

    Re: regular expressions match кирилица

    значи идеята е, (т.к. никой не ми каза къде има български rss-feed с по обширни новини), аз сам да си парсна някой новинарски сайт и да си направя такъв...

    тъй, че input-а е примерно news.bg (т.е. какъвто е такъв, не мога да го променям), направих си няколко expression-a, които разкарват comments (<!-- * -->) и скриптовете (<script * /script>), след което разкарвам всички тагове и празни полета. обикновено се получава добър резултат, но като има "щ" и не мачва... , кво му е толкова по-различното на това "щ" не мога да разбера.

    ей го на скриптчето:

    Код:
    $pageurl=$_REQUEST["url"];
    $page=file_get_contents($pageurl);
    
    //remove comments
    $page=preg_replace('/(\<!--)([ЯВЕРТЪУИОПШЩАСДФГХЙКЛЮЗЬЦЖБНМЧявертъуиопшщасдфгхйклюзьцжбнмч&\%\\\\+!}<\'{;:?).\s" \/\(=,\/\>-]|\w)*(-->)/i','deleted',$page);
    //remove scripts
    $page=preg_replace('/(\<(no)*script)([ЯВЕРТЪУИОПШЩАСДФГХЙКЛЮЗЬЦЖБНМЧявертъуиопшщасдфгхйклюзьцжбнмч&\%\\\\+!}<\'{;:?).\s" \/\(=,\/\>-]|\w)*(\/(no)*script>)/i','',$page); 
    
    
    $page=preg_replace('@<[\/\!]*?[^<>]*?>@si','',$page); //remove tags
    $page=preg_replace('@<[\/\!]*?[^<>]*?@si','',$page); //remove invalid tags 
    $page=preg_replace('/[\r\n]+[\s\t]*[\r\n]+/','\n',$page); //remove blank lines
    
    echo $page;


  5. Senior Member Аватара на Bibi
    Тук е от
    Nov 2004
    Мнения
    2,757
    #4

    Re: regular expressions match кирилица

    Абе има му нещо на "Щ"-то, щом и CapsLock не го вдига.
    Сигурно няма връзка в тези събития, но буквата си е своенравна и вироглава...
    Между другото, как стоят нещата с "Ю"?

  6. Senior Member
    Тук е от
    Aug 2005
    Мнения
    1,029
    #5

    Re: regular expressions match кирилица

    хъм... при мене капс-а си повдига всичко наред...
    и според програмката "Тhe Regex Coach" всичко си варви...

    бла,... ей затова понякога се дразня на кирлицата, и на умлаутите де...

  7. Senior Member Аватара на Bibi
    Тук е от
    Nov 2004
    Мнения
    2,757
    #6

    Re: regular expressions match кирилица

    За жалост изобщо не знам PHP и едва ли ще успея да ти помогна.
    Сега ще се поровя малко, защото от доста време чета за разнообразни проблеми с кирилицата там. И аз не можах да реша един подобен, свързан със сортиране.
    Но може пък нещо да изскочи. Пожелай ми късмет

  8.  
     
  9. Senior Member
    Тук е от
    Aug 2005
    Мнения
    1,029
    #7

    Re: regular expressions match кирилица

    пожелав!
    то и аз разпитвам чичо , ама още не сам открил правилния въпрос, че да ми отговори правилно...


    бтв ю-то се мачва като слънце. пробвах тоя скрипт на 4 различни машини с различни php-та и все същата боза.


    има ли начин на regular expression-а да му се каже да match-ва примерно по ascii или unicode код?...



  10. Тук е от
    Nov 2004
    Мнения
    9
    #8

    Re: regular expressions match кирилица

    http://netinfo.bg и http://dnes.bg имат rss feeds виж първо дали ще ти свършат работа. е само началото на новините е. ама целите новини новини не знам някой да има.

    за да разкараш таговете виж функцията на php strip_tags. ама е добре преди това да разкараш css.

    парсването на html с регулярни изрази е гадна работа.

    за всичките букви на кирилица можеш да опиташ с интервал така: а-яА-Я вместо да ги пишеш всичките. ама не съм го тествал.

  11. Senior Member
    Тук е от
    Aug 2005
    Мнения
    1,029
    #9

    Re: regular expressions match кирилица

    справих се с проблемацията...

    оказа се, че заради translation-а на putty-то, сам виждал и пишел в KOI8-R, където буквите по клавиатурата не са това, което са в частност Щ е е-оборотното...

    като дадох echo на regularexpresion-a излязаха някакви тотално разбъркани буквички...

    иначе парсването се получи добре... като за междудругото написано скриптче.

    поуката е да внимавате с енкодингите, че са 5123457390457 вида...

Сподели във Facebook Сподели в Google Plus Сподели в Twitter Изпрати на Email Сподели в LinkedIn

Подобни теми

  1. кирилица на VB 6.0
    От novamen във форум Програмиране
    Отговори: 1
    Последно: 13-02-09, 11:28
  2. Отговори: 4
    Последно: 01-12-05, 20:42
  3. Кирилица на XP x64???
    От DEYDOD във форум Windows
    Отговори: 2
    Последно: 18-10-05, 20:57
  4. Кирилица?
    От JOJO във форум Windows
    Отговори: 5
    Последно: 31-07-04, 23:35
  5. Неправилно търсене с "Match any of the words"
    От Cko във форум За Форума
    Отговори: 1
    Последно: 28-01-04, 19:47

SetCombG.com
SetCombG.com е портален сайт и Форум за битова техника, телевизори, климатици, лаптопи и смартфони, създаден през 1999 година.
Заедно сме над 20 години!
Следвай ни
Горе