Forum: PC-Programmierung C++, Boost, Spirit: In Identifier-Ketten keine Blanks erlauben?


Announcement: there is an English version of this forum on EmbDev.net. Posts you create there will be displayed on Mikrocontroller.net and EmbDev.net.
von cppbert (Gast)


Bewertung
2 lesenswert
nicht lesenswert
Ich versuche (erstmals mit Spirit) mit '.' verkettete Identifier zu 
parsen (wird Teil eines komplexeren Expression Parsers)

leider dürfen jetzt gerade zwischen den Identifieren und Punkten auch 
noch Blanks sein - was für die restliche Expression-Parser Entwicklung 
sehr gut ist aber in diesem Fall leider nicht

Ich habe versucht mit qi::lexeme und qi::no_skip zu arbeiten
aber leider scheint qi::lexeme nicht auf ganze Parser wie den Identifier 
anwendbar zu sein und mit no_skip wird gar nichts mehr geparst

d.h. die beiden letzten von den 4 Tests sollten nicht parsen

Zum Online kompilieren und spielen:
https://wandbox.org/permlink/o5kcYtUQEfKZqJgw
#include <iostream>
#include <iomanip>
#include <string>
#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/support_utree.hpp>

namespace qi = boost::spirit::qi;
using boost::spirit::utree;

int main() {
    auto tests = std::vector<std::string> {
         "a", // ok
         "a.b", // ok
         "a . b", // nok
         "a . b. c" // nok
    };
    for (std::string str : tests) {
        auto iter = str.begin(), end = str.end();

        qi::rule<std::string::iterator, qi::blank_type, utree()> identifier 
            = qi::lexeme[qi::ascii::alpha >> *(qi::ascii::alnum | '_')];

        qi::rule<std::string::iterator, qi::blank_type, utree()> identifier_chain 
            = identifier >> *('.' >> identifier);

        utree ut;
        bool r = qi::phrase_parse(iter, end, identifier_chain, qi::blank, ut);

        if (r && iter == end) {
            std::cout << "OK: \n" << ut << "\n";
        }
        else {
            std::string rest(iter, end);
            std::cout << "Failed\nstopped at: \": " << rest << "\"\n";
        }
        std::cout << "----\n";
    }
    return 0;
}

Ziel:

so was will ich am Ende parsen können
"a.b.c.d[x,y][a,b].z.b[0].a(y,d,b)[39,2].x[3]"

da brauche ich wohl noch ein bisschen aber das wird schon
nur eben so whitespace Skipping blockiert mich gerade

TODOs die noch so auf meiner Liste sind:

double-quoted strings MIT Escaping:
double_quoted_string = '"' >> qi::no_skip[+~qi::char_('"')] >> '"';

wie kann man Escaping wie in CSV-Dateien mit einem weiteren " erreichen

also: "Hallo ""Spirit"" wie gehts"

von cppbert (Gast)


Bewertung
0 lesenswert
nicht lesenswert
Wenn ich qi::lexeme auf die identifier_chain anwenden bekomme ich eine 
Meldung das der Parser nicht auf Skippable gecastet werden kann - 
scheint also nur für Charakterklassen zu gehen

von cppbert (Gast)


Bewertung
0 lesenswert
nicht lesenswert
und natürlich kann ich mein identifier_chain rule auch "manuell" 
ausprägen
qi::rule<std::string::iterator, qi::blank_type, utree()> identifier_chain 
  = qi::lexeme[qi::ascii::alpha >> *(qi::ascii::alnum | '_') 
  >> *('.' >> qi::ascii::alpha >> *(qi::ascii::alnum | '_'))];

dann geht es auch - ist aber reichlich redundant und was ist dann der 
Sinn von den Rules?

von cppbert (Gast)


Bewertung
0 lesenswert
nicht lesenswert
bei Stackoverflow wurde mir geholfen
        qi::rule<std::string::const_iterator, utree()>
            identifier = qi::ascii::alpha >> *(qi::ascii::alnum | '_'),
            identifier_chain = identifier >> *('.' >> identifier);

einfach den qi::blank_type weglassen dann ist lexeme default

von Sheeva P. (sheevaplug)


Bewertung
0 lesenswert
nicht lesenswert
cppbert schrieb:
>
>         std::cout << "----\n";
> 

Prima, daß Du die Lösung schon gefunden hast, aber an dieser Stelle 
möchte ich kurz an std::endl anstelle von "\n" erinnern. std::endl setzt 
auf dem jeweiligen Betriebssystem den korrekten Zeilenumbruch ("\n" 
unter UNIXen, "\r\n" unter Windows, IIRC "\r" unter MacOS)... ;-)

Antwort schreiben

Die Angabe einer E-Mail-Adresse ist freiwillig. Wenn Sie automatisch per E-Mail über Antworten auf Ihren Beitrag informiert werden möchten, melden Sie sich bitte an.

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen




Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.

Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.