使用Instaparse使用BNF解析序列化的PHP数据
作者:互联网
我有一个PHP序列化的值,我需要在Clojure中解码.我正在使用这个library来反序列化它;它使用Instaparse,它利用EBNF / ABNF表示法来定义语法.供参考,这是完整的定义:
<S> = expr
<expr> = (string | integer | double | boolean | null | array)+
<digit> = #'[0-9]'
<number> = negative* (decimal-num | integer-num)
<negative> = '-'
<integer-num> = digit+
<decimal-num> = integer-num '.' integer-num
<zero-or-one> = '0'|'1'
size = digit+
key = (string | integer)
<val> = expr
array = <'a:'> <size> <':{'> (key val)+ <'}'> <';'>?
boolean = <'b:'> zero-or-one <';'>
null = <'N;'>
integer = <'i:'> number <';'>
double = <'d:'> number <';'>
string = <'s:'> <size> <':\\\"'> #'([^\"]|\\.)*' <'\\\";'>
我在这个库中发现了一个错误 – 它无法处理包含“字符”的序列化字符串.
php > echo serialize('{"key":"value"}');
s:15:"{"key":"value"}";
使用库进行反序列化,当它找到第二个时它会爆炸“:
> (deserialize-php "s:15:\"{\"key\":\"value\"}\";")
[:index 7]
语法定义的这一行存在问题:
string = <'s:'> <size> <':\\\"'> #'([^\"]|\\.)*' <'\\\";'>
您会注意到字符串定义排除了“字符.但这不正确,我可以在该字符串中包含任何字符;大小是重要的.我不是BNF专家,所以我想弄明白什么我的选择是.
是否可以使用大小作为正确的字符数来抓取?如果那是不可能的,有人会看到一种方法我可以调整语法定义以启用正确的解析吗?
解决方法:
作为stated by Arthur Ulfeldt,这个语法是not context-free due to the bencoded strings.尽管如此,它是一个简单的解析,而不是A / EBNF.例如,使用Parse-EZ代替:
方便宏:
(defmacro tagged-sphp-expr [tag parser]
`(fn [] (between #(string ~(str tag ":")) #(~parser) #(string ";"))))
其余的部分:
(def sphp-integer (tagged-sphp-expr "i" integer))
(def sphp-decimal (tagged-sphp-expr "d" decimal))
(defn sphp-boolean []
(= \1 ((tagged-sphp-expr "b" #(chr-in "01")))))
(defn sphp-null [] (string "N;") :null)
(defn sphp-string []
(let [tag (string "s:")
size (integer)
open (no-trim #(string ":\""))
contents (read-n size)
close (string "\";")]
contents))
(declare sphp-array)
(defn sphp-expr []
(any #(sphp-integer) #(sphp-decimal) #(sphp-boolean) #(sphp-null) #(sphp-string) #(sphp-array)))
(defn sphp-key []
(any #(sphp-string) #(sphp-integer)))
(defn sphp-kv-pair []
(apply array-map (series #(sphp-key) #(sphp-expr))))
(defn sphp-array []
(let [size (between #(string "a:") #(integer) #(string ":{"))
contents (times size sphp-kv-pair)]
(chr \})
(attempt #(chr \;))
contents))
考试:
(def test-str "i:1;d:2;s:16:\"{\"key\": \"value\"}\";a:2:{s:3:\"php\";s:3:\"sux\";s:3:\"clj\";s:3:\"rox\";};b:1;")
(println test-str)
;=> i:1;d:2;s:16:"{"key": "value"}";a:2:{s:3:"php";s:3:"sux";s:3:"clj";s:3:"rox";};b:1;
(parse #(multi* sphp-expr) test-str)
;=> [1 2.0 "{\"key\": \"value\"}" [{"php" "sux"} {"clj" "rox"}] true]
标签:bnf,ebnf,php,clojure,parsing 来源: https://codeday.me/bug/20190831/1776727.html